ガードレールを構成する

早期アクセス

ガードレールは、エンドユーザーメッセージ内の有害なコンテンツを検出し、エージェントの応答方法を制御します。これらはエージェント設定の一部です。

より広範な行動計画については、「行動ガイドラインの計画」を参照してください。

フィルタ設定

各ガードレールには、次の 3 つの設定があります。

フィルターの感度:

手記Not applicable for Jailbreak shield.

フィルターがトリガーされたときにエージェントが行うこと:

モード	説明
注釈	メッセージの通過を許可します。フィルターの一致を Analytics に記録します。
ブロック	メッセージをブロックします。フィルターの一致を Analytics に記録します。
オフ	このカテゴリのフィルターを無効にします。

手記

脱獄シールドカテゴリは、重大度レベルを使用しません。欠陥の悪用、安全ガイドラインの回避、事前定義された指示の上書きなど、エンドユーザーによる AI エージェントを操作しようとする試みを検出します。

ガードレールを設定するには、エージェント設定の ガードレール セクションを開き、各フィルターの カテゴリ、モード、および 重大度 (該当する場合) を設定します。