Logo
AIエージェント
AIエージェント
ガードレールを構成する

ガードレールを構成する

早期アクセス

ガードレールは、エンドユーザーメッセージ内の有害なコンテンツを検出し、エージェントの応答方法を制御します。これらは エージェント設定 の一部です。

より広範な行動計画については、「行動ガイドラインの計画」を参照してください。


フィルタ設定

各ガードレールには、次の 3 つの設定があります。

  1. カテゴリ
  2. 重大 度
  3. モード

カテゴリ

フィルタリングするコンテンツの種類を選択します。

  • 暴力 - 暴力的な言葉や脅迫。
  • ヘイト - ヘイトスピーチまたは差別的なコンテンツ。
  • 性的 - 露骨または不適切な性的なコンテンツ。
  • 自傷行為 - 自傷行為を助長するコンテンツ。
  • 脱獄シールド - エージェントを操作したり、安全ガイドラインを回避したりしようとします。

過酷

フィルターの感度:

重大度説明
軽度の不適切な言葉遣いを検出します。
ミディアム中程度の有害な言語を検出します。
明示的に有害な言語のみを検出します。
手記Not applicable for Jailbreak shield.

モード

フィルターがトリガーされたときにエージェントが行うこと:

モード説明
注釈メッセージの通過を許可します。フィルターの一致を Analytics に記録します。
ブロックメッセージをブロックします。フィルターの一致を Analytics に記録します。
オフこのカテゴリのフィルターを無効にします。
AI agents guardrails configuration
手記

脱獄シールドカテゴリは、重大度レベルを使用しません。欠陥の悪用、安全ガイドラインの回避、事前定義された指示の上書きなど、エンド ユーザーによる AI エージェントを操作しようとする試みを検出します。

ガードレールを設定するには、エージェント設定の ガードレール セクションを開き、各フィルターの カテゴリモード、および 重大度 (該当する場合) を設定します。


次のステップ







Logo

ご不明点は

サポートまでお問い合わせ

ください

© NTT DOCOMO BUSINESS X,Inc.