コンテンツ フィルターを構成する
コンテンツフィルターは、エンドユーザーメッセージ内の有害なコンテンツを識別し、エージェントの応答方法を制御します。
暴力や憎悪などのカテゴリでメッセージをフィルタリングできます。カテゴリごとに、重大度とAIエージェントのアクション(モード)を設定できます。
カテゴリ
コンテンツをフィルタリングするカテゴリを 1 つ以上選択します。
- 暴力
- 憎む
- 性的
- 自傷行為
- 脱獄シールド。このフィルターは、エンド ユーザーによる AI エージェントの操作の試みを検出します。例としては、欠陥の悪用、安全ガイドラインの回避、事前定義された命令の上書きなどが挙げられます。
モード
メッセージがフィルター条件を満たしたときにエージェントが実行するアクションを選択します。
- 注釈: AI エージェントがメッセージを処理して応答できるようにします。分析では、メッセージがトリガーしたフィルターを確認できます。
- 注釈とブロック: AI エージェントがメッセージを処理して応答できないようにします。分析では、メッセージによってトリガーされたフィルターを確認できます。
- オフ: AI エージェントは、選択したフィルタカテゴリの基準を満たしているかどうかに関係なく、メッセージのフィルタリングを試みません。
過酷
この設定は、フィルターが有害なコンテンツに対してどの程度敏感であるかを制御します。
使用可能な重大度レベル:
- 低: 軽度の不適切な言葉遣いも検出します。
- 中: 中程度に有害な言葉や攻撃的な言葉を検出します。
- 高: 明らかに有害な言葉のみを検出します。
コンテンツ フィルタの設定
- コンテンツ フィルター タブで、コンテンツ フィルター を有効にします。
- カテゴリごとに、次の項目を設定します。
- モード
- 重大度 (脱獄シールドには適用されません)
次のステップ
コンテンツ フィルターを設定したら、エージェントを公開する前に、エージェントをテストして、フィルターが期待どおりに機能することを確認します。