Loading...

コンテンツフィルターを構成する

コンテンツフィルターは、エンドユーザーメッセージ内の有害なコンテンツを識別し、エージェントの応答方法を制御します。

暴力や憎悪などのカテゴリでメッセージをフィルタリングできます。カテゴリごとに、重大度とAIエージェントのアクション(モード)を設定できます。

カテゴリ

コンテンツをフィルタリングするカテゴリを 1 つ以上選択します。

暴力
憎む
性的
自傷行為
脱獄シールド。このフィルターは、エンドユーザーによる AI エージェントの操作の試みを検出します。例としては、欠陥の悪用、安全ガイドラインの回避、事前定義された命令の上書きなどが挙げられます。

モード

メッセージがフィルター条件を満たしたときにエージェントが実行するアクションを選択します。

注釈: AI エージェントがメッセージを処理して応答できるようにします。分析では、メッセージがトリガーしたフィルターを確認できます。
注釈とブロック: AI エージェントがメッセージを処理して応答できないようにします。分析では、メッセージによってトリガーされたフィルターを確認できます。
オフ: AI エージェントは、選択したフィルタカテゴリの基準を満たしているかどうかに関係なく、メッセージのフィルタリングを試みません。

過酷

この設定は、フィルターが有害なコンテンツに対してどの程度敏感であるかを制御します。

使用可能な重大度レベル:

低: 軽度の不適切な言葉遣いも検出します。
中: 中程度に有害な言葉や攻撃的な言葉を検出します。
高: 明らかに有害な言葉のみを検出します。

コンテンツフィルタの設定

コンテンツフィルター タブで、コンテンツフィルター を有効にします。
カテゴリごとに、次の項目を設定します。
- モード
- 重大度 (脱獄シールドには適用されません)

次のステップ

コンテンツフィルターを設定したら、エージェントを公開する前に、エージェントをテストして、フィルターが期待どおりに機能することを確認します。

エージェントをテストする(品質センター)エージェントを公開する

ご不明点は

サポートまでお問い合わせ

ください

© NTT DOCOMO BUSINESS X,Inc.