ナレッジエージェント

早期アクセス

品質センターを使用して、本番稼働前にナレッジエージェントをテストします。サンプルの質問をアップロードしてエージェントの応答を確認し、その結果を使用して問題を特定し、エージェントのパフォーマンスを向上させます。

アクセスするには、AI エージェント > 品質センター > ナレッジエージェント に移動します。

すべてのナレッジエージェントの集計されたパフォーマンスメトリックと履歴分析については、「ナレッジエージェントの分析](/insights-and-analytics/analytics/ai-agents#knowledge-agent-analytics)」を参照してください。

ここでは、検索バーを使用してタスクを検索し、新しいタスクを実行し、次の情報を含むテーブルで既存のタスクを確認できます。

タスク名
ナレッジエージェント
作成場所
ステータス
テストの詳細を含む.csvファイルをダウンロードするオプション

プロセスの概要

テストするナレッジエージェントを選択します。
タスクを作成して実行します。
タスクのstatusを確認してください。
タスクが完了したら、結果を表示。
ナレッジエージェントの更新を使用します。

テスト

サンプルの質問を使用してナレッジエージェントをテストし、期待どおりに応答することを確認します。質問を含む.csvファイルをアップロードし、タスクを実行して結果を確認します。

テスト問題を準備する

実際の終了ユーザークエリを表すサンプル質問を含む.csvファイルを作成します。

自動車ディーラー代理店向けの質問例:

*利用可能な車種は何ですか?
*新車と中古車を販売していますか?
*古い車を下取りに出すことはできますか?
*どのような資金調達オプションを提供していますか?

回答の正確性を確認するには、各質問の横にreference_answer列を追加して ground truth evaluation を使用します。

タスクを実行する

NTT CPaaS Webインターフェイスで、AIエージェント>品質センター>ナレッジエージェントに移動します。
新しいタスクの実行 を選択して、ナレッジエージェントが一連の質問にどのように応答するかをテストします。その回答を確認して、どのソースを使用し、その理由を確認することができます。
ポップアップで:
1. タスク名を入力します。
2. ドロップダウンメニューからナレッジエージェントを選択します。
3. 必要に応じて、例の質問を含む.csvファイルをダウンロードします。
4. 質問を含む.csvファイルをアップロードします。
[タスクの実行] を選択します。

グラウンドトゥルース評価 (オプション)

グラウンドトゥルース評価では、エージェントの応答を、提供された期待される回答と比較します。

.csvファイルに 2 つの列を追加します。

「質問」
reference_answer

テストが実行されると、生成された各回答は次のいずれかのラベルを受け取ります。

良い - 答えは期待される答えと一致します
不完全 - 全体的には正しいが、予想される回答からいくつかの詳細が欠けている
BAD - 不正確または捏造された情報が含まれています

各回答のラベルと理由は、結果ファイルに含まれます。

タスクのステータスを表示する

タスクテーブルセクションですべてのタスクを表示できます。このセクションには、各タイプの最新のタスクの最大20個が表示されます。

次のタスク ステータス を使用できます。

完了: タスクが終了し、結果をダウンロードする準備が整いました。
失敗: タスクは正常に完了しませんでした。ステータスの横にある情報アイコンにカーソルを合わせると、詳細が表示されます。
進行中: タスクは現在実行中です。

結果を表示する

タスクが完了したら、リンクされたタスク名を選択して結果を表示するか、タスクセクションから.csvファイルをダウンロードします。

結果分析

タスクテーブルからリンクされたタスク名を選択して、結果分析ページを開きます。

このページには、次の情報が含まれています。

タスク名
作成日
概要、予想される動作、知識のギャップのタブ

概要

概要タブには、上位の問題、統計、分析情報、応答遅延などの重要な情報が表示されます。

主な問題

主な問題セクションでは、対処すべき主な問題を強調しています。

統計

統計セクションには、次のメトリックが含まれています。

メトリック	説明
総インタラクション数	ナレッジエージェントとの対話の合計数。
セッションあたりの平均インタラクション	セッションごとに交換されるメッセージの平均数。
ユーザーあたりの平均インタラクション	ユニークユーザーごとに交換されるメッセージの平均数。
期待される行動率	ナレッジエージェントが期待どおりに動作したインタラクションの割合(回答の成功、ポリシーで制限された回答、関連性のない質問など)。
知識のギャップ	ドキュメントの欠落または不十分なために、ナレッジエージェントが完全で正しい回答を提供できなかったインタラクションの割合。幻覚のリスク、部分的に回答された質問、および未回答の質問が含まれます。
平均応答時間	ナレッジエージェントがユーザーの質問に応答するのにかかる平均時間。
取得したドキュメント	ユーザーの質問に答えるために取得された個別のドキュメントの数。

インサイトの配布

分析情報の分布 セクションには、分析情報カテゴリの内訳が表示されます。

回答なし
一部回答済み
成功
ポリシー制限
関連なし
幻覚のリスク

応答レイテンシー

応答の待機時間 セクションには、構成可能な設定に基づく待機時間が表示されます。

時間範囲:
- 時間
- 毎日
- 日付
メトリック：
- 最小
- 平均
- 最大
- 25パーセンタイル
- 50パーセンタイル(中央値)
- 75パーセンタイル
- 90パーセンタイル
- 既定のメトリックにリセット するオプション (最小、平均、90 パーセンタイル)

予想される行動

[予期される動作] タブには、次のメトリックが含まれています。

メトリック	説明
成功	ナレッジエージェントが正しく有用な回答を提供したインタラクション。
ポリシー制限	ナレッジエージェントがドキュメントまたはシステムプロンプトの指示に基づいて応答を正しく制限したインタラクション。
関連なし	ユーザーの質問がナレッジエージェントに関連しないインタラクション。グリーティング、別れ、およびサポートされているスコープ外のクエリが含まれます。
一部回答済み	ドキュメントのカバレッジが不十分なためにナレッジエージェントが不完全な回答を提供したやり取り。

これらの指標の下には、同じ名前のタブと、それぞれのトピック数があります。

質問を選択してナレッジエージェントがどのように応答したかを表示し、コンテキストリソースの表示 オプションを使用して回答に使用されたソースを表示できます。

知識のギャップ

知識のギャップ タブには、次のメトリックが含まれています。

メトリック	説明
幻覚のリスク	ナレッジエージェントがドキュメントやシステム命令に基づかない仮定を導入したやり取りにより、不正確または不正確な回答につながる可能性があります。
回答なし	ドキュメントが欠落しているためにナレッジエージェントがユーザーの質問を解決できなかったインタラクション。

これらの指標の下には、同じ名前のタブと、それぞれのトピック数があります。

トピックを選択すると、分類推論 と ナレッジエージェントの返信 を表示し、コンテキストリソースの表示 オプションを使用して、使用されているソースを確認できます。

タスク結果のダウンロード

タスクの結果を.csvファイルとしてダウンロードして、さらに分析および処理できます。ダウンロードされたファイルには、各インタラクションに関する次のような包括的なデータが含まれています。

質問と回答
応答に使用されるコンテキストソース
レイテンシーや応答時間などのパフォーマンスメトリクス
グラウンドトゥルース評価を使用した場合の分類結果
トピックの検出と質問分析
コンテンツフィルターの結果 (有効な場合)

CSV 形式を使用すると、カスタム分析を実行したり、結果をチームと共有したり、データを外部レポートツールに統合したりできます。

結果に基づいてエージェントを更新する

結果を使用して、問題を特定して修正します。変更を加える前に、根本原因を調査してください。

課題	ソリューション
エージェントは正しく回答しましたが、答えはコンテキストにありません	プロンプトには答えが含まれている可能性があります。答えが間違っている場合は、ナレッジソースの内容を確認してください。
エージェントが不適切な口調を使用する	agent settings でプロンプトを確認して更新します。
エージェントが間違った言語で応答する	agent settings でプロンプトを確認して更新します。
エージェントの応答が途切れる	出力トークンの設定を増やします。
エージェントの幻覚	ナレッジソースに関連するコンテンツが欠落している可能性があります。追加するを参照してください。
エージェントが範囲外の質問に回答	エージェント設定でスコープと制限を定義するプロンプトを厳格にします。

テスト・アプローチの概要は、ナレッジ・エージェントのテスト(/agentos-ai-agents/knowledge-agents/test-knowledge-agent)を参照してください。

テスト結果の確認アナライズ