Logo
AIエージェント
品質センター
AIエージェント
テスト結果の確認

テスト結果の確認

早期アクセス

テスト結果を確認して 問題を特定し、エージェントの動作を確認します。


テスト実行の結果を表示する

  1. テストグループに移動します。
  2. 過去の実行 タブに移動します。
  3. 確認するテスト実行の日付を選択します。

結果ページには次の情報が表示されます。

  • 全体的なパフォーマンス - テストケースの合計数、合格回数(エージェントが必要なツールを呼び出して正解を与えた)、および不合格回数(エージェントが必要なツールを呼び出さなかったか、不正解を与えた)。
  • テスト ケースの詳細 - 各テスト ケースについて: ユーザー入力、全体的な結果 (合格/不合格)、一致した応答 (合格/不合格)、および一致したツール (合格/不合格)。

テスト ケースの詳細を表示する

エージェントの応答が予想される応答とほぼ一致すると、テストケースは合格します。エージェントの応答は、完全に一致する必要はありません。エージェント メッセージ、ツール コール、またはサブエージェント コールが 1 つでも予期される応答と正確に一致しない場合、テスト ケースは失敗します。

  1. 表示するテスト・ケースを選択します。
  2. 集計された概要を確認します。
    • 結果: 全体的な合格または不合格の状態。
    • 一致した応答: エージェントの応答が予想される応答と一致したかどうか (例: 2/2)。
    • 一致したツール: ツールとエージェントの呼び出しが期待と一致したかどうか (例: 4/4)。
  3. 予想される動作と実際の動作を比較します。
    • 予期される動作 (左の列): 構成したテスト ケース。
    • 実際の動作(右の列):エージェントが実際にどのように応答したか。
  4. 各エージェント メッセージ、ツール コール、およびサブエージェント コールを確認して、障害ポイントを特定します。各エレメントの横にある 合格 または 不合格 インジケーターを探します。次のいずれかが発生した場合、全体的な結果は失敗します。
    • エージェント メッセージが予期される応答と一致しません。
    • ツール呼び出しが予期されたツールと一致しません。
    • サブエージェントコールが予期されたサブエージェントと一致しません。
  5. 分析情報を使用して、エージェントまたはテスト ケースを更新します。

複数の実行で結果を比較する

テスト実行に複数の実行がある場合は、各実行の詳細に加えて、全体的な結果を表示できます。

コラム説明
テストケーステスト グループ内のテスト ケースの合計数。
合格率すべての実行で合格したテスト ケースの平均。
不合格率すべての実行における失敗したテスト ケースの平均。

各実行の結果を確認して、整合性の問題を特定します。各テスト実行は、実行が成功したか失敗したかを示すインジケーターとともに個別のタブに表示されます。


次のステップ

  • AIエージェントの更新:テスト結果が期待どおりでない場合は、AIエージェントビルダーのエージェントに移動して編集し、新しいバージョンを作成します。
  • エージェントを保存: テストに合格したら、エージェントを保存します。

評価基準

エージェントの動作を評価するときは、次の点を確認してください。

  • 応答の質 - テキストは正確で、適切で、役に立ちますか?
  • ツールの使用法 - 正しいツールまたはサブエージェントが正しいパラメータで呼び出されましたか?
  • 検証手順 - アクションを実行する前に結果を正しく処理しましたか?

AI エージェントにとって、正確性とはテキスト出力と操作動作の両方を意味します。明確な出力を生成しても間違ったツールを呼び出すエージェントは、依然として機能しません。







Logo

ご不明点は

サポートまでお問い合わせ

ください

© NTT DOCOMO BUSINESS X,Inc.