テスト結果の確認

早期アクセス

テスト結果を確認して 問題を特定し、エージェントの動作を確認します。

テスト実行の結果を表示する

結果ページには次の情報が表示されます。

全体的なパフォーマンス - テストケースの合計数、合格回数(エージェントが必要なツールを呼び出して正解を与えた)、および不合格回数(エージェントが必要なツールを呼び出さなかったか、不正解を与えた)。
テストケースの詳細 - 各テストケースについて: ユーザー入力、全体的な結果 (合格/不合格)、一致した応答 (合格/不合格)、および一致したツール (合格/不合格)。

エージェントの応答が予想される応答とほぼ一致すると、テストケースは合格します。エージェントの応答は、完全に一致する必要はありません。エージェントメッセージ、ツールコール、またはサブエージェントコールが 1 つでも予期される応答と正確に一致しない場合、テストケースは失敗します。

表示するテスト・ケースを選択します。
集計された概要を確認します。
- 結果: 全体的な合格または不合格の状態。
- 一致した応答: エージェントの応答が予想される応答と一致したかどうか (例: 2/2)。
- 一致したツール: ツールとエージェントの呼び出しが期待と一致したかどうか (例: 4/4)。
予想される動作と実際の動作を比較します。
- 予期される動作 (左の列): 構成したテストケース。
- 実際の動作(右の列):エージェントが実際にどのように応答したか。
各エージェントメッセージ、ツールコール、およびサブエージェントコールを確認して、障害ポイントを特定します。各エレメントの横にある合格または 不合格 インジケーターを探します。次のいずれかが発生した場合、全体的な結果は失敗します。
- エージェントメッセージが予期される応答と一致しません。
- ツール呼び出しが予期されたツールと一致しません。
- サブエージェントコールが予期されたサブエージェントと一致しません。
分析情報を使用して、エージェントまたはテストケースを更新します。

テスト実行に複数の実行がある場合は、各実行の詳細に加えて、全体的な結果を表示できます。

各実行の結果を確認して、整合性の問題を特定します。各テスト実行は、実行が成功したか失敗したかを示すインジケーターとともに個別のタブに表示されます。

エージェントの動作を評価するときは、次の点を確認してください。

AI エージェントにとって、正確性とはテキスト出力と操作動作の両方を意味します。明確な出力を生成しても間違ったツールを呼び出すエージェントは、依然として機能しません。