エージェントをテストする(品質センター)

AI エージェントをテストして、その動作とパフォーマンスを検証します。

テストにアクセスするには、AI エージェント > 品質センター に移動します。

エージェントは、次の方法でテストできます。

手動テスト: メッセージを送信し、応答をすぐに表示します。詳細は、テストメッセージを手動で送信するをご参照ください。
自動テスト: 複数のテストケースを含むテストグループを作成し、順番に実行します。詳細は、自動テストワークフローをご参照ください。

手動テスト

メッセージを送信し、応答をすぐに表示して、エージェントをテストします。このオプションは、迅速なテストとデバッグに使用します。

メッセージの送信

AI エージェント > エージェント ページで、テストするエージェントを開きます。
プレビュー を選択します。

チャット & トレース ウィンドウが開きます。
次の手順に従います：
- メッセージを送信して、会話でのエージェントの動作をテストします。
- (オプション)エンドユーザー宛先 で、エンドユーザーの対話をシミュレートするようにテストユーザー番号を構成します。

エージェントがメッセージに応答します。

テスト結果を確認する

テストメッセージを送信したら、次の操作を行います。

会話を確認する: エージェントの応答が期待と一致していることを確認します。
処理の詳細の表示: 右側のパネルで、処理の詳細を表示します。これには、各イベントのタイムスタンプ、LLM に送信されたリクエスト、LLM からの応答、および結果が含まれます。タイムラインビューまたはツリービューのいずれかを使用できます。
有用な会話を保存 (省略可能): 会話を保存 を選択して、テストケースで再利用するためにこの会話を保存します。保存した会話をテストグループに追加して、自動テストを行うことができます。詳細については、保存した会話をテストグループに追加をご参照ください。

自動テスト

品質センター を使用して、複数のテストケースを含むテストグループを作成し、それらを順番に実行します。

品質センターのページ

品質センターでは、自動テストを実行して AI エージェントをテストできます。

品質センターにアクセスするには、AI エージェント > 品質センター に移動します。

Image that shows the Quality center page with a list of test groups

このページでは、次の操作を実行できます：

検索: 検索ボックスを使用して、テストグループを名前で検索します
フィルタ: フィルタアイコンを選択して、エージェントまたは日付別にテストグループをフィルタします
テストグループの作成: テストグループの作成を選択して、新しいテストグループの作成
テストグループの表示: テストグループの一覧を表示します。テストグループごとに、次の情報を表示できます。
- テストグループ: テストグループの名前
- AI エージェント: テストグループに関連付けられた AI エージェント
- テストケース: グループ内のテストケースの数
- 最終実行: 最新のテスト実行の日時

テストグループごとに、メニュー (3 つのドット) から次の操作を実行できます。

重複したテストグループ: テストグループのコピーを作成
削除: テストグループを削除します

自動テストワークフロー

テストグループを使用してエージェントをテストするには、次の手順に従います。

テストグループを作成する: AI エージェントのテストグループを設定します。
テストケースの追加: テストケースを手動で作成するか、CSV からインポートするか、保存した会話を追加して、グループに追加します。
テストグループの実行: テストグループを 1 回または複数回実行して、整合性を確認します。
結果を見る: 合格/不合格の結果を確認し、予想される動作と実際の動作を比較し、問題を特定します。

次のセクションでは、各手順について詳しく説明します。

テストグループを作成する

テストグループは、関連するテストケースを整理します。各テストグループは 1 つの AI エージェントに関連付けられ、複数のテストケースを含めることができます。1 つのエージェントに対して複数のテストグループを作成できます。

テストグループを効果的に整理するためのガイダンスについては、テストのベストプラクティスを参照してください。

新しいテストグループは、手動で作成することも、既存のテストグループを複製して作成することもできます。

テストグループを手動で作成する

品質センターで、テストグループの作成 を選択します。
[新しいテストグループ** ウィンドウで、以下を構成します。
- エージェント: テストするエージェントを選択します。
- テストグループ名: テストグループのわかりやすい名前を入力します。
テストグループの作成 を選択します。

これで、テストケースを追加](/ai-agents/build/test-agent#add-test-cases-to-a-test-group)をグループに追加できます。

既存のテストグループを複製する

既存のテストグループを複製して、テストケースを再利用できます。

次の手順に従います：

テストグループの一覧で、テストグループの横にあるメニュー (3 つのドット) を選択します。
重複するテストグループ を選択します。
開いたウィンドウで、必要なエージェントを選択します。
Duplicate (複製) を選択します。

テストグループページ

テストグループを開くと、テストグループページにそのグループのすべてのテストケースが表示されます。

Image that shows the test group page with a list of test cases

このページでは、次の操作を実行できます：

検索: 検索ボックスを使用してテストケースを検索します
フィルタ: フィルタのテストケース
テストケースの追加: テストケースの追加 を選択して、新しいテストケースを追加します。
テストケースの表示: テストケースのリストを表示します。テストケースごとに、次の情報を表示できます。
- ユーザー入力: テストケースの最初のエンドユーザーメッセージ
- 会話のターン数: エージェントとエンドユーザーの間で交換されたメッセージの数

テストケースごとに、メニュー (3 つのドット) を使用して次の操作を実行できます。

テストグループへのテストケースの追加

テストグループを作成したら、テストケースを追加して、エージェントの予想される動作を定義します。テストケースには、エンドユーザーと AI エージェント間の会話の例が含まれています。

テストケースに含める内容のガイダンスについては、テストケースの要件を参照してください。

テストケースは、次の方法で追加できます。

手動
テストケースを含む CSV ファイルをアップロードする
保存した会話をテストケースとして追加する

テストケースを手動で作成する

会話を手動で構成して、テストケースを作成します。

Image that shows how to create a test case with conversation turns

テストグループページで、テストケースの追加 を選択します。
右側のパネルで、エンドユーザーメッセージの例を入力し、チェックマークを選択します。
次の 1 つ以上を実行して、予想されるエージェント応答を追加します。
- エージェントメッセージを手動で入力します。AI エージェントの応答 を選択し、チェックマークを選択します。
- ツールまたはサブエージェントを使用して応答を生成します。ツールコールを選択し、リストからツールまたはエージェントを選択します。
会話の作成を続行します。エンドユーザーメッセージを追加し、予想されるエージェントの応答を追加します。会話全体を通してこのシーケンスを繰り返します。

Note
複数の連続したエージェント応答を追加しないでください。
(オプション)会話内のメッセージ、ツール、またはサブエージェントごとに、次の操作を実行できます。
- メッセージを変更するか、別のツールまたはサブエージェントを選択する: 鉛筆アイコンを選択します。
- メッセージ、ツール、またはサブエージェントを削除する: [削除] アイコンを選択します。
- 現在のメッセージ、ツール、またはサブエージェントの下に新しいメッセージ、ツール、またはサブエージェントを追加する: プラス記号 (+) を選択し、必要なオプションを選択します。
テストケースが完了したら、 [保存] を選択します。

CSV からテストケースをインポートする

CSV ファイルを使用して複数のテストケースをインポートします。

テストグループページで、メニュー (3 つのドット) を選択します。
[CSV からインポート] を選択します。
CSV ファイルをアップロードします。

ファイルのテスト・ケースがテスト・グループに追加されます。

保存した会話から追加する

手動テスト中に保存した会話を使用します。

テストグループページで、メニュー (3 つのドット) を選択します。
[保存した会話を追加] を選択します。

ウィンドウが開き、保存されている会話のリストが表示されます。
利用可能な会話を確認します。次の情報が表示されます。
- 名前: 会話名
- 会話のターン数: エージェントとエンドユーザーの間で交換されたメッセージの数
- 保存日: 会話が保存された日付
[プレビュー] を選択して、追加する前に会話を表示します。
必要な会話を選択します。
Add (追加) を選択します。

選択した各会話は、個別のテストケースとしてテストグループに追加されます。

テストグループでテストケースを実行する

テストグループでテストケースを実行して、エージェントの動作を検証します。テストケースを複数回実行して、一貫性と信頼性を確保できます。

テストケースを実行するには、次の操作を行います。

実行するテストグループを開きます。
テストグループの実行 を選択します。
開いたウィンドウで、以下を設定します。
- AIエージェントのバージョン:テストするエージェントのバージョンを指定します。
- 実行回数: テストグループを実行する回数を指定します。
  
  最大 10 回の実行を指定できます。デフォルト値は 1 です。
  
  Why multiple runs?
  テストを複数回実行して、エージェントの応答がさまざまな実行で一貫性があり、信頼性が高く、正確であることを確認します。
テストの実行 を選択します。

これにより、テストグループ内のすべてのテストケースが実行されます。

テストの実行中は、現在の実行を示す進行状況インジケーターが表示されます。例: 1/5 の実行。

テストが完了したら、テスト実行に移動 を選択して結果を表示します。

[過去の実行] タブ

テストグループに移動し、[実行] タブを選択すると、[過去の実行] タブに、そのテストグループのすべてのテスト実行が表示されます。

Image that shows the Past runs tab with test execution results

このページでは、次の操作を実行できます：

検索: 検索ボックスを使用してテスト実行を検索します
テスト実行の表示: テスト実行のリストを表示します。テストの実行ごとに、次の情報を表示できます。
- 日付: テスト実行が実行された日時
- AI エージェントのバージョン: テストされたエージェントのバージョン
- テストケースの結果: テスト結果の概要で、割合、合格したテストケースの数、失敗したテストケースの数を示します。例: 70%、7 合格、2 不合格

実行中のテストの場合、テストケースの結果 に 進行中 と表示されます。

テスト実行の並べ替え: 並べ替えるテーブルヘッダーを選択します。

テスト実行を選択して詳細な結果を表示します。

テスト結果の表示

テスト結果を確認して問題を特定し、エージェントの動作を確認します。

テスト結果を表示するには:

テストグループに移動します。
[過去の実行] タブに移動します。
確認するテスト実行を選択します。

テストケースの詳細を表示する

確認するテスト実行を見つけます。また、テスト実行を日付で並べ替えたり、[検索] ボックスを使用したり、[フィルタ] アイコンを使用して必要なテスト実行を見つけたりすることもできます。

詳細を表示するテスト実行の日付を選択します。例: 2025 年 12 月 12 日 11:30。

次の情報を表示できます。

全体的なパフォーマンス: テスト実行全体の合格/不合格数を確認します。

テストケース: テストケースの総数
合格: 合格したテストケースの数。エージェントは必要なツールを呼び出し、正しい答えを与えました。
Fail: 失敗したテストケースの数。エージェントが必要なツールを呼び出さなかったか、間違った回答をしました。

各テストケースについて、次の詳細を表示します。

ユーザー入力: テストケースの最初のエンドユーザーメッセージ
全体的な結果: 合格または不合格
一致した回答: 合格または不合格
一致したツール: 合格または不合格

Image that shows the test results table with overall result, responses matched, and tools matched

テストケースの詳細を表示する

注: エージェントメッセージ、ツールコール、またはサブエージェントコールが 1 つでも予期される動作と一致しない場合、テストケースは失敗します。

表示するテストケースの [詳細の表示] を選択します。
集計された概要を確認します。
- 結果: 全体的な合格または不合格ステータス
- 一致した応答: エージェントの応答が予想される応答と一致したかどうか。ナンバーマッチング(例:2/2)
- 一致したツール: ツールとエージェントの通話が期待に合ったかどうか。番号の一致 (例: 4/4) - 合格または不合格。
予想される動作と実際の動作を比較します。
- 予期される動作 (左の列): 構成したテストケース
- 実際の行動(右の列):エージェントが実際にどのように反応したか
障害ポイントを特定します。
- 各エージェントメッセージ、ツールコール、およびサブエージェントコールを確認します
- 各エレメントの横にある合格または不合格のインジケーターを探します
- いずれかのエレメントが失敗すると、全体的な結果は失敗します。
- エージェントメッセージが予期された応答と一致しない
- ツール呼び出しが予期されたツールと一致しません
- サブエージェントコールが予期されたサブエージェントと一致しない
分析情報を使用して、エージェントまたはテストケースを更新します。

複数の実行で結果を比較する

テスト実行に複数の実行がある場合は、各実行の詳細に加えて、全体的な結果を表示できます。

テストケース: テストグループ内のテストケースの合計数
合格率: すべての実行で合格したテストケースの平均。エージェントは必要なツールを呼び出し、正しい答えを与えました。
失敗率: すべての実行で失敗したテストケースの平均。エージェントが必要なツールを呼び出さなかったか、間違った回答をしました。

各実行の結果を確認して、整合性の問題を特定します。各テスト実行は、個別のタブにあります。各タブには、テスト実行が成功したか失敗したかを示すインジケーターがあります。

Image that shows test results with multiple run tabs

テストグループの管理

テストグループを編集する

品質センターで、編集するテストグループを選択します。必要に応じて、テストグループ名を更新するか、テストケースを変更します。

テストグループを削除する

テストグループの一覧で、テストグループの横にあるメニュー (3 つのドット) を選択します。削除を選択します。

テストグループを複製する

テストグループの複製については、既存のテストグループを複製するをご参照ください。

テストケースの管理

テストケースを編集する

テストグループに移動します。必要なテストケースに対して [編集] を選択します。

テストケースを削除する

テストグループに移動します。テストケースの横にあるメニュー (3 つのドット) を選択し、[削除] を選択します。

テストケースを複製する

テストグループに移動します。テストケースの横にあるメニュー (3 つのドット) を選択し、複製を選択します。

テスト・グループ内のテスト・ケースのエクスポート

テストグループに移動し、エクスポート を選択して、そのグループ内のすべてのテストケースを CSV ファイルにエクスポートします。

テストのベストプラクティス

AI エージェントを構築する前にテスト戦略を計画し、エージェントが要件を満たしていることを確認します。

テストグループを効果的に編成する

グループ関連のテストケース: 機能やユーザー体験ごとに個別のテストグループを作成します
わかりやすい名前を使用する: テストグループに明確な名前を付けて、その目的を特定します
複数回実行:テストグループを3〜10回実行して、一貫性を検証します
有用な会話を保存する: プレビューでの手動テスト中に、重要なシナリオを表す会話を保存します

テストケースの要件

以下を含む包括的なテストケースを作成します。

予想されるすべてのユーザー体験: 成功するシナリオと標準的なインタラクション
非標準入力: エンドユーザーからの異常または予期しない入力
ネガティブなシナリオ: API の障害またはデータの欠落
エラー処理状況: エラーが発生したときのエージェントの応答方法

これらのテストケースは、次の目的で使用します。

合格基準: AI エージェントシステムが機能することを示す
パフォーマンスベンチマーク: 品質と効率を測定する
回帰テスト: 更新によって既存の機能が損なわれないようにする

評価基準

エージェントの動作を評価するときは、次の点を確認してください。

応答の質: テキストは正確で、適切で、役に立ちますか?
ツールの使用法: 正しい API を呼び出しましたか?正しいパラメータを使用しましたか?
推論プロセス: 複雑なタスクを論理的に分解しましたか?
エラー処理: 障害を適切に管理しましたか?
検証手順: アクションを実行する前に結果を正しく処理しましたか?

AI エージェントにとって、正確性とはテキスト出力と操作動作の両方を意味します。明確な出力を生成しても、間違った API を呼び出すエージェントは、依然として機能しません。

次のステップ

テスト結果が期待どおりでない場合は、AI エージェントを更新して問題を解決してください。

テストが終了したら、AIエージェントをpublishします。

エージェントを構成するコンテンツフィルターを構成する

エージェントをテストする(品質センター)

手動テスト

メッセージの送信

テスト結果を確認する

自動テスト

品質センターのページ

自動テストワークフロー

テストグループを作成する

テスト グループを手動で作成する

既存のテストグループを複製する

テスト グループ ページ

テスト グループへのテスト ケースの追加

テスト ケースを手動で作成する

CSV からテスト ケースをインポートする

保存した会話から追加する

テスト グループでテスト ケースを実行する

[過去の実行] タブ

テスト結果の表示

テスト ケースの詳細を表示する

テスト ケースの詳細を表示する

複数の実行で結果を比較する

テスト グループの管理

テスト グループを編集する

テスト グループを削除する

テスト グループを複製する

テスト ケースの管理

テスト ケースを編集する

テスト ケースを削除する

テストケースを複製する

テスト・グループ内のテスト・ケースのエクスポート

テストのベストプラクティス

テストグループを効果的に編成する

テストケースの要件

評価基準

次のステップ

テストグループを手動で作成する

テストグループページ

テストグループへのテストケースの追加

テストケースを手動で作成する

CSV からテストケースをインポートする

テストグループでテストケースを実行する

テストケースの詳細を表示する

テストケースの詳細を表示する

テストグループの管理

テストグループを編集する

テストグループを削除する

テストグループを複製する

テストケースの管理

テストケースを編集する

テストケースを削除する