通話を AI エージェントに転送する
早期アクセス
AI エージェントへの通話転送 エレメントを使用して、IVR (自動音声応答) フローからリアルタイムの Voice AI エージェント にアクティブな通話を引き継ぎます。これにより、音声認識、意図検出、生成 AI を使用して、通話を自然に会話で処理できるようになります。
Voice AI エージェント は、IVR (自動音声応答) システムよりも自然で柔軟なエクスペリエンスを提供します。自由形式の音声を理解し、意図を解釈し、IVR (自動音声応答) メニューでは管理できない複雑な質問を管理します。これにより、会話体験が可能になり、発信者は事前定義された IVR (自動音声応答) オプションを使用する代わりに自然に話すことができます。
コールがフローのこのエレメントに到達すると、IVR (自動音声応答)は、選択した AI エージェントに制御を転送します。エージェントがタスクを完了すると、コールは常に IVR (自動音声応答)に戻り、コールが返された理由に関する情報が表示されます。
AIエージェントの詳細については、AIエージェントのドキュメントを参照してください。
エレメントのサイドパネルで、以下のフィールドの構成を完了します。
AI エージェントの選択
これは必須フィールドです。 ドロップダウンメニューから、以前にマイエージェントページで作成したAIエージェントを選択します。
エージェントの種類
AI エージェントの処理タイプを選択します。
-
音声読み上げ: 単一の AI モデルが、テキストに変換することなく、音声で直接聞いて応答します。これにより、より高速な応答とより自然なトーンが可能になりますが、1分あたりのコストが高くなる可能性があります。
-
音声からテキストから音声へ (チェーン): Voice は最初にテキストに書き起こされ、言語モデルによって処理され、次に音声に変換されます。このアプローチはコスト効率が高く、より優れた制御と簡単なデバッグを提供しますが、追加の処理手順により追加の遅延が発生します。
スピーチ・トゥ・スピーチ
音声読み上げ を選択した場合は、次のフィールドを構成します。
- Voice: これは必須フィールドです。モデルが応答に使用する音声を選択します。
- ノイズリダクション:これは必須フィールドです。ノイズリダクションのタイプを選択します。近距離のマイク(電話やヘッドフォンなど)には近距離フィールドを使用し、遠距離で使用されるマイク(モバイルスピーカーフォンや会議室のセットアップなど)には遠距離フィールドを使用します。
ターン検出
VAD (Voice Activity Detection) タイプを選択します。
- サーバー VAD: サーバー側の音声アクティビティ検出を使用して、ユーザーが話し終えたタイミングを検出します。このモデルは、音声レベルを監視し、無音時間を測定し、ユーザーが話し終えた確率に基づいて応答タイムアウトを調整します。これは、無音の解釈方法を予測可能で構成可能な制御が必要な場合に使用します。
- セマンティック VAD: セマンティック分析を使用して、ユーザーがいつ話し終えたかを検出します。このモデルは、ユーザーの言葉が完全な思考を形成しているかどうかを評価し、その確率に基づいて応答タイムアウトを調整します。このアプローチは、バックグラウンドノイズに対してより耐性があり、文の途中で自然な一時停止中にユーザーを遮断する可能性が低くなります。
サーバー VAD 構成
-
しきい値: 音声アクティビティ検出の感度を 0.0 から 1.0 のスケールで設定します。値を大きくすると、音声として登録するためにより大きな音声が必要になるため、ノイズの多い環境での誤ったトリガーが減少します。値を小さくすると感度が上がり、静かな設定や物腰の柔らかいユーザーに適しています。
-
プレフィックスパディング (ms): プレフィックスパディングは音声クリッピングを解決します。VAD は音声が開始されたことを検出するのに時間がかかるため、検出がトリガーされる前に最初のミリ秒の音声が失われます。プレフィックス パディングは、オーディオ バッファーをわずかに巻き戻して、その事前検出オーディオを再キャプチャするため、モデルは実際の開始から完全な発話を受け取ります。
-
無音時間 (ミリ秒): 音声が終了したと見なされるまでに、何ミリ秒の連続無音が発生する必要があるかを設定します。値を小さくすると、エージェントの応答は速くなりますが、文の途中での自然な一時停止が中断されるリスクが高くなります。ノイズの多い環境や、ユーザーが思考を完了するのにさらに時間が必要な場合は、700 から 1000 ミリ秒を使用します。より高速で応答性の高いエクスペリエンスを実現するには、200 から 400 ミリ秒を使用します。
-
応答の作成: ユーザーの音声の終わりが検出されたときにエージェントの応答を自動的に生成する場合に有効にします。
-
応答の中断: ユーザーが話すことでエージェントの応答を停止できるようにする場合に有効にします。
セマンティック VAD 構成
-
熱意: ユーザーが話し終えた後のエージェントの応答速度を制御します。High は、スピーチの終わりが発生するとすぐに応答します。低 は、ユーザーが終了したことを確認するまでより長く待つため、エージェントが思考の途中で中断する可能性が低くなります。中がデフォルトです。
-
応答の作成: ユーザーの音声の終わりが検出されたときにエージェントの応答を自動的に生成する場合に有効にします。
-
応答の中断: ユーザーが話すことでエージェントの応答を停止できるようにする場合に有効にします。
入力文字起こし
-
プロンプト: テキスト文字列を入力して、文字起こしモデルを会話で予想される語彙、スペル、言い回しに偏らせます。このフィールドは、認識エンジンへのヒントとしてのみ機能します。これは、オーディオがテキストにデコードされる方法に影響しますが、モデルの会話動作は変わりません。固有名詞、頭字語、ドメイン固有の言語など、モデルが聞き間違えたり、一貫性のない文字起こしをしたりする可能性のある用語に使用します。
-
モデル: エンドユーザーの音声の文字起こしに使用するモデルを選択します。
モデル 説明 ユースケース GPT 4.0 文字起こし GPT-4o アーキテクチャ上に構築されています。特にアクセントのある音声、重複する音声、複雑な語彙に対して、Whisper 1よりも低い単語エラー率を実現します。 正確さが優先される場合に、単語エラー率を最も低くするために使用します。たとえば、アクセントのあるスピーチ、技術的な語彙、または低音質を処理する場合などです。 GPT 4.0 ミニ文字起こし GPT 4.0 Transcribe の軽量で高速なバリアント。GPT 4.0 Transcribeよりもレイテンシーが短縮され、コストが低くなります。精度はフルモデルよりも低くなります。 大量導入において、速度とコストの最適なバランスを提供します。ターンあたりの待機時間が会話の質に直接影響する場合に使用します。 NOTEWe recommend GPT 4.0 Mini Transcribe for the best experience. -
言語: 入力オーディオの言語。
すべてのフィールドを設定したら、右上隅にあるチェックマークを選択して入力を検証します。
音声テキスト読み上げ (チェーン)
音声テキスト読み上げ (チェーン) を選択した場合は、次のフィールドを構成します。
設定
-
エージェントの挨拶: 通話に応答したときにエージェントをトリガーする最初の挨拶メッセージ。
-
テキスト読み上げ言語: これは必須フィールドです。テキストから音声への変換に使用される言語。
-
Voice name: テキストを音声に変換するときに使用される音声。
NOTENeural and generative voices have additional charges. If neural and generative voices are not available for your account, contact your NTT CPaaS account manager. Use generative voices for the best user experience. -
発話速度: 発話速度を調整できます。デフォルト値は 1.00 です。
転写
- 音声テキスト言語: これは必須フィールドです。音声認識に使用される言語。
すべてのフィールドを設定したら、右上隅にあるチェックマークを選択して入力を検証します。
通話セッションの結果を管理する
AI エージェントへの通話転送 エレメントの次のブランチを使用して、通話セッションの終了後に何が起こるかを管理します。
| 支店 | 通話セッションのステータス |
|---|---|
| 通話が転送されません | フローは IVR (自動音声応答) コールを AI エージェントに転送できませんでした。エンドユーザーと AI エージェントの間で通話セッションが確立されませんでした。IVR (自動音声応答) セッションは、エンド ユーザーとフローの間で続行されます。 たとえば、API 呼び出しが失敗したため、呼び出しを転送できませんでした。 |
| 通話終了 | 通話は、エンドユーザーが電話を切ったか、ネットワークの問題により、転送後に終了しました。この時点からのみ新しい通話を開始できます。 |
| 人間のエージェントへの転送をリクエスト | AIエージェントは、トリガー条件を認識すると、転送要求を実行します。 たとえば、ユーザーが人間のエージェントとの会話を要求した場合、またはAIエージェントがユーザーの要求を解決できないと判断した場合、構成されたツールを呼び出します。エージェントプロンプトでこれらの条件を指定します。ジャーニー自体のさらなるステップを定義します。 |
| AIエージェントセッション終了 | AI エージェントは、通話を個別に終了しません。特定のユーザー入力をセッション終了信号として認識し、通話を終了します。 たとえば、ユーザーは さようなら または これですべてです、ありがとう と言うかもしれません。エージェントはこれらの入力を終了信号として扱い、コールセッションを閉じます。ジャーニー自体のさらなるステップを定義します。 |