音声言語のリファレンス

このリファレンスでは、以下でサポートされている言語を一覧表示します。

[Text-to-Speech (テキスト読み上げ)(./reference#text-to-speech-languages)
Speech Capture (音声キャプチャー) とSpeech Transcription (音声文字起こし)

Text-to-Speech言語

NTT CPaaSは、52の基本言語で合計77の異なる言語または方言をサポートしており、テキスト読み上げ変換には合計960の異なる音声があります。音声は 3 つの異なるタイプで使用できます。

標準
ニューラル
生成

次の表は、各音声タイプの特性と、それぞれの最も適切な使用例を定義したものです。

	標準	ニューラル	生成
それは何ですか	ディープラーニングに先立つ従来の合成手法によって生成された音声。フレーズに組み立てられた録音されたオーディオサンプル (連結) または信号処理アルゴリズムによって処理された数学モデル (パラメトリック) のいずれかを使用します。	人間の音声の大規模なデータセットでトレーニングされたディープニューラルネットワークによって合成された音声。韻律(イントネーション、リズム、強勢)を予測し、同時に音声を合成し、より自然なサウンドの出力を生成します。	大規模言語モデル (LLM) の背後にあるものと同様の 10 億パラメーターのトランスフォーマーアーキテクチャ上に構築された大規模な生成 AI モデルによって生成される音声。
どう聞こえるか	クリアでわかりやすいですが、特にイントネーション、リズム、一時停止において、著しく合成的に聞こえることがあります。	標準的な声よりも自然で流動的で、イントネーションがスムーズで、アクセントや強調の処理が優れています。いくつかの合成特性はまだ知覚できる場合があります。	最も自然で人間らしい品質で、実在の人物と見分けがつかないほどです。自然な一時停止、感情的なトーン、文脈の強調などの会話のニュアンスを生み出します。
デフォルトの音声	各言語にはデフォルトの音声が含まれており、音声名が指定されていない場合に自動的に適用されます。	デフォルトの音声はありません。音声名は常に指定する必要があります。	デフォルトの音声はありません。音声名は常に指定する必要があります。
最適な用途	コスト効率が優先され、合成トーンが許容される、大量で短いトランザクションプロンプト。例:OTP（ワンタイムパスワード）コード、ルーティングアナウンス。	音声が顧客に対してブランドを表すほとんどの運用音声シナリオ。	音声品質が結果に直接影響するプレミアムで会話型のエクスペリエンス。例: AI 音声エージェント、コンタクトセンターの待機戦略、ブランドクリティカルな IVR （自動音声応答）、またはロボットのトーンが信頼を損なうシナリオ。
簡単な経験則	「これは、合成トーンが許容される短い自動メッセージですか?」	「この声は、顧客にとって私のブランドを表していますか?」	「これは、人間的に聞こえることが本当に重要な会話や経験なのでしょうか?」
価格	無料	文字ごとに課金	文字ごとの課金(料金はプロバイダーによって異なります)

SSML のサポート [#ssml-support-text-to-speech-languages]

音声合成マークアップ言語 (SSML) は、テキスト読み上げ合成プロセスを微調整するための強力なツールとして機能します。SSML を使用すると、合成音声に自然な抑揚、強調、一時停止、その他の音声特性を注入できます。このコントロールにより、要件に合わせて出力を調整し、ユーザーにとってより魅力的でリアルな音声エクスペリエンスを作成できます。

大事な

NTT CPaaS は、次の場合にのみ SSML サポートを提供します。

Google の標準音声と生成音声
Amazon Polly の標準音声

次の SSML タグは、Voice API 製品全体でサポートされています。

'<speak>' -- SSML で拡張されたテキストを識別します。
'<break>' -- 一時停止を追加します。
<say-as> -- 特殊な種類の単語の読み上げ方法を制御します
<p> -- 段落間に一時停止を追加します
'<s>' -- 文間に一時停止を追加します
'<emphasis>' -- 言葉を強調する
'<sub>' -- 頭字語と略語の発音を置き換えます。
'<phoneme>' -- 発音の発音を指定します。
'<prosody>' -- 音量、発話速度、ピッチをコントロールします。
'<lang>' -- 特定の言語セグメントの発音ルールを切り替えます。品質は、選択した音声、言語ペア、TTS（Text-to-Speech）プロバイダーによって異なります。

NTT CPaaS は、par、audio、seq などの他のプロバイダー固有の SSML タグをサポートしていません。

次の例は、Voice Message API リクエストの SSML 拡張テキストを示しています。

html

2 "text": "<speak>Hello. This is a test message sent from <emphasis level=\"strong\">NTT CPaaS Voice Message API</emphasis>. Your confirmation code is <say-as interpret-as=\"spell-out\">12345</say-as>.</speak>"

これらの SSML タグの完全な構文の詳細については、公式プロバイダーのドキュメントを参照してください。

メモ

ニューラル音声と生成音声を使用する場合、SSML 文字は合成のために送信された文字の総数の一部であり、文字の課金に考慮されます。

言語別に利用可能な音声

言語を選択すると、音声名、性別、プロバイダー、音声がその言語のデフォルトであるかどうかなど、使用可能な音声が表示されます。

音声認識言語

NTT CPaaSは、Google、Microsoft、Deepgram(Fluxモデル)と連携して音声認識を実現します。Microsoft Azure は、文字起こし要求で特に定義されていない限り、既定で使用されます。

次の表は、音声テキスト変換要求で特定の言語を選択するときに使用する言語コードの一覧です。