もはや音響のプロでも判別できないレベルに!生成AI講座【6】「Google AI Studio」の音声生成AIの基本的な使い方【無課金】

公開日:2026年3月1日 更新日:2026年3月2日
広告

「Text to Speech」で2人の掛け合いを生成する手順!

Google AI StudioのText to Speechの魅力は、何と言っても「Multi-Speaker audio」による2人の掛け合いができることにあります。

まずは、画面右の設定メニューで「Multi-Speaker audio」を選択します。その下の設定メニューの「Voice Settings」では「Speaker 1 Settings」と「Speaker 2 Settings」で、それぞれ「Voice」を割り当てましょう。もちろん「Model Settings」も指定可能です。

次に、画面中央の「Script builder」で「Speaker1」と「Speaker2」のセリフを日本語で入力していきます。「(+)Add dialog」を押すと「Speaker1」を追加できますので、長い掛け合いの場合はこれを繰り返していきけばOKです。

ほかにも、画面上の「Style Instructions」でトーンや読み方を指示することが可能ですので、いろいろ試してみてください。

■「Multi-Speaker audio」による2人の掛け合いを生成する手順

生成AI  ナレーション セリフ テキスト読み上げ 音声合成 Google AI Studio Text to Speech AI音声

まずは、画面右側の設定メニューで「Multi-Speaker audio」を選択。次に「Speaker1」と「Speaker2」のVoiceを指定します

生成AI  ナレーション セリフ テキスト読み上げ 音声合成 Google AI Studio Text to Speech AI音声

今度は画面中央の「Script builder」で、「Speaker1」と「Speaker2」のセリフを日本語で入力していきます。続ぎがある場合は「Add dialog」を押します。もちろん、「Style Instructions」でトーンや喋り方などを指示できます

生成AI  ナレーション セリフ テキスト読み上げ 音声合成 Google AI Studio Text to Speech AI音声

すべて入力できたら、画面下の「Run Ctrl」を押せば、2人の掛け合いが生成されます

 

まったく違和感のない2人の掛け合いができました。これが誰でも無料で利用できるなんて、ホントに凄い時代になったものです……

「Google AI Studio」の「Text to Speech」を使うときはここに注意!

いかがでしょうか? 今回は「Google AI Studio」の「Text to Speech」機能で、日本語テキストからセリフの音声を生成する方法を紹介しました。

「どうせ、生成AIの音声なんてカーナビみたいな人工的な感じでしょう!?」なんて思っていたら大間違い! 生成された音声のあまりのリアルさにビックリした人も多いのではないでしょうか?

筆者が初めて使用して、セリフとセリフの間に息を吸うブレス音が入っていることに気が付いたときは、思わず「これはヤバい!」と声が出たほどです。これはもはや、音響のプロが聴いても「AI」か「人間の声」かまったく区別できないレベルだと思いますね。

生成AI  ナレーション セリフ テキスト読み上げ 音声合成 Google AI Studio Text to Speech AI音声

音声の波形で「言っているのに」と「どうして」のセリフ間に、息を吸う「ブレス音」が入っているのに気が付いたときは、心底ゾッとしました

 

イヤホンで聴けば、セリフの間にブレス音が入っているのが分かると思います。AIでここまでやられたら声優さんの仕事は確実に減るでしょうね

 

ただし、Google AI StudioのText to Speechでは、いくつか注意点があります。まず、同じVoiceモデルでModel Settingsを同じにしていても、生成する度にトーンや声質が変わってしまうこと。やはり音声生成AIも動画の場合と同じで「ガチャ」なのです。もし、ビデオ全体で使用するナレーションなどを読ませたい場合は、全部の文書をまとめて読ませたほうがいいでしょう。

また、漢字は要注意です。「法子」を“のりこ”と読まずに“ほうこ”と呼んだりしますので、読み方が複数考えられる名前や品名などは「ひらがな」にしたほうが安全です。しかも、AIのくせに「2026年」を「2024年」と読み間違えたりすることもあるので気が抜けません。

したがって、生成したナレーションが全体的にはOKなのに一部分だけ間違いがあってやり直したいときは、同じ設定で生成しても、再び同じトーン・声質にならないことが多いので、現状、ここがもっとも厳しい部分です。まあ、それもすぐに解決されると思いますが……

なお、台本では「!」「…」「、」「。」などの“約物”がかなり重要です。これで読み方やイントネーションなどもけっこう変わってきますので、生成AIが正しいイントネーションで読めるように、読むことを前提にした台本をしっかり書いておきましょう。

※この記事は2026年2月26日時点のものです。生成AIの進化スピードは早いので、今後、大きく変わる可能性があります

(文=すずきあきら)
イメージ写真は生成AIで作成
筆者プロフィール
すずきあきら
編集・ライター。パソコン通信時代からネットワークに接しWi-Fiやインターネット、SNSなどに精通。30年に渡って、パソコンやスマホ関連のムック本や雑誌記事を手がけてきた大ベテラン。格安SIMやスマホなどの記事を得意とするが、最近は生成AI動画の作成にハマっている。