もはや音響のプロでも判別できないレベルに!生成AI講座【6】「Google AI Studio」の音声生成AIの基本的な使い方【無課金】
ここ数年、AIによる画像や動画の生成が盛んになっています。現在ではセリフ入りの動画も生成できますが、長尺のドラマを製作したいときはやはりイメージにあったナレーションやセリフが必要になってきますよね。そこで今回は、「Google AI Studio」を使ってテキストからセリフの音声を生成する方法を紹介しましょう。きっと、あまりにも自然な声でビックリすると思いますよ。もちろん、お金は一切かかりません。
Google AI Studioの音声生成AI機能「Text to Speech」が凄すぎる!
最新のAIで動画を生成するとセリフも生成されるのが一般的ですが、必ずしも自分のイメージに合ったもではないこともあります。まして、動画生成AIで長尺のドラマを製作するにはセリフの音声合成も欠かせないでしょう。
そこで、今回紹介するのが「Google AI Studio」の「Text to Speech(テキスト・トゥ・スピーチ)」機能。Google AI Studioと言えば、Googleが提供する最新AIモデルを試作&開発できる開発者向けプラットフォーム。GUIは英語ですし、初心者にはやや敷居が高いイメージがあると思います。
実際、Google AI Studioでは、有料でNao Banana Proでの画像生成やVeo 3.1による動画生成などを利用可能ですが、実は、その中にテキストから音声を生成できる「Text to Speech」機能が含まれており、こちらはGoogleアカウント(Gmail)さえあれば誰でも無料で利用できるのです。
現在、Text to Speechの音声生成AIエンジンには「Gemini 2.5 Pro」と「Gemini 2.5 Flash」の2つがあります。Proは「低速でも高品位」、Flashは「高速だが低品位」だとザックリ覚えておきましょう。また、この2つには無料で1日に利用できる回数には大きな違いがあり、Proは50~100回程度、Flashは約1,500回と言われています。
とくに、Proは1分間に数回しか生成できないので、繰り返し何回も生成ボタンを押すとエラーになってしまいます。また、1回に読み込ませる文字量はFlashのほうが多いので、この2つは上手に使い分けましょう。
もちろん、Google AI StudioのText to Speech機能は日本語環境で利用可能ですし、日本語のテキスト(台本)でもしっかり日本語の音声を生成してくれますよ。
■Google AI Studio→こちら

「Google AI Studio」にはテキストから音声を合成できる「Text to Speech(テキスト・トゥ・スピーチ)」機能があり、Googleアカウントがあれば、誰でも無料で利用できます
実際に「Text to Speech」機能でセリフを生成してみよう!
それでは、さっそくGoogle AI StudioのText to Speech機能を使ってみましょう。まずは、ChromeなどのWebブラウザで「Google AI Studio」を開き、左のメニューから「PlayGround」を選択します。
すると、画面中央に「Text to Speech」がありますので、これを選択します。次に「Gemini 2.5 Pro」か「Gemini 2.5 Flash」のどちらかを選択しましょう。
デフォルトのモード(Mode)は「Multi-Speaker audio」になっており、2人の人物の掛け合いができます。ドラマの会話などで利用すると、かなり自然な感じになりますよ。一方、「Single-Speaker audio」は一人のナレーションなどに向いています。画面右の設定メニューで切り替えて使用しましょう。
まずは、Single-Speaker audioの使い方です。画面右の設定にある「Voice」では男女合わせて30人くらいの声を選択できます。全員外国人ですが、日本語のセリフも驚くほど流暢に喋ってくれます。
次に「Model settings」の「Temperature(温度)」はトーンのことで、「1」を基準にして、スライダを左右に動かしますが、筆者が使ってみた感じでは低く(0.5など)したほうが喋りがゆっくりで重々しく、高く(1.4など)のほうが、早口で軽い感じになるようです。
次に、中央の画面の「Text」とある部分に台本をコピペして「RunCtrl」を押せば数秒~数十秒後に音声が生成され、プレビュー音声が流れます。OKならプレイヤーの右にある「…」を押して表示されるメニューで「ダウンロード」を選択しましょう。
再度、「RinCtrl」を押してしまうと、保存していない音声は無くなってしまいますので、とりあえずNGかなと思っても「ダウンロード」しておいて、あとで取捨選択したり切り貼りすればOKです。
「Style instructions(スタイルの指示)」ではデフォルトで「Read aloud in a warm and friendly tone (温かく親しみやすい口調で読み上げます)」とあるので、これを消して「明るく元気よく!(Bright and energetic)」「激しく怒る(get very angry)」「悲しそうにボソボソしゃべる(mutter sadly)」といった指示を英語で書き込みます(Google翻訳でも可)。
日本語で指示を入力すると、この指示も一緒に読み上げてしまいますし、英語のときより感情が上手に反映されないこともあるようです。また、Style instructionsでは、キャラクターの年齢や性格、容姿、シチュエーションなども指定しておくと、より目的に合致した感じになりますし、声のトーンもある程度は安定してきますので、いろいろ試してみてください。
■「Text to Speech」でテキストから音声を生成する手順

まず、Chromeで「Google AI Studio」を検索したら、「PlayGround」を開き、画面中央の「Text to Speech」を選択します

次に、「Gemini 2.5 Pro」か「Gemini 2.5 Flash」のどちらかを選択しましょう。最初はFlashで試すのがオススメです

画面右の設定メニューでは「Mode」で1人か2人を選択し、「Model settings」でトーンを変更。「Voice」で声(声優)を選択しましょう。外国人ばかりですがしっかりと日本語も読んでくれます

「Style instructions」では、感情やトーンのニュアンスを英語で入力し、「Text」には日本語でセリフをコピペします。あとは「Run Ctrl」を押せば音声が生成されます

音声の生成が終わると自動的に音声が再生されます。音声を保存するには「…」をクリックし(上写真)、表示されたメニューで「ダウンロード」を押せばWAV形式で保存されます
こちらが、実際にGoogle AI StudioのText to Speech機能で生成した音声(WAV)です。かなり自然な感じですよね!
Style instructionsに「Bright and energetic(明るく元気良く)」と入力した場合、確かにノーマルのときよりも元気で明るい読み方になりました
最後は「重厚な感じ」で読んでもらいました。声優さんもトーンもすべて同じ設定ですが、Style instructionsの指示だけで、ここまで年上な感じの声になるのは凄いですね






















