LLMの各社の会話ボイスモードはなぜ違うのか

********

※LINE対応チャットボット版の
「LINEチャットボット屋」
いろんなチャットボットがあります。
ぜひ、ご覧ください!

***************

***************

LLMでの会話は結構楽しいですよね。

暇つぶし、相談事、調べものなど、皆さんもいろんな用途で使っているでしょう。

そんなボイスモードですが、各社によって、声質や話し方が違いますよね。

これは何故なのか。

単純に学習量が違うのではないかと。

今回はこれを知りたくて、いろいろ試してみました。

会話ボイスモードの違い 同じ文章を音声で読ませてみる

会話ボイスモードの違いを理解するうえで、いちばん早いのは「実際に聞いてみる」ことだ。
今回はGoogle Colabを使い、あらかじめ用意した短い日本語文章をTTS(Text To Speech)で音声化する、という非常にシンプルな実験から始めた。

最初に使ったのは、手軽に利用できるgTTS(Google TranslateベースのTTS)だ。
コード自体は数行で、文章をMP3として生成し、その場で再生できる。仕組みとしては何も難しくない。

しかし、実際に再生してみると、すぐに違和感があった。

これです↓↓↓


発音は正確だが、抑揚が少なく、間の取り方も均一で、全体的に「読み上げ音声」という印象が強い。
決して失敗ではないが、「会話している感じ」からは遠い。

ここで重要なのは、構成や仕組みが間違っているわけではないという点だ。

「テキスト → TTS → 音声」という流れは正しく、ボイスモードとしては成立している。
それでも人間っぽく聞こえない。
この時点で、「違いはLLMではなく、音声側にあるのではないか」という仮説が自然と浮かんできた。

TTSを変えただけで世界が変わった体験

次に行ったのは、TTSをgTTSからOpenAIのTTSに差し替えることだった。

文章は同じ。変えたのは「読む役」だけである。

結果は驚くほど明確だった。

これです↓↓↓

抑揚が自然になり、語尾の抜け方や間の入り方が、人の話し方に近づいた。
特に、「考えながら話している感じ」や「軽い感情の揺れ」が音声から伝わってくる。

この体験で強く感じたのは、ボイスモードの印象の大部分はTTSが決めているという事実だ。

LLMがどれだけ賢く文章を生成しても、それを機械的な音声で読めば、会話はロボット寄りになる。
逆に、TTSの表現力が高ければ、多少シンプルな文章でも「喋っている感覚」が生まれる。

つまり、「人間っぽさ」の正体は、知能よりも音声表現にある。

ボイスモードの正体は「LLM × TTSの分業構造」だった

この実験を通じて見えてきたのが、ボイスモードの基本構造だ。
それはよく誤解されがちだが、「LLMがそのまま喋っている」わけではない。

実際には、

LLMがテキストを生成する(何を言うか)
TTSがそれを音声に変換する(どう言うか)

という明確な分業がある。

さらに補足すると、Whisperなどの音声モデルは「読み上げ」ではなく「聞き取り」を担当する。
つまり、音声入力をテキストに戻す側だ。

Advanced Voice Modeも、この基本構造自体は同じだと考えられる。
違いがあるとすれば、TTSの品質と、テキストを音声に変換する前後の調整(間やテンポの制御)である。

この分業構造を理解すると、「なぜTTSを変えただけで印象が激変したのか」が腑に落ちる。

Googleの会話モードはなぜロボット寄りなのか

ここで疑問が湧く。

Googleは音声技術の最先端企業のひとつだ。
それなのに、なぜ会話モードは比較的ロボット寄りに聞こえるのか。
(CMなんかは特に顕著ですよね。スマホアプリで生で聞くと最近はちょっと人間寄りにしているのかな)

結論から言えば、それは技術力の問題ではなく、設計思想の問題ではないかと。

Googleの音声AIは、検索、ナビゲーション、要約、業務支援など、生活インフラに近い用途で使われる。

そこでは「感情の揺れ」や「間の個性」よりも、「安定」「一貫性」「誤解の起きにくさ」が重視される。

人間っぽさは楽しい一方で、
不安に感じる人がいる
意図を誤解されやすい
感情があるように受け取られやすい

といったリスクも抱える。

Googleはこのリスクを避けるため、あえてTTSの人間味を抑え、最大公約数的な音声体験を選んでいると考えられる。

GrokやAdvanced Voice Mode(チャッピー)が楽しい理由

一方で、GrokやAdvanced Voice Modeは、明確に「人間寄り」を選んでいる。
間があり、迷いがあり、感情の揺れがある。

これは、単に音声が上手いというだけではない。
会話そのものが価値になるという前提で設計されているからだろう。

多少クセがあってもいい。
少し人間っぽすぎてもいい。
その代わり、「話していて楽しい」ことを優先する。

Grokなんかはクセ強の代表だろう。
アニメ設定の悪ガキキャラなんかにしたら、かなりどきつい毒をはく。
忖度しない会話はそれなりに結構面白い。

一方、openAIのアドバンスボイスモードでの会話も大阪弁でキレのある会話をしてくれる(そういう設定にしているのだが)。
まるで大阪の友人としゃべっている感じだ。

これらの特徴があるからこそ、TTSの表現力を前面に出す設計が可能になる。
GrokやAdvanced Voice Modeが「人間っぽい」と言われるのも、まさにこの方向性を選んでいるからだろう。

実験してわかったこと ボイスモードの差は学習量ではない

今回の一連の実験で、最も大きな学びはこれだ。

ボイスモードの差は、LLMの学習量や賢さの差ではない。

同じ文章でも、TTSが変わるだけで、体験はまったく別物になる。
ロボットっぽさは「未熟さ」ではなく、「設計上の選択」だったのだ。

そして、人間っぽく喋るAIが楽しいと感じる人が増えているのも事実だろう。

今後は、「正確で無感情な音声」と「人間味のある会話音声」が、用途によって明確に分かれていくのではと。

会話ボイスモードの進化は、知能の競争というより、体験設計の競争に入っている。
その入り口を、今回の小さな実験ではっきりと示してくれた。

****************

最近のデジタルアート作品を掲載!

X 旧ツイッターもやってます。
https://x.com/ison1232

インスタグラムはこちら
https://www.instagram.com/nanahati555/

***************

Follow me!

PAGE TOP