自分らしい音声合成の声を探す物語、ボイスバンクの米VOCALiDがアニメCMを披露

この間、Twitterでこんなツイートを見かけました。

Watch when Goldivox, a speech-impaired young girl, sets out on a quest to find her perfect voice.

— VocaliD (@VocaliDinc)

アニメーションCMの紹介で、発話に障害のある女の子が自分にピッタリの声を見つけに行くという物語のようです。

言葉がうまく喋れない人は、筆談したり五十音表やコミュニケーションボードで指さしするほかに、意思伝達装置やVOCA（ヴォカ、携帯用会話補助装置）の合成音声で伝えたりすることがあります。

この音声合成の声。カーナビや視覚障がい者用スクリーンリーダーに使われているものと同じ、なめらかで聞き取りやすくなってきていますが、言語障がい者にとって合成音声の選択肢が多くありません。

男声や女声、声のトーンは調節できますが、お年寄りや子ども、関西弁バリバリだった人もみんな同じ個性がない声になってしまいます。もう少し、その人に合った合成音声で読み上げることができないかというニーズは昔からありました。

アニメ動画『Voice of Goldivox』

アニメーションCMのストーリーはこんな感じです。

Goldivoxという名前の女の子。タブレット型のVOCAの新しい声を探し求めて、気球に乗って旅に出ます。

最初に出会ったのは、ラクダ商人のおじさん。しかし、「協力したいけど、おじさんの声は低すぎると思うよ」との返事。
次はエスキモーのおばあさん。けれども、「私の声はちょっと歳がいってるのではないかしら？」。

もう自分に合った声は見つからないと心が折れかけた時、「どうしたの？」と声をかけられます。同じ年頃の女の子でした。最終的にその子が声を提供してくれました。

ラストシーンでは、Goldivoxちゃんはクマのぬいぐるみに「私の新しい声はどう？」と女の子らしい声で話しかけています。

英語の自動字幕がなぜかうまくいかないですが、絵だけでも楽しめますので、どうぞご覧になってください。

Goldivoxちゃんと Goldilocksちゃん

欧米の人は "Goldivox" という名前から『３びきのくま』に出てくる金髪の女の子を思い浮かぶそうです。民話の原題は、"Goldilocks and the Three Bears" 。

『３びきのくま』というのは、誰もいない家に迷い込んだ Goldilocksちゃんが、スープを飲んだりベッドに潜り込んで寝ていたりしていたところ、クマの親子が帰ってきてあわてて逃げ出したというお話です。

絵本で読んだことがある人も多いのではないでしょうか。

女の子が家の中を物色しているとき、3つずつ並んでいる椅子・スープ・ベッドのうち、子グマが使っているものが "just right!" とつぶやくことから、"Goldilocks"という言葉には「ちょうどいい」というニュアンスがあるそうです。

ちょっと余談でしたが…。

ドナーの声と独自の音声ブレンド技術

本題に戻って。

言語障害の中でも構音障害の人は、声帯を震わすことはできるが、喉頭から上の器官に障害があるために「ああああ」としか声を出せないことがあります。

話すことができない人のために VOCALiD社はどうやってユニークな合成音声を作るかというと、ドナーの声と本人のわずかな声をブレンドして復元させているそうです。

通常、音声合成ソフトウェアは録音された音声のデータベースを使用し、波形接続合成技術によって音声の断片を繋ぎあわせて合成音声を作っています。

そこで声質や喋り方が近い人に協力してもらい、数時間の録音作業を経て音声データベースを構築。本人のわずかな母音サンプルと繋ぎあわせて、その人自身の明瞭な合成音声を作り出しています。

TED Talksでの説明スピーチ

YouTubeで公開されていた、TED Talksでの講演が非常に参考になりました。VOCALiDの創始者で米ノースイースタン大学の Rupal Patel教授によるスピーチです。

英語で喋っていますが字幕オンにすれば日本語で表示されますので、ご興味ある方はどうぞ。
ルパル・パテル: 指紋のようにユニークな合成音声 – YouTube

（YouTube動画紹介コメントより）
重度の言語障害をもつ多くの患者はコンピューターを駆使してコミュニケーションをはかっています。でもその音声の選択肢には限りがあります。そのため、イギリス人のスティーヴン・ホーキングの声はアメリカ訛りで、多くの人達が同じ声を使い、しばしば不似合いな声で我慢しているのです。スピーチ・サイエンティストのルパル・パテルはこの現状をどうにか変えたいと願いました。素晴らしい講演の中で、パテルは声なき人達のためにユニークな声を生み出す方法について紹介します。

日本では？

「ボイスター」「マイボイス」

自分の声ソフトウェア「ボイスター」（旧製品名ポルックスター）やフリーソフトの「マイボイス」などがあります。

どちらかと言うと、病気を発症する前や声帯摘出手術を受ける前など喋れていた頃の録音テープを元に合成音声を作り出しているようです。

「クイズダービー」でおなじみだった篠沢秀夫教授もこういったソフトを利用されています。

「日本語ボイスバンク・プロジェクト」

国立情報学研究所が取り組んでいる研究プロジェクト。
VOCALiDと似たようなアプローチで、複数名のドナーの "平均声" と本人のわずかな声を混ぜあわせて合成音声を作り出しています。

現在は新たなドナー募集はしていないみたいですが、声優さんや音訳ボランティアさんたちも参加されたようです。

「自分の声」はまだ一般的ではありませんが、このような取り組みが広がればと思います。

Source:: Saatchi New York, VocaliD Find a Voice that Fits for Goldivox | AgencySpy

(Top photo courtesy of Pixabay)