音声合成

音声合成の技術がどんどん進んでいるようです。
まずはこの動画を少しご覧ください。

ドリキンさんというYouTuberが会話するお相手は、ドリキンさんの声をAI学習させたボイスチェンジャーを使って、あたかも同じ声を持った2人が会話しているような状態になっているという…。
リアルタイムでここまで自然に変換できるのは驚きです。

その会話のお相手の松尾さんという方の書かれた記事によると、
同じシステムを使って、既存の歌の声を変換することもできるようです。

オケの音の間違いがちょっと気になりますが。

左チャンネルの歌を変換して右チャンネルの歌を作っているようです。

元の歌のオーディオデータがない場合でも、
例えばSynthesizer Vで作った歌ならかなり自然なので、
それを変換すれば良さそうですね。

打ち込みで音源を差し替えることで音色を変えるように、
録音したボーカルをAIボイスチェンジャーで違う人が歌ったようにする、
ということも可能になるかもしれませんね。

AIで驚いたといえば、こちらもそうです。

これ、Midjourneyに作った白人女性の画像を作らせ、Chat GPTに読み上げる原稿作らせ、
その2つのデータを元に、D-IDのビデオ作成機能で読み上げる動画を作ったようです。

これにさっきのボイスチェンジャーを使えば、
 ある人の1枚の写真とある程度の量の音声を入手すれば、
 その人が(実際には話していない)話をしている動画
を作れる訳です。

素人考えですが、ニュース番組などは、アナウンサーやスタジオでの収録を省いて、原稿を作るところにリソースを割き、ノンストップでニュースを読み上げ続けるチャンネルを作ったりすると良いかもしれませんね。

音声合成で言えば、CoeFontも気になっていました。
自分の声を学習させれば、読み上げて録音する代わりにテキストを打てばよいので、便利ですよね。
(…と思ったのですが、実際に使う機会も少ないのでまだ使っていないです。)

私が最初にパソコンが音声を発しているのを実際に見たのは、
PC-6001のソフト「AX-6」のデモだったと思います。
(今調べたら、1982年発売のようです。)

PC-6001は同時発音数3のPSG音源が入っていて、メロディ・ベース・リズムをそれぞれ1パートにして、YMOの曲などを再生して遊んでいたりしましたが、それが限界だと思っていたパソコンから「AX-6 by ASCII」と聴き取れる音が出て、かなり驚いた記憶があります。

「AX-6」のデモの動画。探せばこんなのもあるんですね。

当時、自分でそんなことが出来るとは思っていませんでしたが、
技術は進歩し、誰にでも使えるようになってきています。

…すごいですねぇ。

DIARY

Posted by 羽毛田耕士