音声合成について期待すること。

Siriやgoogle翻訳の音声入力、のように、vocaloidとか、音声を発することができるソフトウェアの声でアウトプットしなおす、ということはできないのか、というのが最近期待すること。

これができると何がすごいのか、というと、

インプット

音程とともに、歌を認識。

アウトプット

録音したあとにソフトウェアの声で置き換える

となるので、歌い手の歌声が男性か女性か、というのは無意味となる。これがポイント。今の市販のものは、声での入力ができない(声自体はできても音程の認識ができない、ということかもしれない)。

今の技術はこの声のインプットをリアルタイムで完全変換することができず、歌い手の歌声を前提にした変換となり、男性の声は男性の声質を根本的には継承した後となり、実用に耐えない。

他方、既存のボーカロイド的な入力インターフェイスはいかにもエンジニアリング的な入れ方で、ステップバイで入れる必要がある。ここにクリエイティビティが発生しているときの即応性に対応できない、という痛い本質的な課題がある。

おそらく、下記のように歌声というインプットを要素分解し、別の声に出力させる、というのはリアルタイムだと無理がある、のだろう。処理に負荷が相当かかりそうな印象。ただ、インプットをまずした後にステップバイで処理をかませ、アウトプットする、なら不可能ではないのではないか。

人間の歌い手がどうしても必要であり続けるとしたら、声質と表現力の部分だろう。私の想像だと下記のようなやり方しかないだろう、と思ってしまうが、どうしても表現力をデータで捉える、というところに機械のような表現に陥る、という可能性を感じる。

-翻訳ソフトの精度で言葉を認識する

-音程はメロダインのように認識する

->表現面も別途解析して、データ化する

-これらのインプット及び処理したデータを組み合わせたものを、ソフトウェアの声に歌わせる

-言葉、音程、表現を別の声で出力する

この表現力、のところは膨大な歌い手の歌い方をインプットして機械学習させたあととソフトウェアの自動判定は直近のAI搭載の音声合成ソフトはいい線を行っていると思う。

とするとインプットのところの入力インターフェイスが、ステップバイの煩雑な仕様ではなく、歌う、という入力の仕方に合った入力インターフェイスしかないのではないか。というより、そのインターフェイスにできないから今の仕様なんだ、ということかもしれない。

前も書いたが、非常にUI/UXデザインに優れた、できれば自分自身が音楽の作り手、歌い手である人が音声合成ソフトウェアの開発現場にいることが、今後の技術革新には不可欠、と、また同様の所感を持つに至る。

頭の体操でした。

Regards,

Knz

MISCELLANEOUS PERSPECTIVE...