VALL E
Microsoftによって開発された人工知能モデルになります。こちらをお使いいただけば、さまざまな感情を持ったリアルな人間のスピーチを生成することができます。
VALL E について
VALL Eは、複雑なAIアルゴリズムを搭載したWindowsのオンラインサービスです。高品質な声真似を作成可能です。本モデルは、7000人以上の英語圏の人々のスピーチサンプルによって学習されました。
音声生成
本ニューラルネットには、従来のプログラムとは全く異なる音声合成方法が採用されています。本アルゴリズムは、音色や感情のトーンなど、微妙な声の特徴を利用します。そのため、音声をたった3秒処理するだけで、特定の人物を模倣可能です。
公式サイトには、AIの作例が掲載されています。ユーザーのみなさまは音声セグメントを聴き、従来の音声合成装置と比較可能です。加えて、本オンラインデータベースには、感情の色付けが異なるサンプルも含まれます。AIは、同じフレーズを、喜び・怒り・嫌悪感などを込めて発音します。
検証期間
こちらは、Stable Diffusionとは異なり、VALL Eアルゴリズムのソースコードはまだパブリックドメインでは公開されておりません。そのため、カスタムオーディオファイルに基づいて音声を生成することはできません。こちらのニューラルネットの性質は、本サービスが悪意ある目的に使用される懸念と結びついています。
主な機能
- ダウンロードと使用は無料です。
- 実際の人間のスピーチパターンに基づいて訓練されたニューラルネットモデルを提供します。
- 音声の音色や感情は変更可能です。
- 安全上の問題からソースコードは未公開となっています。
- 最新のWindowsバージョンと互換性があります。