1. アニメ作品からAIがキャラ毎にVoice抽出
2. VoiceをAIが文字起こし
3. Voiceとテキストを学習データに音声生成モデルを作成
4. AIでテキスト生成
5. AIでテキストに合わせたイラスト生成
6. テキストを3の萌えボAIで朗読
7. 4~6を無限ループ
これを実現のに1,2,3がまるで進歩してないんじゃ夢のまた夢だよ

画像やテキストに比べて音声処理ってそんなに複雑なの?