マイクロソフト「3秒の音声があれば声を合成できるAI開発しちゃった。これ公開したらヤバくね?」 [261484327]
■ このスレッドは過去ログ倉庫に格納されています
3秒の音声があれば本人そっくりの声で日本語・英語・中国語合成できる「VALL-E X」はやはり脅威。MSが非公開にした技術のOSS版を試して実感した(CloseBox)
https://www.techno-edge.net/article/2023/08/28/1812.html ぼっさんは一分のくらいの音声あるから簡単に蘇らせちゃうな トップガンの悪役の人 癌で声出なくなったらしいけど新作映画は合成音声で出演できて喜んでたらしい 今回は、Core i7-13700(13世代)とGeForce RTX 4090のガレリアPCで試してみました。 試してみたけどこれGPU全然使わないわCPU依存
3700Xだと合成に一分かかる
バックエンドにopenjtalk使ってるっぽいが辞書やアクセントが今一やな
使い方
https://pastebin.com/RgzySxWJ
なんか貼れんからpastebinに書いたわ >>13
AI美空ひばり みたいに本人が言ってないこと言わせたいのか…? >>73 おぉーサンキュ!、今出先なんで帰ったら遊んでみる! 安倍晋三
https://files.catbox.moe/2cu7e9.mp3
バックグラウンドノイズまで学習してんのか前処理しないと駄目だな めぐみんの声でムフフなこと言わせられるんかタマランチ VALL-E Xを使ったTTS(Zero-shot Voice Cloning)のテスト
https://www.youtube.com/watch?v=kkJ4m-q5cks GPU(CUDA)使えないのはrequirements.txtで入るpytorchがCUDA向けビルドじゃないからみたいだわ
.\venv\Scripts\activate
pip install torch==2.0.1+cu118 --index-url https://download.pytorch.org/whl/cu118
でGPU使う様になる(なお推奨のCUDA Toolkit 12.0.0とcudnn8.3インストール・パス設定済み)
>>> import torch
>>> torch.cuda.is_available()
True
これでInfer from promptで60-90秒だったのが3-7秒位で生成できる様になった
でも生成毎に発生パターンが変ったり上手く発声できない事があるわ(生成結果に再現性が無い)
意味のない中世ジャップランドだよ
https://files.catbox.moe/vw7d1w.mp3 >>56
声の質だけ真似ても、
演技までAIが真似できるわけじゃないんだけど
なぜかその区別できない人が多い アップロードしないのがめんどい ソフトを
ダウンロード出来ないの >>88
いやそれは生成時間がそれだけかかったって事ね
元音声が3秒でも学習して生成できるのはマジ
https://files.catbox.moe/4ycc8j.mp3
貼らんが録音状態のいいゲームの女声をキャプッたらもっと綺麗な音声が生成できる
一般的に男声はF0確定するのむずいから品質が下る傾向にあるし
VALL-Eは音声品質(例えば電話品質)とかもそのまま反映されてしまう アイドルや同級生の声を材料に使って卑猥な同人音声を喋らせよう😈 マジで欲しい これでク☆の素材が少ない声優の声作ってほしい 三石琴乃の声を録音して
エヴァーをちゃんとエヴァといわせたい >>95
声優から見たら勝手に自分の声を使われるわけだ
法的なことは知らないけど
倫理的にやっちゃいけないことだろ? >>3
まず間違いなく
もうAI合成映像で被害者出てるしな 晋バルサンチャンネルの安倍晋三がより本物に近づくのか
0901 12:00 までのfanzaセールでついさっき同人エロボイス課金したぼくは勝ったの?
それだけでも教えて😡💦💦
>>96
ガフの扉が開くな👴
あぁ👴 ミッションインポッシブル3だと、そこそこの長文読ませてたよな ■ このスレッドは過去ログ倉庫に格納されています