githubで公開されている音声自動生成AI、日本のアニメキャラ2890名分の音声を学習素材に超速度で進化中★4 [386780362]
■ このスレッドは過去ログ倉庫に格納されています
正式名称「VITS文本转语音生成模型」((Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech))
github
vits: Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech
https://github.com/jaywalnut310/vits
GitHub - innnky-vits-japanese- 端到端语音合成模型VITS,日语数据训练
https://github.com/innnky/vits-japanese
GitHub - Francis-Komizu-Sovits- An implementation of the combination of Soft-VC and VITS
https://github.com/Francis-Komizu/Sovits
GitHub - luoyily-MoeTTS- Speech synthesis model -inference GUI repo for galgame characters based on Tacotron2, Hifigan and VI
https://github.com/luoyily/MoeTTS
GitHub - Francis-Komizu-VITS- ACG Text-to-Speech
https://github.com/Francis-Komizu/VITS
VITS 语音合成完全端到端TTS的里程碑
https://blog.csdn.net/Terry_ZzZzZz/article/details/120458064
GitHub - CjangCjengh-MoeGoe- Executable file for VITS inference
https://github.com/CjangCjengh/MoeGoe
MoeGoe_GUI
https://github.com/CjangCjengh/MoeGoe_GUI
Moe TTS And Voice Conversion Using VITS Model
https://huggingface.co/spaces/skytnt/moe-tts
MoeGoeリリースノート
https://github.com/CjangCjengh/MoeGoe/releases
MoeGoe製作者のCjangCjengh氏
CjangCjengh
https://space.bilibili.com/35285881
零基础炼丹秘籍 - 为自己喜爱的角色训练TTS(文字转语音)模型
TTS (text to speech) model for your favorite character
https://www.bilibili.com/read/mobile?id=17826415
デモページ
Audio Samples from "Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech"
https://jaywalnut310.github.io/vits-demo/index.html
VITS_TXT_to_Audio
https://github.com/alphanemeless/VITS_TXT_to_Audio
VITS长音声生成工具 为你的小说,添加AI配音吧!(可可萝老师讲解)
https://www.bilibili.com/video/BV11d4y1r7cT/
論文
用于端到端文本到语音的具有对抗学习的条件变分自动编码器(Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech)
https://arxiv.org/abs/2106.06103
論文の解説動画
论文分享会 | 用于端到端文本到语音的具有对抗学习的条件变分自编码器
https://www.bilibili.com/video/BV1QB4y1U7ZK/
喜怒哀楽による読み上げの変化をパラメータ化しツール化
VITS情感控制语音合成
解説動画
可控制情感的绫地宁宁语音合成!基于VITS模型
https://www.bilibili.com/video/BV1Vg411h7of/
GitHub - audeering-w2v2-how-to- How to use our public wav2vec2 dimensional emotion model
https://github.com/audeering/w2v2-how-to
VITS情感控制语音合成
https://github.com/innnky/emotional-vits
感情を数字で指定できる、参数がパラメータ、样本がカタログのこと
「使用情感样本id作为情感参数」→「情感样本ID」
デモページ
nene-emotion
https://huggingface.co/spaces/innnky/nene-emotion
「vits 模型」で検索すれば配布されてるデータセットが結構出てくるが消えるのが早い、気になるデータセットがあれば早めにダウンロードしておいても良さそうだ
百度网盘(Baidu Cloud)からダウンロードするには百度垢が必須
百度アカウント開設方法↓
このアプリをインスコ後、国コードで日本を選んでSMS認証すれば完了
https://adersaytech.com/tech-event/how-to-register-baidu-account.html
ケンモディスコ鯖で再配布しているデータセット
(百度网盘版は既に削除されているので注意)
マギレコキャラ10人分のデータセット
パスワード mgrc
VITS的魔法纪录10人模型 - 百度网盘
https://pan.baidu.com/s/1ieZ9bisRPb6k7Nl-AH3hBg?pwd=mgrc
基于VITS的魔法纪录10人模型
https://www.bilibili.com/video/BV1Ne4y1y7uT/
ウマ娘
トウカイテイオー
ハルウララ
マチカネフクキタル
マチカネタンホイザ
パスワード wzsq
帝宝乌拉拉福来诗宝四人模型 -百度网盘
https://pan.baidu.com/s/1RsC-3WJfbv3pn7egGepcMA?pwd=wzsq
プリコネなかよし部データセット
パスワード znzk
好朋友部三人模型 - 百度网盘
https://pan.baidu.com/s/1A20m3NtIsxj_bjnU_6UlXw?pwd=znzk
関連動画
プリコネキャラにごめゆいを言わせる動画、音声はすべて自動生成
【AI语音合成】用VITS给优衣说对不起 公主连接17人模型
https://www.bilibili.com/video/BV1S24y1d74C/
なかよし部に中国語で喋らせる動画
【语音合成】基于VITS的好朋友部三人语音合成模型
https://www.bilibili.com/video/BV1JD4y167sQ
ルイズに喋らせる動画
【AI语音合成/VITS】来感受随时可以被钉宫辱骂的快感吧!
https://www.bilibili.com/video/BV1BP411G7P8/
ウマ娘&原神の声色再現動画
【AI语音合成】赛马娘&原神的中日结合模型尝试
https://www.bilibili.com/video/BV1UG4y1W7Ji/
VITS文本转语音生成模型の解説動画
【AI语音合成】基于VITS模型的优妮先辈语音合成
https://www.bilibili.com/video/BV1jY4y1c7JF
MoeGoeダウンロードして
https://github.com/CjangCjengh/MoeGoe/releases/tag/v3.0.0
MoeGoe_GUIダウンロードして
https://github.com/CjangCjengh/MoeGoe_GUI/releases/tag/v3.0.0
ここのリンクからモデルとコンフィグファイルをセットでダウンロードして
https://github.com/CjangCjengh/TTSModels
MoeGoe_GUI.exeを起動、MoeGoe.exeの位置とモデル(模型pth)、コンフィグ(配置・json)を指定したら
文本に文章入れて正規表現に変換できたら下のプルダウンメニューからキャラ名選んで保存ボタンで保存
データセットはいつ消されてもおかしくない
gifhubのmoegoe本体と2890名分のデータセットは最優先でダウンロード推奨
GitHub - CjangCjengh-MoeGoe- Executable file for VITS inference
https://github.com/CjangCjengh/MoeGoe
MoeGoe_GUI
https://github.com/CjangCjengh/MoeGoe_GUI
Moe TTS And Voice Conversion Using VITS Model
https://huggingface.co/spaces/skytnt/moe-tts
MoeGoeリリースノート
https://github.com/CjangCjengh/MoeGoe/releases
MoeGoe製作者のCjangCjengh氏
CjangCjengh
https://space.bilibili.com/35285881
MoeGoe_GUIに更新が来ています
3.0.1 声質の再現度高いのはわかったけどイントネーションなんとかならんのか GitHubとかいう
クッソ使いにくいダウンローダーなんでこんな人気なんだよ
わかりにくいんじゃぼけ まだ画像生成ほど自然じゃないけど、これは次に来そうだなあ
今日までのケ 晟鉉の動き
件のMoegoe開発者グループに潜入成功
本当に1000人規模で開発していて草なんだ
そのうち取材を申し込む予定
https://i.imgur.com/rXwimv9.jpg
https://i.imgur.com/SxK8eWL.jpg
↓
テンセントQQのMoeGoe開発者グループの鯖管とフレンド登録完了、プロフは新古今和歌集か?
https://i.imgur.com/UjcIov2.jpeg
https://i.imgur.com/ZQKvY5Z.jpeg
↓
とりあえずインタビューしてみた
https://i.imgur.com/JTxzwnU.png
嗨 大佬们 我又来了八
我想要釆访你们
是关于人工知能开发事情的
第一
AI模型训练时使用的数据资源是什么?
第二
这数据资源你们怎么获得?
哪里购买? 或者 做制作的谁?
第三
你们今后的到达目标 是什么?
嫌儲ディスコってどこで招待されてるのん
>>19
こことディスコ
あと消されたモデルデータ集の再配布をディスコでやってます
入る前にかならず規約の全文に目を通してね
https://disboard.org/ja/server/313289774440120332
嗨 大佬们
我是在日本的b站博主 ケ 晟鉉
我是日本最大的网站"5CH"记者的
我想要问您一件事,可以吗?
Q,日本网友说
"想要收费变声器Voidol软件为追加的vits萌声学习数据也很好"
这个,可能吗?
↓の回答
https://i.imgur.com/pDkrafe.png
音声関係ないけど
NovelAIの強化版が来た
NovelAI 再遭泄露?实测对比Anything-V3.0.ckpt 提升巨大
https://www.bilibili.com/read/cv19603218 >>21
えぇ…
嫌儲が主導とかもう終わりだよこのテクノロジー エヴァンジェリンAKマクダウェルちゃんのモデルまだ?
嫌儲ディスコにはいれた! >>35
嫌儲はイナゴするだけで主導には向かないだろ
他の板に引っ越せ >>32
それrecaptchやらないとすぐ追い出されたわ
気付かずに何度も入りなおしてた
まぁワシも知り合いの華僑経由で情報貰っただけだけどね
中国語圏でバズり散らかしたあとでようやく日本で騒がれ出した感じ
だいたい2ヶ月遅れぐらい
前スレより
CjangCjengh氏に色々取材しようと思って腾讯群聊(テンセントQQのグループチャト)のMOEGOE開発グループ覗いてみたが、満員(全508人、内モデレータ8人)で入れませんでした
メンバーのプロフィール見たら清華大学学生とか普通に居て草なんだ
あと第2鯖も埋まってて第3鯖が出来ていたので、最低でも1000人以上いる
Cjang Cjengh氏自身も機械工学系の上海交大出身、エリート集団が正に"人海戦術"で開発してる
2022年7月から開発開始
https://i.imgur.com/vVGD4Pt.jpg
https://i.imgur.com/djqeaAV.jpg
https://i.imgur.com/LazZpbq.jpg
moegoe開発者グループ
纸片人魔法交流群 - QQ群聊
第1群·702724269(満員)
第2群·768432324(加入時にモデレータによる審査あり)
第3群·546637589(加入時にモデレータによる審査あり)
開発鯖の管理人がなぜかケ 晟鉉のことを知っていたので、態々第2鯖に空きを作ってもらって入ってる感じ MoeGoe3.1来たみたいだけどあんま変化ないなら改良版から離れたくない 見てないけど現実の声優と二次元とがきちんと切り離せるのはいいな
「如果(模型训练数据集)是动画的话,目前常见的方法就是使用另一个网路提取」 ディスコードお礼しか書いてないけどキックされたぞ
なんでや( •᷄ὤ•᷅) GUIの変更オリジナルでも検索出来るようになっただけ?
更新履歴どっかにないのかしら >>54
ボットからrecaptchの認証しろとなんか来てるよ
そのリンククリックして認証しないと追い出されれる Voistock の config.json、最初の方の
"text_cleaners":["cjke_cleaners2"],
を
"text_cleaners":["japanese_cleaners2"],
に書き換えると[JA]要らなくなったけど
変更前の[JA]書いた場合と発音がちょっと違ったりでよくわからん
>>56
ありがとう
>>58
零基础炼丹秘籍 - 为自己喜爱的角色训练TTS(文字转语音)模型
TTS (text to speech) model for your favorite character
https://www.bilibili.com/read/mobile?id=17826415 これのおかげで捗りまくってるわ
下手な同人音声より良いわ
刺さるセリフを量産できるのはエグい あと1時間ぐらいしたらやってみるわ
スレ立ててんきゅー >>60
この作り方だけだとtacotron2だからMoeGoeでは使えないはず
作り方にそんな差はないが オーディオブックみたいにepub読ませられるようになったら教えて よくわからんがGUIで学習できるようになるようお祈りします 先日各所に通報しといたけどなんの音沙汰もないな
声優文化なんて守る価値もないってことか…
もう好き放題無法地帯で暴れまくってぶっ壊してくれ中国さん 法律違反はしてないからじゃねえかなあ
機械学習に音声使うなとか条項いちいち旧時代に作らねえもん
モデルファイルは私的利用のみにしろって注釈もあるし モデル作って配布は日本で違法じゃないしな
これ使ってエロゲ作ったらアウトにはなりそうだ
エロゲ量産されたら法規制とかありそう 散々威張り散らしてきた腐れカースト上位オタクどもが
ギャオりながら無産呼びしてる俺らに
権利振りかざしてんの見ると凄い脳汁出てくる
ウヨって普段こういう気持ちで左翼見てたんだろうな
とりあえずAI頑張れ! オタク一匹残らず失業させろw こんなのが文化盗用になるならジャップが西洋かぶれな生活してるのも文化盗用だろ 自分用のデータセット作りたいけどこれもCUDAが使えるGPUやないとあかんのやろ
colabはスマホないからgoogleアカウント作れないのや >>72
GPU使うようにするにはどうしたら良いのか教えてくれ
[JA]保守[JA]
[JA]保守[JA] 2800人超えモデルだとVITSでの音声合成がMoeGoeGUIだとできないのバグなのかな 5日くらい前にmodules.pyのDDSConvってクラスをタイプミスで修正してんだよね
そしてその修正は配布のMoeGoe.exeには含まれてない。何に使ってるクラスかよく見てないけどもしかするとそのせいかもね
自分でexe化しろってことかな 日本語アクセント補正に marine ってライブラリも使うようにしてみた
劇的には変わらず、語尾上がりが減ったかなって感じ
https://github.com/tasrr/WebApp_MoeGoe 韓国語だけじゃなくて、中国語も専ブラで打てないような機種依存文字が読めない
おま環かな >>92
ごめんねCPU
モデルデータ自体が書き出すときに cpu, gpu 両対応でやってない場合読み込めないとか
トラブルに対応できなそうであきらめた
後CUDA版torch を pyinstaller でまとめたら 4.8GB になったのもうーんって感じ
機会があったらCUDA版も作っときたいですね >>90
有り難く頂いて、問題なく使えました
ありがとう >>90
画像生成のエロスレでも見たわ
両方アプリ作ってるのか >>95
スレチだけど向こうは情報量が多すぎて数日で知らない単語が増えていく
AI関係はワクワクして楽しいんだけどね なんか片方しかキャラがいない版権があるのはどうして? W2V2-VITS使いたいんだけど情感参考ってところ何入れたらいいんだろう
model.onnxはセットしてるけどnpyなんてファイル見当たらない voicevoxみたいにアクセント調整できたら神アプリになりそうだが >>101
声優も韓国じゃないとだめなんじゃないかな
知らんけど >>102
Web版だと普通に読めるのにローカルGUIだと読めない >>103
試してないから適当なこと言うけど
GUIが日本語だから動かないんじゃね?
元のGUIなら動くとか?
https://github.com/CjangCjengh/MoeGoe_GUI
それともバージョンが上がって違いがあるとか?
まあ試さないとわからんね 同人コンテンツのボトルネックが声優だったから情勢がかなり変化しそうだな 軽く触ったけどイントネーションが外人すぎて簡単には使いこなせんわ 複数(2行)のセリフを含めて出力するのと
それぞれ分けて出力するとアクセントが全然違う 確かにあえて改行したり文頭に…を入れたりで結構変わるね
↓↑は効いたり効かなかったりでわからん アクセントとかあまり意識したことないからどっちかわからん時がある
でも効果は確実にある 生成するごとにイントネーション変わるから、たまにいいイントネーション引けることもあるぞ。 >>107
試したけど無理だわ
でも無理やり動かすことはできるぞ
webのmoettsから発音記号に変換して
発音記号をmoegoeに入力すると韓国語になったわ
日本語の発音が悪いのはここの変換でなんとかなるかもね
https://huggingface.co/spaces/skytnt/moe-tts
https://i.imgur.com/Ilnffmy.png イントネーションと感情値が弄れたらボイロとか余裕で越える プリコネの精度良いけど3人以外も無いのかな…動画はあるっぽいけど シンボリックの「N」とか「Q」とかのアルファベットとかどう使えと ipaって読み上げ出来る?
('A', 'ei˥'),
('B', 'biː˥'),
('C', 'siː˥'),
('D', 'tiː˥'),
('E', 'iː˥'),
('F', 'e˥fuː˨˩'),
('G', 'tsiː˥'),
('H', 'ɪk̚˥tsʰyː˨˩'),
('I', 'ɐi˥'),
('J', 'tsei˥'),
('K', 'kʰei˥'),
('L', 'e˥llou˨˩'),
('M', 'ɛːm˥'),
('N', 'ɛːn˥'),
('O', 'ou˥'),
('P', 'pʰiː˥'),
('Q', 'kʰiːu˥'),
('R', 'aː˥lou˨˩'),
('S', 'ɛː˥siː˨˩'),
('T', 'tʰiː˥'),
('U', 'juː˥'),
('V', 'wiː˥'),
('W', 'tʊk̚˥piː˥juː˥'),
('X', 'ɪk̚˥siː˨˩'),
('Y', 'waːi˥'),
('Z', 'iː˨sɛːt̚˥') google colabで学習したvitsモデルを自作で作って300回くらい回してみたがテキストで喋らせると謎の言葉でしかない
合成音声方式だとちゃんとキャラの声になってきてるんだけどなんか手順が足りてないのかなあ、クリーナーとかってのがよくわからない
[JA]保守[JA] >>122だけどわかったわテキスト書き起こししてないからだわ
この作業が一番きついな >>130
どっちかわからんかったのでひらがなでやってみて認識するようになったからそっちで作っていこうと思うんだけどどうなんだろ
あと全部のテキスト書き起こさなくてもある程度文章いれたら他のキャラでも学習してくれるっぽい気がする いや漢字もいけそうな気がする
訓練する前の前処理で文字を機械が読める文字に整理されるみたいだけど漢字にしててもa↑ri↓gatoo go↑zaima↓sU みたいに変換してるわ >>134
あんま意識してなかったけどutf-8でやってた
嫌儲ディスコ鯖管理人としての緊急連絡
乗っ取られたカウントを発見したためBANしましたが、該当ユーザーから個別DMで不審な招待URLが送られていることを確認しました
もし不審なDMが来ていた場合、URLを絶対にクリックしないようお願いいたします tacotron2で合成したけどVITSに変換できますか? VITSの方wavsフォルダがないけどどうするんですか ぶっちゃけ日本、絵やらアニメやら声優やら関わってる人多いのだから、
ネット上のアニメやら漫画やらをAIに学習させて活用するって発想して
実現するって動きが、そういう日本だからこそワンサカ出てくるものだろうと
予想していたのだがな
で、中国とかに持っていかれる
いくらコンテンツの生まれ出る国でも、技術音痴さで遅れて失う
この先どんな分野でも、そんな感じで衰退していくのであろう >>146
開発者にインタビューしてきたけどアニメは学習素材にしてない >>147
このAIに限った話ではなくって、自国産コンテンツにAIを採り入れての
更なるコンテンツの革新と生産についての話だったすまん >>147
アニメ素材にしてなかったらアニメでしか音声なさそうな作品ちらほらあるのは無理な気がする >>146
関わってる人が多いからこそ自動化して全員失業じゃ洒落にならんでしょ
新興国でしがらみのない中国だから出来ること 今期で放送されてるアニメとかアニメ素材無しでどうやってやったんだ? 冬月先生みたいに1つしか素材無いキャラは謎のショタボになるみたい
逆にクロコダイルとかバギーは4つしか素材無いけどかなりクオリティ高かったよ 声だけのモブ声優はもういらんな
トーク力や容姿がいいやつはその付加価値で生き残るだろうけど アニメから切り取った音声素材サイト使ってるけど直接アニメは使ってないってことじゃね
あっちの人的には 中華は知らんが日本だと
アニメの音声を音声として聞いて楽しむためではなく
研究目的でのデータベースは合法でしょ
「~のかわいい声100選(皆聞いてね)」なら違法になるけど
「少女キャラ、100ボイス(サンプルボイス)」なら合法なんでしょ? しかしこれ1回作ったモデルに後からキャラ足したり順番変えたりできんのね
いっぱい作りたいなら最初からキャラ枠と何個かのボイスはセットしとかないといけないわけか >>160
今の中国しらんけど、そういうの何でもOKな流れではもうない感じ?
今でもNHKの番組がbilibiliにあがるからありがたく見てるけど ビリビリに動画上がってたから削除要請出してきた
日本5CH反应:悲报!中国人使用2890位动漫角色声音训练出最强音声AI了!
https://www.bilibili.com/video/BV1Ne4y147CT/
[JA]保守[JA] VITSの学習で、データセットの解凍まで終わったんだけどhparams_training_files:とhparams_validation_files:はどうすればいいの? 「No dashboards are active for the current data set.」ってエラーが出る wavsフォルダを直下に移動したら今度は
「IndexError: tuple index out of range」ってエラーが出るようになった
c直下はどうですか?
[JA]保守[JA] ■ このスレッドは過去ログ倉庫に格納されています