githubで公開されている音声自動生成AI、日本のアニメキャラ2890名分の音声を学習素材に超速度で進化中★7 [386780362]
■ このスレッドは過去ログ倉庫に格納されています
前スレ githubで公開されている音声自動生成AI、日本のアニメキャラ2890名分の音声を学習素材に超速度で進化中★6 https://greta.5ch.net/test/read.cgi/poverty/1668689965/ 2890名分のデータセットの場所はこちら GitHub - CjangCjengh-TTSModels https://github.com/CjangCjengh/TTSModels#voistock Japanese & English & Korean & Chinese ↓ Voistockの箇所 正式名称「VITS文本转语音生成模型」((Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech)) github vits: Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech https://github.com/jaywalnut310/vits GitHub - innnky-vits-japanese- 端到端语音合成模型VITS,日语数据训练 https://github.com/innnky/vits-japanese GitHub - Francis-Komizu-Sovits- An implementation of the combination of Soft-VC and VITS https://github.com/Francis-Komizu/Sovits GitHub - luoyily-MoeTTS- Speech synthesis model -inference GUI repo for galgame characters based on Tacotron2, Hifigan and VI https://github.com/luoyily/MoeTTS GitHub - Francis-Komizu-VITS- ACG Text-to-Speech https://github.com/Francis-Komizu/VITS VITS 语音合成完全端到端TTS的里程碑 https://blog.csdn.net/Terry_ZzZzZz/article/details/120458064 GitHub - CjangCjengh-MoeGoe- Executable file for VITS inference https://github.com/CjangCjengh/MoeGoe MoeGoe_GUI https://github.com/CjangCjengh/MoeGoe_GUI Moe TTS And Voice Conversion Using VITS Model https://huggingface.co/spaces/skytnt/moe-tts MoeGoeリリースノート https://github.com/CjangCjengh/MoeGoe/releases MoeGoe製作者のCjangCjengh氏 CjangCjengh https://space.bilibili.com/35285881 moegoegui更新と感情控制模型の説明動画 2890人模型更新+使用方法介绍 https://www.bilibili.com/video/BV1mP4y1y7iU/ Vtuberの音声とかも入れられそう すげー時代だな 零基础炼丹秘籍 - 为自己喜爱的角色训练TTS(文字转语音)模型 TTS (text to speech) model for your favorite character https://www.bilibili.com/read/mobile?id=17826415 デモページ Audio Samples from "Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech" https://jaywalnut310.github.io/vits-demo/index.html VITS_TXT_to_Audio https://github.com/alphanemeless/VITS_TXT_to_Audio VITS长音声生成工具 为你的小说,添加AI配音吧!(可可萝老师讲解) https://www.bilibili.com/video/BV11d4y1r7cT/ 論文 用于端到端文本到语音的具有对抗学习的条件变分自动编码器(Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech) https://arxiv.org/abs/2106.06103 論文の解説動画 论文分享会 | 用于端到端文本到语音的具有对抗学习的条件变分自编码器 https://www.bilibili.com/video/BV1QB4y1U7ZK/ 喜怒哀楽による読み上げの変化をパラメータ化しツール化 VITS情感控制语音合成 解説動画 可控制情感的绫地宁宁语音合成!基于VITS模型 https://www.bilibili.com/video/BV1Vg411h7of/ GitHub - audeering-w2v2-how-to- How to use our public wav2vec2 dimensional emotion model https://github.com/audeering/w2v2-how-to VITS情感控制语音合成 https://github.com/innnky/emotional-vits 感情を数字で指定できる、参数がパラメータ、样本がカタログのこと 「使用情感样本id作为情感参数」→「情感样本ID」 デモページ nene-emotion https://huggingface.co/spaces/innnky/nene-emotion 「vits 模型」で検索すれば配布されてるデータセットが結構出てくるが消えるのが早い、気になるデータセットがあれば早めにダウンロードしておいても良さそうだ 百度网盘(Baidu Drive)からダウンロードするには百度垢が必須 百度アカウント開設方法↓ このアプリをインスコ後、国コードで日本を選んでSMS認証すれば完了 https://adersaytech.com/tech-event/how-to-register-baidu-account.html >>1 健太 スカイプパスワードわからなくなって入れんわ ※百度网盘版は全て削除済み、嫌儲ディスコで再配布中 荒らし対策として、サーバーのメンバーに登録してから10分以上経過していないアカウントはチャットの参加を弾いているので予めご了承ください 参加後自動で弾かれた場合、recaptcha認証とアカウントのメール認証ができているか確認して下さい 嫌儲DISCORD部 - DISBOARD- https://disboard.org/ja/server/313289774440120332 ラブライブ全キャラデータセット LL全员语音模型 - 百度网盘(Baidu Drive) パスワード r5k0 https://pan.baidu.com/s/1vHXah-GhzN31W6IkY6z6bQ パスワード p2cn https://pan.baidu.com/s/1vHXah-GhzN31W6IkY6z6bQ パスワード mivq zip解凍用パスワード LLSIFAS https://pan.baidu.com/s/1jwvOmIvWjxFYR3EeQfjcdA 【【VITS】基于emotion-vits的LL全员语音模型】 https://www.bilibili.com/video/BV1jY411o7vv Lovelive-VITS-JPZH Copied https://huggingface.co/spaces/CarlDennis/Lovelive-VITS-JPZH マギレコキャラ10人分のデータセット パスワード mgrc VITS的魔法纪录10人模型 - 百度网盘 https://pan.baidu.com/s/1ieZ9bisRPb6k7Nl-AH3hBg?pwd=mgrc 基于VITS的魔法纪录10人模型 https://www.bilibili.com/video/BV1Ne4y1y7uT/ ウマ娘 トウカイテイオー ハルウララ マチカネフクキタル マチカネタンホイザ パスワード wzsq 帝宝乌拉拉福来诗宝四人模型 -百度网盘 https://pan.baidu.com/s/1RsC-3WJfbv3pn7egGepcMA?pwd=wzsq プリコネなかよし部データセット パスワード znzk 好朋友部三人模型 - 百度网盘 https://pan.baidu.com/s/1A20m3NtIsxj_bjnU_6UlXw?pwd=znzk 〜MoeGoeの使い方〜 MoeGoeダウンロードして https://github.com/CjangCjengh/MoeGoe/releases/tag/v3.0.1 MoeGoe_GUIダウンロードして https://github.com/CjangCjengh/MoeGoe_GUI/releases/tag/v3.0.2 ここのリンクからモデルとコンフィグファイルをセットでダウンロードして (Japanese & English & Korean & Chinese→Voistockの箇所) GitHub - CjangCjengh-TTSModels https://github.com/CjangCjengh/TTSModels#voistock MoeGoe_GUI.exeを起動、MoeGoe.exeの位置とモデル(模型pth)、コンフィグ(配置・json)を指定したら 文本に文章入れて正規表現に変換できたら下のプルダウンメニューからキャラ名選んで保存ボタンで保存 MoeGoeリリースノート https://github.com/CjangCjengh/MoeGoe/releases moegoe開発者グループ 纸片人魔法交流群 - QQ群聊 第1群·702724269(満員) 第2群·768432324(加入時にモデレータによる審査あり) 第3群·546637589(加入時にモデレータによる審査あり) 2022年7月から開発開始 https://i.imgur.com/vVGD4Pt.jpg https://i.imgur.com/djqeaAV.jpg https://i.imgur.com/LazZpbq.jpg 今日までのケ 晟鉉の動き CjangCjengh氏に色々取材しようと思って腾讯群聊(テンセントQQのグループチャト)のMOEGOE開発グループ覗いてみたが、満員(全508人、内モデレータ8人)で入れませんでした メンバーのプロフィール見たら清華大学学生とか普通に居て草なんだ あと第2鯖も埋まってて第3鯖が出来ていたので、最低でも1000人以上いる Cjang Cjengh氏自身も機械工学系の上海交大出身、エリート集団が正に"人海戦術"で開発してる ↓ 件のMoegoe開発者グループに潜入成功 本当に1000人規模で開発していて草なんだ そのうち取材を申し込む予定 ↓ テンセントQQのMoeGoe開発者グループの鯖管とフレンド登録完了、プロフは新古今和歌集か? https://i.imgur.com/UjcIov2.jpeg https://i.imgur.com/ZQKvY5Z.jpeg ↓ 嗨 大佬们 我是在日本的b站博主 ケ 晟鉉 我是日本最大的网站"5CH"记者的 我想要问您一件事,可以吗? Q,日本网友说 想要收费变声器Voidol软件为追加的vits萌声学习数据也很好 这个,可能吗? 上の質問の回答 https://i.imgur.com/pDkrafe.png とりあえずインタビューしてみた https://i.imgur.com/JTxzwnU.png 嗨 大佬们 我又来了八 我想要釆访你们 是关于人工知能开发事情的 第一 AI模型训练时使用的数据资源是什么? 第二 这数据资源你们怎么获得? 哪里购买? 或者 做制作的谁? 第三 你们今后的到达目标 是什么? ↓ 鯖のモデレータより 我第一波的训练集是我手动从几万个音频里面找的(doge https://i.imgur.com/38qIx3l.png https://i.imgur.com/0Ca3cgF.png ↓ 「模型训练资源是分开日本动漫吗?」に対しての回答 https://i.imgur.com/h4vcdA1.png https://i.imgur.com/KaOQ3QA.png かなり頻繁に「商用利用は禁止だぞ」と釘を刺される https://i.imgur.com/ZUYbeny.jpg 「我向(日本)网友们无数次发了"禁止商用"的警告」 (I have issued a warning of "no commercial use" to my netizens countless times.) ↓ Kagarino「不要在disite或者dmm之类看到同人作品用就好」 (Don't see the works of others in disite or dmm. Just use them.) 3063957986「正确的,只要发出了警告,如果再有人用出问题,就与您无关了」 (Correct, as long as a warning is issued, if anyone uses it again, it has nothing to do with you.) https://i.imgur.com/xbRGyej.jpg https://i.imgur.com/9BLgZxr.jpg 包含2890名动画角色的VITS语音合成模型接下来,你们有角色模型追加计划吗?难道,为止2890名就完成呵? VITS speech synthesis model with 2890 animated characters next, do you have an additional plan for the character model? Is it possible that the 2890 places have been completed so far? Please answer the question. この質問への回答↓ 估计也不会加了 It is estimated that it will not be added. 想用别的数据覆盖到所有音,初步运行100多次,音色还没有完全确定然后换成其他的会好一些吗 If you want to cover all the tones with other data, it will be better to run it for more than 100 times initially, but the timbre has not been completely determined and then replaced with other ones. 在没玩vits不是有个优鸭行步态的网页,那个语音更多 Without playing vits, there is not a web page with excellent duck gait, which has more voice. 此前把数据切了十几分,发现就是有一块不对各种报错,扔了就好了,想继续尝试下一步 Before that, I cut the data for more than ten points, and found that there was an incorrect piece of error. Just throw it away. I want to continue to try the next step. ↓ https://i.imgur.com/k5nyDB2.jpg 開発基幹メンバー(モデレーターより上)から直々のお達しが来た どれぐらいの声優再現度なのか分かるように動画じゃなくcgi組んでくれよ 最近すぐ休んだり廃業したりスキャンダル起こしたりするやつ多いからAIにした方がいいわ もしかしてこれって 声だけが欠点と言われていたコイカツ3Dのウマ娘MODを完璧にできる…? キートン山田さんのモデルを1000までいったら配布しようと思うよ >>21 これのmodel12が2890人モデル Moe TTS And Voice Conversion Using VITS Model https://huggingface.co/spaces/skytnt/moe-tts 2890名分のデータセットに更新が来ています エポック数が増加 GitHub - CjangCjengh-TTSModels https://github.com/CjangCjengh/TTSModels#voistock Japanese & English & Korean & Chinese ↓ Voistockの箇所 vitsで自作モデル育てている方はぜひ嫌儲ディスコへ来て Gigazineの記事 文字を入力するだけで「萌え声」を簡単一発生成してくれる「Moe TTS」 https://gigazine.net/news/20221114-moe-tts/ >>28 QQ覗いたけど 開発者自ら消したみたい あーあ >不要在disite或者dmm之类看到同人作品用就好 Don't see the works of others in disite or dmm. Just use them. 明らかに日本で悪用されることを危惧してたし、消すかもと言ってたけど マジで消すのか やっぱりCjangCjengh氏自身が削除してた ラブライブ全キャラ名前が番号しか表示されなくてわからないけど >>32 how toがあまりにも分かりにくい インストールから発生まではなんとかできたが学習とか解説皆無でさっぱり まともな人が解説してくれるの待ってる 前スレでまどマギのボイスの中に物語キャラいるのおかしいって言ってる人いたけど マギレコでコラボしてるから音声データあるってことで間違ってないよ Ctrl+→でJAを前後に追加して削除再合成再生してくれるやつJA追加しないVerできたらオナシャス >>40 モデルデータ自体は皆がダウンロードしてるからローカルに残ってる 寝るので保守よろしく 同人音声学んでオリジナルのえろおんせい作れるようにならないかな gitなんとかってのはどれくらいのPCスペックが必要で金が要るんか 調べるの面倒だから誰か教えて これ次スレからモデル何名分の件は抜いたほうがよさそうだね >>54 荒らし対策として、サーバーのメンバーに登録してから10分以上経過していないアカウントはチャットの参加を弾いているので予めご了承ください 参加後自動で弾かれた場合、recaptcha認証とアカウントのメール認証ができているか確認して下さい >>55 音声自動生成AI「MoeGoe」スレ★8 こう? >>56 音声自動生成AI「MoeGoe」スレ★8 音声自動生成AI「Moegoe」超速度で進化中★8 とかでしょうか 何人分の件があるとへんなのを呼び込む可能性が高いと思ったので 主に自分仕様に改造 ※重要※/models/にフォルダ作ってモデルファイルを置いてないと使えません ※モデル変更時、本家でクリアしてる部分を強引に残すようにしたんで不具合あるかも ・モデル変更時の初回生成は少し時間掛かります ・Ctrl+→ チェックある時は[JA]付けて、チェック入って無い時に[JA]があったら勝手に消します https://i.imgur.com/SlrvWM4.png https://uploader.cc/s/gkvfnftcz4hrujlh5i1t48a68oc41811mfc5xsxx7lrgasrkqczimmalj4pj46ql.zip MoeGoeローカルweb版でGPU生成使えた人いる? 特定の文章を読ませると激しいノイズが発生する事があるんだけど でも商用どころか同人にも使えないから予算切れでアウトだろ >>64 特定の発音(ワード)の訓練不足だと思う 中国語訛りとかも無くそうと思ったら 最低でも500個は音源が必要 3~10秒の音源が理想と見たが1秒未満の掛け声とかそういうのってカットしたほうがいいんだろうか >>68 なるべく間に空白が入る音源もあまり入れないほうがいいらしい >>69 トリミングして小分けするほうがいいか でもそうなると短いボイスになってしまうな モデル育ててる人は嫌儲ディスコにも進捗上げてほしい これを綾波レイに喋らせろ わたくしがですね、わたくしがですね、ホームページ、ホームページからですね、 わたしが 森とっぅも学園のホームページに対してわたしが隠ぺいしようがないじゃないですか。 そういうイメージ操作はねえ、やめるべきですよ? そういうことをしてるからですね、 国民の信頼をうることが、みなさんはできないんです。 これはっきりと申し上げてね、 はっきりと申し上げて、いいですか、で、 そういうですねえ、 そういう、すいませんちょっと野次はやめていただけますか? たいせつなところなんですから。 こういうですね、 こういうたいせつな議論をしているときに、 正確な議論をするべきなんですよ。 で、そのなかでですね、そのなかで、この、お、えー、 先方がですね、家内の、あの、おー、 ぅ、えー、名誉校長という、ホームページのページを ですね、隠ぺいしたという言い方はですね、 これは取り消して、まず取り消して、え、っう、いっい、ぃ隠ぺいというものをですね まずわたしに質問する前に、じゃあ取り消してください。 何度も何度も断ったというのは ですね、安倍晋三小学校について申し上げたわけであります。 それと、隠ぺいというのは ですね、これは失礼ですよ! で、あなたたちはすぐにそうやってレッテル貼りをしようとしている。 この問題についてもですね、まるで、 まるでわたしが関与しているがごとくの、 ずーっとそういうですね、 えーイメージ操作をこの予算委員会のテレビつきしつ(ママ)の 時間を使ってですね、 えんえんと繰り返していますが、みなさんそれが得意だし、それしかないのかもしれない。 それしか、ま、ないのかもしれませんが、隠ぺいというのはですね、 隠ぺいというのはー、 隠ぺいというのは じゃあ、わたくしが隠ぺいしたんですか? 2890名の奴消えたらしい まあその前に落としてエロボイス量産してるけどね ちょっと後回しにしてるとすぐモデル消えちゃうんだな https://i.imgur.com/wTIIXXI.png VitsでトレーニングさせてみるけどTacotron2と比べても圧倒的に学習に時間かかるなこれ これであの中国訛なら正直骨折り損 凄いな 自分はまずbilibiliの動画引っ張ってきてプライベートでつべに上げて自動翻訳かけるところから始めないと… ゼロベースからの学習だから、まず言葉の形成からってのがしんどい感じ ある程度学習してあるところから始められたら音声覚えさせるだけでいけそうな気はするんだけど >>76 Epoch数云々より音源足りてない状態で学習しても延々と訛りとれないよ 完全に訛り取るには最低でも500個以上は音源用意する必要ある >>79 まじか350個(15分ほど)で試しにまわしてみたがデータセット追加せなならんな >>80 プリコネのユニとか完成度の高いモデルは音源1000とか用意してるみたいだ Epochは2000辺りでほぼノイズなくなるけど学習に30時間とかかかるね 今までNGで無理だったあんな声優やこんな声優の声でエロが作れるってこと? 素材全部AIなゲームが生まれるじゃん 音源の数が必要なのなら20秒の台詞をカットして分割とかで数作れるけど どういう形がベストなんだろ 数作しか出演してないマイナー声優でも自分で作れます? AVやエロゲのエロボイスを普通の素人系のエロボイスに置き換えたいんやが >>84 一世代前?のデータセット基準では2秒~6秒ぐらいらしい 3~4秒が一番適切らしい >>88 10秒には納めようとしてたけどもうちょい切っていいわけか 絵のやつもそうだけど こういうのって著作権的にどうなんだろうな。 元声を素材にしてイジっているなら問題ないのかね 一応アニメ音源とかから取るときは使いたい音声をある程度まとめてボーカルリムーバーAIに食わせてBGMカットしてるな まあでも音源としては微妙だろうから極力そういうの入れないほうがいいんだろうけど >>91 学習に使用するのもそこから生成するのも何の権利も侵害しないんだってさ 将来的に契約とか法律とか変わるかもしれないけど今のところ Discordに入っても次の日にはBANされる 俺の日頃の行いが悪いんか? メール認識はしている >>95 botから通知が来るはず あとrecaptcha認証も必須 >>96 ヒントありがとうございます botから通知が来る様子がないので暫く様子見ます 声優の音声データはSEなし版があるDLsiteの音声作品から集めてきたら精度上がりそう でもSEなし版も同梱してるところ電撃G'zマガジンくらいで他にほとんどねえんだよな 演じてない声優音声は意外と探すの大変なんだよね オーディオコメンタリーの音声だけ切り取れたらいい感じに使えそうだけど多分本編音声も混ざるだろうから難しいか ラジオMCとかが綺麗な音源で取れたらよさげか 一回公開されたものだし今度表に出て来た時はえぐい進化してる可能性あるな ■ このスレッドは過去ログ倉庫に格納されています
read.cgi ver 07.5.5 2024/06/08 Walang Kapalit ★ | Donguri System Team 5ちゃんねる