🎤マイクロソフト「お前の声3秒で真似できるAI作ったで。使い道は任せた🤗」 [526594886]
■ このスレッドは過去ログ倉庫に格納されています
3秒間の人声で模倣完了。マイクロソフトのテキスト読み上げAI
2023.01.18 20:00
author Andrew Liszewski
https://www.gizmodo.jp/2023/01/microsoft-ai-voice-mimic-deepfake-natural-copy-audio.html
真似すんな!「マネスンナ!」
急激に盛り上がりつつあるAI業界。便利で楽しい反面、著作権や本物と偽物の判断が難しくなるなど、問題も多々あります。
偽物を容易に作れるのも問題を助長します。マイクロソフトのAI、人間の声をマネするために必要なのはたった3秒のデータですって…。(続く)
>>1
高度な模倣を可能にしている技術
マイクロソフトのAIツール「VALL-E」は、Metaのエンコード音声コンプレッション技術「ニューラルコーデック言語モデル」をベースに開発されています。
このMetaの技術は、AIを使うことで、音質を損なわずにCD以上の音質データをPM3ファイルより10倍小さいデータレートに圧縮するというもの。Metaは通話時の音声の質アップや、音楽ストリーミングサービスの通信幅節約を狙って開発したのですが、マイクロソフトはこれを精度の高い音声変換AIツールに活用しています。
>>1
現在のテキスト→音声変換技術は大変優れていますが、AI(スマートアシスタント含む)のトレーニングには聞き取りやすいハッキリした高品質の音源が必要となります。
なので、トレーニング用の音声データは、スタジオでプロ機材を使って録音されることもあります。が、マイクロソフトのVALL-Eによるアプローチは、これをプロではなくいろいろな人からでも学べるようにしたもの。
トレーニングには、これまたMetaのLibri-lightデータセット(一般公開もされているオーディオブックLibriVoxの音声データを一部抜粋&処理した7千人を超える英語スピーカーによる6万時間もの音声データ)が使用されました。
>>1
これだけすごいと危険性もある
さて、トレーニングしたVALL-Eの声マネはどれほど上手なのか。VALL-Eのデモページに、たくさんのデモ音源(英語)が公開されているので、実際聞くことができます。
「Text」がVALL-Eが喋る文章。次の「Speaker Prompt」は、声マネされた人のサンプル音源(しゃべっている内容は、左テキストとはまったく違う)。次の「Groud Truth」は、声マネされる人が左のテキストを喋った比較用音声(VALL-Eはこの音声をしらない)。「Baseline」は一般的なAIで生成された音声。最後の「VALL-E」はVALL-Eが生成した音。「Speaker Prompt」の声質や話し方を捉えた上で、「VALL-E」でテキストの内容を話しています。
>>1
あれこれデモ音源を聴いていると、やはり得意不得意はあるようで、アクセントの再現は少々苦戦しているようす。とはいえ、VALL-Eは声色を真似るのはなかなか上手ですよね。抑揚のつけかた、間のとりかたなど、従来のAIよりも自然な話し方ができています。
今のところ、VALL-Eのソースコードは公開されていません。発表された研究論文では、声マネ上手ゆえに、不適切に使用されれば、特定人物の音声データから実際に話していない内容の音声を作り出せてしまうリスクがあると、自ら懸念点を指摘。
悪意あるユーザーへの対処しだいでは、VALL-Eの声マネ技術が公開されることはないかもしれませんね…。
(引用終わり) 安倍晋三はリアルにサンプル元多いからやろうと思えば出来るな これで橋環の声を作ってASMR作って通勤中に聞くんだ🥺 >声マネ上手ゆえに、不適切に使用されれば、特定人物の音声データから実際に話していない内容の音声を作り出せてしまうリスクがある
やったぜ お絵かきとか声真似とか生主みたいだなぁ
はやく人格の模倣をできるようにしてくれよ 電脳世界で安倍晋三が復活する日も近い
既にAI安倍晋三はいるが 水瀬いのりちゃんと日高里菜ちゃんと小倉唯ちゃんの三つ子ロリに「お兄ちゃん♪」って言わせてください!!! 安倍晋三におまんこーって言わせようにも良質な素材が無い 安倍晋三はあるだろ
ケンモメンが音声AI作ってたよ 櫻井の声であの文面を読み上げさせるとかそんなことはしない 発音がなんかおかしいとかなるんだろな
ミクさんみたいに調教が必要 三浦瑠麗の声で「私の肛門とマンコは世界一臭くて汚いです。誠に申し訳ございません」と言わせたい。 コイカツで版権キャラの声を版権キャラの声に出来ちゃう様になるってことか??
マジで世界変わるぞ >>2
はー、ディープラーニングで作った音声圧縮アルゴリズムを、逆にボコーダーにしちゃったのか
まあ圧縮って原理的にはそういうことではあるんだけど、こんな事できちゃうんだねえ >>19
最近まじで中国がヤバい
アメリカこのままだと中国にAI研究で負けるかも
そうなると軍事的優位も危ういぞ
中共が世界を支配する悪夢は絶対に避けたいところだ コイカツガイジってこんなところにも沸くのかよ心底キモいな 数年後
AI「すべての日本の俳優と声優の声を覚えました」 >>73
声優のニュートラルな声は出せても
声優の演技までは合成できないからなぁ
まだまだ研究の余地が残ってる このAI界隈の英語が出来ないと人間の暮らしが出来ないみたいな格差はどうしようもないな 美空ひばりのソックリボイスで歌わせてなんか不謹慎だみたいな話題なかったっけ やっとここまできたか
コナンも一般人が犯罪のトリックに変声マイク使い出して困惑www >>87
>>1のはテキスト文章を読ませてるのでかなり高度です 駄菓子屋 とらドラ!のエロ本シリーズのセリフ片っ端から打ち込んで釘AIに読ませる
んほおおおお! MSはOpenAIも取り込んだからちょっとブレイクスルー来そうな感じはある オレオレ詐欺やなりすましでの犯罪に使われるの不可避だな AIの発展を見ていると未来の扉が開かれた感があるよなあ
ああ時代が進むってこういう事なんだなって
で、その最先端を味わうには英語が出来ないと乗り遅れるっていう 不倫やら不祥事起こしまくってる声優使うより、不倫もしない出産で休養もないAIの方が良いわ
AIなら死ぬこともないしな 声紋認証は
セキュリティに使えなくなりそう
指紋や虹彩も最近は写真から簡単に複製できるらしいし
結局、最も信頼できるセキュリティは
数字と文字と記号を組み合わせたパスワードってことになりそう 音声ファイルにウォーターマーク入れる技術ってあるの? >>105
Cinavia
まぁ現代だと除去する事の可能なんだが >>114
じゃあ3秒で個人の声真似ができる変声機を出してくれ >>114
コナンの蝶ネクタイが出来ちゃうぞ!
悪用し放題… 自分が喋った声調のまま、学習した別の声に変換するAIボイチェンみたいなのがあれば棒読みもある程度どうにかなるな ネット越しのものは全て信用できなくなるね
対面最強の時代に戻るのか? 犯罪者集団が著名人になりすまして詐欺に使ったりしたら怖いですね
サンプルはどんな表現でも構わないのでネットから音声とれてしまいますし tiktokのバズる動画も数年後には全部AIが作ってたりしてな いよいよ政治家が要らなくなるな
どうせ官僚ペーパー読んでるだけだし公式発言以外は価値無くなるし スパロボで故人の声優に喋らせるくらいしか有効活用がない 求められてはいても作ってはいけない技術ってやつやろな 声優の声真似させればエロに使えるな
AV女のあえぎ声を望みの声優の声に変換できたらなお良し >>125
今のAIって偽物を判断する敵対的生成ネットワークを作って相互に高めているから作られてもすぐ意味がなくなるよ >>104
AIは永遠の処女でむしろええやんけ
むしろ現役声優に処女なんかおらんやろ… 声や表情でうそついてるかどうか
AIで見破れるだろうし、防犯上便利だろ
なんでそれが手の届くところに降りてこないのか 音声捏造できちゃうやん
録音した証拠だ言って有る事無い事でっち上げられたら身を守る術あるの? へぇー面白いな
嫌いなVtuberの嘘切り抜き動画でも作って遊ぼ >>128
富山敬
塩沢兼人
鈴置洋孝は成田剣、郷里大輔は三宅健太がいるからええか 坂本のインタビュー動画からけつな穴確定と
クラウドから🌰と🐿読ませろ クロちゃんみたいなヘリウム声やられたら振り向かずにはいられない
これ何かのトリックに使えそう めんどくさいオンライン会議でいろんなバリエーションで相槌打ってるAI作れば ■ このスレッドは過去ログ倉庫に格納されています