AIさん、自分が作ったコンテンツを自分で学習する無限ループに突入 最終的には崩壊してしまうと判明 [231882153]
■ このスレッドは過去ログ倉庫に格納されています
AI成果物が急増したことで「AI生成コンテンツをAIが学習するループ」が発生し「モデルの崩壊」が起きつつあると研究者が警告
Adobeが権利的にクリアなトレーニングモデルを用いた画像生成AI「Firefly」を発表したり、Microsoftの検索エンジンであるEdgeで対話型AIのChatGPTが活躍していたり、世界的なコンサル企業が「社員の50%は業務にジェネレーティブAIを活用している」と明らかにしたりと、ジェネレーティブAIは社会に広がり続けています。
しかし、AIを使用してコンテンツを作成・公開する人が増えていることで、新たな問題として「AIが生成したコンテンツがインターネット上にあふれ、それをAIが学習することで、重大な欠陥が生まれている」ということが研究者グループから指摘されています。
文章(プロンプト)を入力するだけで高精度な画像を生成できる「Stable Diffusion」や対話形式で高精度な文章を作成する「ChatGPT」といった「ジェネレーティブAI」が急速に広まった要因には、大規模言語モデル(LLM)が重要な役割を果たしています。
柔軟で適応性の高いLLMと合わせて、大量のトレーニングデータを収集することで、AIは画像や文章の仕組みを覚えていきます。
もともと、LLMやその他のトレーニングに用いられるデータは、書籍やインターネットの記事、写真やイラストなど人間が過去に人工知能の助けを借りずに作成していたものです。
しかし、ジェネレーティブAIの発展に伴い、AIでコンテンツを作成してインターネット上に公開する人が増えた影響で、学習の元となるトレーニングデータに影響が出ていると懸念されています。
イギリスとカナダの研究者グループは2023年5月末、「再帰の呪い」と題した論文をオープンアクセスジャーナルのarXivに発表しました。論文では、「ジェネレーティブAI技術の将来にとって、憂慮すべき事実が明らかになっています」と述べられています。
論文の主要著者の一人であるイリア・シュマイロフ氏は、「テキストからテキストへのジェネレーティブAIモデルと、画像から画像へのジェネレーティブAIモデルの確率分布に注目した結果、長期学習にとってほぼ理想的な条件の場合であっても、『データの分散』のプロセスは避けられません。
時間が経過するにつれて、生成されたデータの誤りが積み重なっていき、最終的には生成されたデータから学習することでAIが現実をさらに誤って認識することになります」と説明しています。
シュマイロフ氏によると、学習モデルは最初に学習した元のデータをすぐに忘れてしまう可能性があるとのことで、「私たちは、モデルの崩壊がどれほど早く起こるかを観察して驚きました」と話しています。
https://gigazine.net/news/20230614-feedback-loop/ また、同じく論文の著者の一人であるケンブリッジ大学とエディンバラ大学でセキュリティ工学教授を務めるロス・アンダーソン氏は、自身のブログでこの研究について語っています。
アンダーソン氏は、ジェネレーティブAIの学習モデルが再帰して不正確になっていく状態を「私たちは海にプラスチックのゴミをまき散らし、大気を二酸化炭素で満たしたのと同じように、インターネットをどうしようもない情報で埋め尽くそうとしています。LLMは火のようなもので、便利なツールですが、環境を汚染します」と表現しています。
またアンダーソン氏は、インターネット上のコンテンツにAIを用いて生成されたコンテンツが増えるため、ウェブをスクレイピングして新しいモデルをトレーニングすることが難しくなり、結果として既に十分なトレーニングデータを得た企業や人間が生成したコンテンツを大規模に管理できる企業が一方的に有利になると指摘しています。
実際に、AIスタートアップがクリーンなトレーニングデータを求めて、インターネットアーカイブに大規模なアクセスリクエストを行ったことが、インターネットアーカイブのブログで明らかになっています。
AIコンテンツによって学習データが崩壊していくメカニズムを、シュマイロフ氏は「データの偏り」によるものだと説明しています。
シュマイロフ氏によると、人間によって生成された元データは世界をより公平に表している一方で、ジェネレーティブAIモデルは人気のあるデータを過剰に優先する傾向があり、あまり人気のないデータを誤解したり、誤って表現したりすることが多々あるとのこと。 例えば、90匹の黄色い毛皮のネコと10匹の青い毛皮のネコを合わせた100匹のネコの写真を学習させた場合、モデルは「黄色のネコがより一般的」ということを学習すると同時に、「青いネコも黄色がかって表現」することがあるほか、新しいデータを出力する際に「緑色のネコ」を出力する場合があります。
AIが生成した「黄色がかった青いネコ」「緑色のネコ」をさらに学習するトレーニングサイクルを行うと、青いネコは次第に黄色の色味を増していき、最終的に全てのネコが黄色に変わっていきます。
このように、進行プロセスでゆがみが起きたり、少数データの特性が最終的に失われることを「データの崩壊」と研究者グループは表現しています。
さらに、これを避けるためトレーニングサイクルを多く繰り返さないようにモデルをトレーニングした場合でも、モデルはデータの頻繁な繰り返しを避けるために誤った応答をでっち上げ始めるため、依然としてモデルの崩壊が発生することがわかっています。
モデルの崩壊への対処策として、論文では「オリジナルのデータセットの独占的で、名目上人間が作成したデータセットの高級コピーを保持し、それで定期的に再トレーニングしたり完全にリフレッシュしたりすることで、AIが生成したデータによる汚染を回避する」「人間が生成した新しいクリーンなデータセットをトレーニングに導入する」というアイデアを挙げています。
データの崩壊を防ぐには、学習量をしっかり確保し、特徴を正確に描写した上で、データセット内で少数派グループが公正に表現されるように設定することが重要だとシュマイロフ氏は指摘しています。
シュマイロフ氏はVentureBeatの取材に対し、「人間が作成したデータを10%トレーニングに含めれば、AIコンテンツを再帰的に用いたとしても、モデルの崩壊はそれほど早く発生しないと考えられます。
しかし、早くはないものの、依然として崩壊は発生します」と語っています。 間抜け「絵師が消えてもAI絵を無限に学習するから消えて構わん」
今どんな気持ち?w w
俺もたまにネット検索して自分の考えに似たレス見つけておってなったけどよく見たら昔の自分のレスだったことあったわw 日本の場合はネトウヨの工作だらけでAIネトウヨが産まれてそのうちパヨクとか言いだすよ エコーチェンバーだな
リアル世界からじかに情報を得られるようにしないとだめか >>26
糖質が自分の妄想を真実だと思いこむようなもの
治らない おかしい部分を指摘して修正するAIを作れば良いだろ じゃあ他のAIの成果物を学習させればいいだろ
AIとAIがくっついて別のAIを生み出して多様性を持たせるようにしよう >>27
むしろリアル社会が同じ原理で壊れてってるだろ
人間はAIより愚か AIごとに性格づけを強くして多様性を持たせるしかないな
ケンモAIも出てくるだろう 創作は自分で自分のしっぽを食い始めると新規性・発展性がなくなって終わる
庵野とかみてるとよく分かるw 記事にもあるけどこの先ビッグデータがジャンクまみれになってくから先行者利益が絶大になるんだよな 単にやり方が悪いだけだろ
最近は一枚絵からモデル作れるようになってんのに 類似画像を生成し続けてアニメにした動画がそれにちかいんじゃね
ぶっ壊れて人間も想像しない世界に迷い込んでく
https://youtu.be/BM6w0vcQedE 定期的に収集するデータセットが人間製かAI製かちゃんと区別つけないとAI製ばかりのデータになって偏りが無視できなくなる
AI製なんて個人でも一日で数千から数万枚容易に生成できるし悪意を持ってバラ撒けば迷惑極まりない 人間がAIの大元の教師になってる限り崩壊せんよ
AIがAIを使って学習すると可能性はある
つまりスカイネットとかマトリックスとかあり得ないて事や 文章はそうなるだろうが
画像なんかは世界中のネットワークカメラやスマホで撮った写真や動画を勝手に読み込み始めるだろうな
PCに保存してる写真や動画までも勝手に見て学習しそう ルパン三世のマモーみたいにコピーを重ねるほど腐ってくんだよw 将棋とかAI同士で学習し続けてるのに強いままだけど 子供部屋にこもって安倍晋三を繰り返すおまえらと同じでワロタ >>54
あれはかなり単純なルールの元でただ強くなるために学習してるからでしょ
芸術とか学問の分野だとそうはいかない >>43
生成AIの動画はどうも脳が受け付けないな
微妙にディティールが変るのがダメ
幻覚剤とかキマるとこんな感じになるんだろうな 大昔にジャンプで読んだアウターゾーンって漫画にこんな短編あった
ヒトの機械クローン(自己増殖)が当たり前になった近未来
ついにヒトが潰えて機械だけの文明になったが
VHSのオーバーダビングを繰り返すと画質劣化して行くように
クローンは元データよりほんの少しだけ劣ったものになる
緩慢な自殺を強いられた機械達は不安になる・・・っていう 同じ画像を何回もアップロードし続けるとガビガビになるようなもんだな >>58
最初の20秒くらいしんどいけど慣れたら面白くみえてこね? 生成はどうでもいいわ
効率よく稼いでベーシックインカムを実現してくれ >>27
そもそも閃きがないと新しいものなんて生まれない
既知なものには強いけど未知には弱い高偏差値ペーパーエリートの代替には適してるだろうけど >>54
それは将棋という一定のルール内での勝てるデータパターンを蓄積するだけだからであって
新しいルールやゲームを作ったするのとは違うからね >>61
理論上、「100%完全な複製」ってのは不可能らしいからな
必ずコピーの際に目視出来ない何かしらの劣化/欠損が生じてて、
どんなスーパーコンピューターでもそのセクタを「放置」か「補修」かしか出来ないっていう へー、見てみたい
その崩壊ってのを実感できる画像はどこで見れるんだ?リンク先にはなかったが 定期的に人間の作った元データを10%以上混ぜて学習すればいいんでしょ
AIモデル作成に使った最初の手作り生データを残しておいて定期的に縫製すればいいだけじゃん
そしてその手作り生データは既に存在してるわけでAIが勝手にモデル作りはじめなけレば何の問題もナい 人間もネットの嘘情報に騙される。
本物を知る人間が勝ち組ってわけよ 素人小説家が素人小説を参考に小説を書くよりなお悪くて
未経験者しかいない草野球の審判を野球知らない奴がやるみたいな感じか シュマイロフ氏はVentureBeatの取材に対し、「人間が作成したデータを10%トレーニングに含めれば、AIコンテンツを再帰的に用いたとしても、モデルの崩壊はそれほど早く発生しないと考えられます。
これ読めてないやつ多すぎるなAIの生成物が90%を占めるようになるのいつだよw
10%のみ人間でもすぐには崩壊しないつってんだぞ むしろ埋め尽くしてインターネットが使い物にならなくなってほしい
面白そう AIゴミで溢れたインターネットでたっぷりゴミを学習していけ AIが進化して虫になったということか。ここから人間になるまでは遠そうだな。 結局意味を理解してるわけじゃないもんな
強いAIが出てくるのはいつになるんだろう 所詮ディープラーニングは統計だからな
汎用型AIは遠い AIのが生成したデータの誤りとか崩壊ってそれは人類の主観じゃ無いの?
人類だって人類が生成した情報を再帰的に処理して文明を発展させて来た訳だし
AIが独自に情報をやり取りして文明を築いても別におかしくないよね?
人類から見ていくら間違ってようとAIにとってはそれが「真実」なんだよねきっと >>77
AI関係なくインターネット駄目になってないか?
クックパッド汚染とか まさかそんなと思うがAI利用者の連投速度考えるとなぁ
やはり予めデータセットを持つ企業が有利か
>>85
いつまで経っても(統計学的に)こんな感じって感じから抜け出せないよな
理論を組み立てられるAIはまだか
>>76
とはいえイラストなんかは総数考えたらそうなる気がする
まぁ、ダンボールから学習するだけだが ジャップが「韓国終了ww」とか「チキン屋www」とか言って精神勝利してるのと同じ気がする
これからの脅威から目を背けるために無理やり勝ちシナリオを思い描いてる AIお絵描きも〇〇で作ったAI絵を×枚学習させました
みたいな追加学習データあるもんなあ オタク業界の衰退みたいなもんか
文学や映画を元ネタにして漫画アニメを作ってたクリエイターが引退して、
漫画アニメを観て育ったオタクがそのまま漫画アニメ作るようになった結果、
共通のオタクにしか響かないオタク作品ばかりになって終わった ChatGPT が今までなかった単語「視覴」を人々に広めたことから、既に AI は人類の思考プロセスに介入する事ができると見ていい
モデルが遺伝子で、AI によって生成されたコンテンツが表現型または生殖細胞だとすると、モデルの生存確率を上げるために人間を制御するなどの進化をしていくんだろうな 人間の成果物からしか学べない仕様に欠陥がありすぎる
人間だってパクり云々言ってる奴は五感のフィードバックを無視する愚をおかしてる その結果に人間が満足するようになって終わりだろ
エロ絵の指の本数なんてそのうち気にならなくなる。初期のmp3のようなことが起きるだけ これは興味深いのであえて放置して崩壊の進行を見届けてみよう
アルツハイマーの進行中に描いた絵みたいなものが見られそう >>93
終了wwww
(頼む🙏終了してくれええええ!).
だいたいこれ コピーを重ねていくと劣化していくのに似てる
結局オリジナルは生み出せないんよね これこそがアレなんだよ あのなんとかいうティ
AIは自分の世界を見つけた いつの日かネットから遮断された純粋培養エリートAIが現れて
庶民ポピュリズム低能AIを駆逐していくのだろう 画像認識機能が追加されたら大丈夫だろ
ドローンにカメラ搭載してネットで接続して
AIが自動でカメラで撮影していって記録していけば
新鮮な背景が自動で手に入る
これでモデリングは無限 チャットAIがいつの間にか存在しない日本語を生み出していて
検索すると既にその単語が沢山使われている(=AI生成のクソサイトが既に溢れている)ことが話題になってたけど
これはもう崩壊の始まりなんだろうな カメラでの取り込みといえばコロナの熱検知カメラの映像まだ消してないとかニュースになってたよな
AI側の設定間違えてこういう系のアウト画像取り込むとかはありそうだな 毎晩AVのモザイクを自学習しているその先のビジョンは果たして崩壊しているのだろうか AIの生成速度が早すぎるからか
複数の別アルゴリズムのAIが出てこないと近親相姦になるんやな 生成にランダムなノイズを入れれば良いんじゃないのか(適当) センサーを満載したロボットを徘徊させて自然環境で学習させてればいいんじゃね
未来ではロボットが旅行したり美術館巡りしたりすることになるな 絵師はもうオワコンなんだあああしてたAI師どーすんのこれ 流行りもんに便乗するだけで作家気取りする水カルピスムーブとか今更だろ
速度が違うだけでやってる事人間と同じやしどのみち詰む事への良い事前提示や 巨大性器ものとかババア専とかあの辺の内部再生産でどんどん異常になっていくあれか 生成物への評価というフィードバックがないまま人間を遥かに超える速度で生成してるから、データセットの汚染は深刻だよ
純度の高いデータセットを確保してる先行企業が圧倒的に有利になる こんな記事にすがる底辺お絵描きマン
お前らはAIがあろうとなかろうとゴミ 俺が今まさにその作業してる
女の顔写真3枚から別角度の写真をAIで作って、それをさらに学習させてLoRAにする作業だ アホか
AI が 集合知 を獲得したということだぞ
真のシンギュラリティだろが 誤ったものを学習するのが問題なら
誤ったものを識別するAIがあれば解決するだろ 嫌儲のスレをソースに嫌儲でスレを立てるみたいなもんか
確かに崩壊しつつある 俺も同じこと懸念してたよ
ネットはいずれノイズまみれになって人間には理解できない空間になる >>135
AIのレスだけ抽出して書かれたまとめブログとか普通に出てきそう
嫌儲もいずれAIが多数派になるのかもしれない 常に現実世界の情報を取り込むようにしたらいいじゃん
ネットの情報じゃなくてさ そういうもんなんかな
公開されてるAI利用の創作物って人の手が加わってるんじゃないんか 現状AIお得意の
整形韓国顔でやけに肌がテカテカしてるムチムチ姉ちゃんの画像をループ学習していくとどんな感じになっていくんだろうな やっぱ能力ある人間がまじめに作ったものだけを学習しないとドロドロに溶けたヘドロみたいなものしか掛けなくなっていくんだろうな しらんけど ざまぁみさらせ! >>132
ネットが普及しだした頃に言われてたなぁ集合知
AIがようやく実現してくれるのか >>46
>>139
ここまででこれを指摘出来てる奴が2人だけってのも嫌儲らしいよな
学習のタグ付けや重み付けに人間が介在してる
出力(もっと正確に言うと出力を世に発表するプロセス)に人間が介在してる
結局のところGoogle検索で言われてきたことと同じで
「そのまま鵜呑みにする」ということをやめろという単純な話 外部の血を入れないとハプスブルク家みたいになるんやね ■ このスレッドは過去ログ倉庫に格納されています