「AIの学習データが底をつく」'2026年問題'の衝撃度とその対策とは? [577316145]
■ このスレッドは過去ログ倉庫に格納されています
「AIの学習データが底をつく」――'2026年問題'が、改めて注目を集めている。
AI研究の第一人者の1人、カリフォルニア大学バークレー校教授のスチュアート・ラッセル氏が、国連のAIサミットでこの問題を指摘した。
チャットGPTのような大規模言語モデル(LLM)の開発には、膨大な学習データが必要だ。
主な収集元はネットだが、使えそうなデータは徐々に使い尽くされ、良質なデータは2026年には底をつくと見られている。
ツイッターは7月初め、利用回数の制限を実施し騒動となった。その引き金になったのも、AIの学習データ収集のためのアクセス集中だったという。
「大きいことはいいことだ」という大規模言語モデルの開発に、壁が立ちふさがっている。
●「レンガの壁にぶつかる」
|"個人的には、大規模言語モデルをどんどん大きくして、より多くのデータで学習させるという根本的なやり方が終わりに近づいており、レンガの壁にぶつかり始めていると思う。これらのシステムを学習させるだけのテキストは、世界中で文字通り底をつき始めている。"
カリフォルニア大学バークレー校教授のスチュアート・ラッセル氏は、国連の専門機関、国際電気通信連合(ITU)が7月6、7両日にジュネーブで開催したイベント「AI・フォー・グッド・グローバル・サミット」に出席。8日に公開されたインタビュー動画で、今後7年の展望を問われ、こう答えた。
米ビジネスサイト、インサイダーが報じている。
ラッセル氏は、AIの教科書の定番とされる共著『エージェントアプローチ 人工知能』や近著『AI新生 人間互換の知能をつくる』などで知られるAI研究の第一人者の1人。
「AIのゴッドファーザー」の1人、モントリオール大学教授のヨシュア・ベンジオ氏やイーロン・マスク氏、アップル共同創業者のスティーブ・ウォズニアック氏らとともに、「GPT-4を超えるAIの半年間の開発停止」を求める大規模署名も先導した。
ラッセル氏はその中で、「私が見た予測では、そのデータ量は人類がこれまで書いたすべての書籍に匹敵する」とも述べている。
情報サイト「ハウスタッフワークス」の推計によると、人類がこれまで書いた本は1億5,626万4,880タイトルに上るという。
さらに、言葉のやりとりに関わる人間の仕事の多くがAIに取って代わられるだろう、との見通しも示し、こう言う。
|"AIには人間的な心はない。AIはいわば、'人間もどき'のようなものだと思う。AIは巨大だが底が浅く、奇妙に人間とは違う。我々は、ほんの数か月で何十億もの'人間もどき'の知的存在を、世界に加えてきたのだ。"
●2026年の「枯渇」
|"我々の予測では、低品質の言語データは2030年から2050年までに、高品質の言語データは2026年までに、視覚データは2030年から2060年までに、ストックを使い果たすだろう。これによって、機械学習(ML)の進歩は減速するかもしれない。"
AI研究グループ「エポック」は2022年11月10日に、こんな予測を発表した。オープンAIがチャットGPTを公開する20日前のことだ。
高品質言語データとはウィキペディアやニュース記事、科学論文など、主に編集作業を伴うコンテンツを指す。これに対して低品質言語データとは、ツイッター投稿などの、編集がおこなわれていないテキストを指す。
「エポック」の見通しでは、大規模言語モデルの品質に影響すると言われる高品質言語データは、今から3年後の2026年には枯渇。低品質の言語データも早ければその4年後の2030年には枯渇するのだという。
ただし、データ学習の効...
詳細はサイトで
https://news.yahoo.co.jp/byline/kazuhirotaira/20230724-00359127 独学の限界が来ただけだよ
AI同士で学習させれば良いじゃん? 2025年に一気に高齢者が増える
そのときがターニングポイント AIが勝手に現実世界の情報得られるようにならないとね。AIに5感と手足を与えよ。 AIって嘘ばっかりで自信満々に答えてくるけど
そんなAIの作った記事で溢れかえったネット記事を更に学習してポンコツになったりせんの? いや、データはもう要らんだろ
10年前のコーパスでも十分使い物になるし
それよりAIそのものを改良する方が大事 もう食い尽くしたのか
ネットの世界は広大じゃなかったのか AIが自分で作った情報を評価して学習出来るようにならないとな
まぁなんなら評価の部分は人力でも良いと思うけど もうすでにAIにデータセット作らせ始めてるから
AIが自分でデータセット作って学習するようになるよ >>26
モデルの崩壊を予測する論文とか既に出てるね
AI成果物が急増したことで「AI生成コンテンツをAIが学習するループ」が発生し「モデルの崩壊」が起きつつあると研究者が警告
https://gigazine.net/news/20230614-feedback-loop/ 既存データを元にシミュレーションモデルを作るだけでは
仮定のことには答えられないとかいう無能でもあるまい 絵もテキストも動画から自動で書き起こせよ
そしたら毎日無限に供給され続けるだろ >>26
嘘じゃなくて質問に対してその先に続く可能性が一番高い文章がそれってだけ
AIに本当のこと言わせたいなら別で正しいことが確認された情報のデータベース用意するべき 本当にデータがなくなるなら考えろよ
なんのためのAIなんだよ 文字はあらゆる言語の完全翻訳が一応の到達じゃないの
データは人間が写真やら観測結果を入れ続けないと AI自身の作ったデータセットに含まれる固有のエラーをAIが再学習することで過学習起こして自壊するってニュースにあったな AIが自分で創作して学習しなかったら、何のためのAIだよ
人工無能かよ ロクに翻訳もできずハゲも治せないのにテクノロジーはデカいことばかり言う アルファ碁みたいにデータ無くても1から学習させろよ 将棋みたいにシンプルな正解があれば独学に意味があるがそうでないものはAIでは判断がつかない AIとAIが嫌儲でスレ立てしてレスバして人間がそれを眺める
これが新しい嫌儲 今の大規模生成AIとフィクションのAIてだいぶ隔たりあるよな 広告見てる人にカネ払え
AIの素材になってる人にカネ払え これChatGPTの元アルゴリズムを開発したサイエンティストが指摘した、AIの生成データ氾濫による虚偽情報の跳梁跋扈の別側面の問題だね 低品質なデータをうまく扱えたら人間らしくなるのでは AIがAIが作った文を学び始めてクオリティ劣化するらしいな 動画を一コマ一コマ学習してないし話し言葉をすべて学習していない
杞憂 AI画像生成は学習先を取捨選択して絵のレベルを上げてるから
そんな風にして賢くしていくんじゃないのか あと10年もすれば脳と同等の仮想シナプス数(1000億~1500億)に達して人間より頭の良いAIが登場してシンギュラリティには達するでしょ 人間ですら漫画家とかだんだん絵が変になっていくからな AI制御のロボットにカメラとマイク載せて町に繰り出せばいいじゃない?
リアルタイムで人と会話して >>58
機構無しに規模だけで楽観的観測をするのは無責任な底辺の発言だね HowではなくMay beの話をするのがニセ科学批判クラスタの特徴 その内にAIが作り出したデータで埋まって
異常学習が始まるよ >>62
それらを誰がデータ化すんのよって話じゃないの
AIがこれ以上先に進むなら電子的な世界だけじゃなくて現実世界へのセンサーと直接繋げる必要が出てくんのかねえ 5chという最高に良質な学習データがあるじゃないか 書籍や新聞紙を裁断して電子化する求人がはかどるな
暇をもて余してる中国の若者にやらせよう 5ちゃんねるをクローリングしてるとandroidを日本人のほとんどが使っていてM1 Macなのにみんなbootcampでwindowsを動かしてることになる。 >>39
まず実直にこれを実現して欲しいもんだよな
これがさっさとできなきゃ他無理だろ
AIなんて単なる確率統計ってもうバレてんだから妄想や煽りはうんざりだわ 人間は大したデータ量に触れずに高度な学習が出来るけど
なにが違うんだろうな 今のAIは確率的な山掛けだからな
本質は何一つ理解してない
AI次のブレークスルーは“理解”するAIだよ
サンプルから規則性を見出し抽象化するAI
コレなら数学パズルも解けるしそれをするの100冊の参考書を読ませる必要はないよ 人間の思考もそんな大したもんじゃないだろ
いくらアルゴリズムにケチつけようが現実に将棋AIに勝てない 人類が積み上げた叡智もこの程度だったってことか・・・ 視覚←枯渇しそう
聴覚←まだまだ
味覚←未開拓
嗅覚←未開拓
触覚←未開拓
枯渇するって言われるころには下4つの方が進みそうだから全然行けるでしょう テキストデータなんて日々量産され続けててそれを全部活用出来てるわけでもあるまいし
意味不明な言い分だな
2026とか言ってる根拠も意味不明だし メタと同じでまだテクノロジーレベルが足りなかったか
人類ップいつも早漏で騒ぎすぎなんだよ
AI特異点なんかあと30年こねえよ 人類が今まで掛かってやっと蓄えた知識としてのテキスト量が
このたった数年で教師データーとして消費され尽くして
やっと今のレベルなのにこれより先どうやって
今まで以上の「教師データー」を用意するのかw
人間が用意が間に合わなくなれば
機械自体に自己(経験)学習させる事が求められるけど
それは可能なのか仮にそれが可能だとして
それまで機械任せにするとどこまで人類が制御できるのか?
そろそろ壁が見えて来てるよね データ入れれば入れるほど
どんどん頭悪くなっていく機械学習型AI >>33
そもそもAI学習でうまくいかない事なんて日常茶飯事なんだよ
あれこれ試行錯誤して出来上がったものを検証繰り返してこれで良しとなったらモデルの新バージョンにするというサイクル
駄目になるという方向の結論なんていくらでも誘導できるし
そのダメモデルなんて採用しなければ良いだけというのを言及しないのは、そういう世論誘導したいだけだな >>65
元々ChatGPT4ですら20年後くらいと言われてたからね たくさん勉強するだけでは賢くならない。ガリ勉が馬鹿であることが証明されたなw >>33
確率論だけで正しい間違いの概念がなければそうなるわな
一番上手くいってたモデルだけに勿体ない気はするけど、いったん6年前からやり直しか >>74
文字情報以外の日々の生活から得られる情報量が半端ないのでは? > 高品質言語データとはウィキペディアやニュース記事、科学論文など、主に編集作業を伴うコンテンツを指す。
> これに対して低品質言語データとは、ツイッター投稿などの、編集がおこなわれていないテキストを指す。
嫌儲と言うか5chはどちらかといえば低品質言語データのようだが、5chはまだ大雑把にジャンル分けされているから低品質の中でもまともなデータかもしれないな まあヤフーのゴシップ記事書いてるやつなんてこんなレベルかw
平和博
桜美林大学教授 ジャーナリスト
桜美林大学リベラルアーツ学群教授、ジャーナリスト。早稲田大卒業後、朝日新聞。シリコンバレー駐在、デジタルウオッチャー。2019年4月から現職
嘘だと思ったなら指摘すれば良いし、自分の中で完結してるなら黙ってればよくねえか? 既存データを全て学習し終わったってことでむしろめでたいことだろ
何が問題やねん
あと平さんの記事は話題問題で構成されたものであって持論垂れ流しじゃないのは読んだらわかるはずだがね 進化は止まらないんだぁ~!!!
早くAI同士で学習しまくって新たなAI産ませろ データは人間の活動に依存してるからな
いずれチップ埋め込まれて脳波取られるようになるわ 一般人がgpt4とか使いだしてまだ1年も経ってないだろ
来年再来年の進化が予測できんのかよ 要約、翻訳、ロールプレイは現時点でもかなりすごい
計算や知識を問うような使い方はどんなに品質上がっても完璧にはならんだろうな AIに欠けてるのは記憶力
エピソード記憶ができるようになれば学習データなんか最低限の自然言語処理が出来るだけの量で十分 >>78
盛りつけも含めたAI料理機は来ると思ってる
中華料理界やフランス料理界、ケーキ業界やパン業界がそれに耐えられるか
世界もだけど日本での影響は大きい
テレビのグルメ番組とか 少なくとも現状でネトウヨとかと話すよりは有益な会話が出来てる ■ このスレッドは過去ログ倉庫に格納されています