なぜ日本はGPUのない「富岳」でLLMを研究するのか?外国に後れを取らないための現実的な理由とは [565880904]
■ このスレッドは過去ログ倉庫に格納されています
そんな中、日本では理化学研究所と富士通、東京工業大学、東北大学が、スーパーコンピュータ「富岳」を使ったLLMの研究を今まさに進めている。学習手法の研究からデータの法的な扱いまで幅広く検討し、日本のLLM開発の基盤を作るのが目的だ。
深層学習といえば、今ではGPUを使うのが一般的になっている。しかし富岳はそのGPUを搭載していない。日本にはGPU搭載スパコンも存在するのに、なぜ富岳を使ってLLMを研究するのか。
今回は富士通研究所・コンピューティング研究所の中島耕太所長と白幡晃一さんに、富岳を使ったLLM研究について、その意義を聞いた。富岳は確かにハイスペックなスーパーコンピュータだ。しかし、LLM研究における活用には、それだけでないもっと“現実的な理由”があった。
LLMの学習には大量の計算が必要になる。では、具体的には何回以上計算すればいいのか。これには一つの答えがあるという。
その数字が「10の23乗FLOPs」だ。富岳をはじめとするスーパーコンピュータの性能を示すとき「このスパコンの計算速度は○○FLOPsです」のようにいうことがあるが、今回の「FLOPs」は計算速度ではなく計算量を示す単位のこと。平易に書くなら「10の23乗回」となる。10の23乗は日本語でいうと「1000垓」。1兆の1億倍のことだ。
中島さんによると、過去の研究の中でLLMには不思議な性質が見つかっているという。LLMの学習を進めていると、しばらくはあまり派手な性能向上が見られないのだが、ある時点でなぜか急に能力が跳ね上がり、それまでできていなかったような処理をできるようになる──それが10の23乗FLOPsだ。
つまり、LLMを開発するならスーパーコンピュータに1000垓回分の計算をさせることが一つの目標になる。
一方で、1000垓規模の計算をするにあたっては、富岳以外の選択肢もある。一般的に深層学習に向いているとされるGPUを搭載したスーパーコンピュータとしては、産業技術総合研究所が構築・運用する「ABCIシステム」が日本最大とされてきた。搭載されているGPUの計算処理性能も富岳のCPUを超えている。
富士通研究所の白幡さんによると、ABCIシステムを完全に貸し切って10日ほど計算させれば、1000垓規模の計算をすることも「技術的には可能」(白幡さん)という。
しかし、現実的にはそうもいかない。ABCIシステムはさまざまな組織が共用しているものであり、長時間貸切ることが難しい。性能は高いが占有できないという“現実”がハードルになっている。
対して富岳は、各CPUの処理性能を見るとABCIシステムのGPUの17.75分の1程度。しかし、現実的に使えるリソースの規模を考慮すると1000垓規模の計算を実現できるのは日本で富岳だけになるという。
https://news.yahoo.co.jp/articles/1bdbea8e1c974b020735b44d446548a1a38d188e 1000垓もポチポチ計算して意味ある?その力何に使うん? TSUBAME3.0で良いだろ
TSUBAME3.0 ハードウェア・ソフトウェア仕様
ttps://www.gsic.titech.ac.jp/sites/default/files/spec30j.pdf 17分の1の能力しかないけど、17倍以上専有出来るから富岳でやるっていう
そのうち根性論とか温かみみたいなのにすり替わるぞ笑 あきらめてNVIDIAかAMDからGPU買えよ
大量に
世界最速のスーパーコンピューターは
EPYCとRadeon instinctの組み合わせだぞ ビルゲイツ物語もそうだろ
一カ月に使えるキャパ使っちゃって
目でピーナッツ噛むことになった 偉い人がGPUでやった方が効率良いって知らないだけだけだと思う
で、
決まった事はもう止められずGPUの無いスパコンでLLM研究する不毛な研究 CA2LA
@ca2la1218
日本でGPT-4を作ろうとするとスパコン富岳を使って9年かかるらしい
それを90日で学習させたOpenAIはNVIDIAのGPU A100を25000基… どう考えてもgpu使ったほうが効率的だよね
ガラパゴス富嶽で作っても誰もついてこないだろ 金かけたら早いなんて理想論語るのケンモメンらしいなあ() 高々17倍程度の性能差なら使えるリソースを使うってのは悪い考えでは無い
そんなに富嶽が空いてるんならね アベコインのせいでGPU高すぎてもう買えねってはっきり言えよ 富岳がゴミなことバレない為に有効活用する方法を模索してるんだろ
大和と一緒で沈む運命だよ Chainerとかやってたけど、日本以外はどこも使わず
結局PyTorchを使うことになって、やったことが全部無駄になったという悲しい歴史もある これ要は富岳が使われてなくてリソース余ってますってだけじゃん
全然ポジティブな理由じゃないし、記事にするような内容か? 計算回数でいきなりAIの性能上がるのおもろいな
何かの壁を突破した感じなんだろな 富岳はAIだけじゃなくて科学技術計算にも使うんだから倍精度偏重になるのは仕方ない
AI専門で設計されたGPUファームと比べるのは酷だろう 一般人は富岳でコロナウイルス飛散シミュレーションのゴミCGニュースしか目にしてない
もっと宣伝した方がいいんじゃないの ???「出来ない理由を考えるのではなく」
???「無理というのはですね」 性能的に後追いなモデルなうえライブラリが成熟してるGPUを使わないで富嶽用のソフトをシコシコ書きながらやるとなるとやったところで何が得られるのみたいな
まあ次期スパコンのアーキテクチャの参考にはなるのか >>71
それはNECの方
富岳はNECが抜けて死んだプロジェクト もっとPCに金かければAPEXで勝てたのに!ガキの言い訳じゃん
あるもんでやらなきゃ この記事は富士通が絡んでいるから何が何でも富岳を使えって指示なのだろうな
まともな研究者なら逃げてる >>103
富岳のCPUは15万個あるから富岳の1万分の1のCPU常時使えればいいだけでは
まあ4000分の1を1日1時間でも1週7時間でもなんでもいいかもしれん ABCIシステムは予約がいっぱい入ってて現実的に長期で使えない
でも富嶽は長期に渡って貸切出来ます😤
って事?
なんで富嶽は予定が空いてるの? 世界の潮流が深層学習に向かってるの読めずにそれ用の環境用意できてないのが敗北
いや別に流行りにのっかれてればいいってもんでもないけどLLMに向いてないのに
本来の性能活かせる分野じゃないところへ計算資源投入してるのが敗北宣言 >>117
違うか
ABCIシステムの何分の1が富岳のCPU1個にあたるかを考慮しないとダメだな >>88
9年ってあんたw
9年も経ったらもう海外のどこかでAGIが完成しているんじゃないか ニューラルネットワーク研究の黎明期
アメリカの大学
「これ学習に演算量相当必要なんやなぁ・・・ 当たったらデカそう? じゃあメインフレーム優先的に使ってええよ」
日本の大学
「これ学習に演算量相当必要なんやなぁ・・・ 絶対当たる研究とちゃうやろ? じゃあ自前のDOS/Vで頑張りや」 アボガドロ数が6.02✕10^23
分かりやすいから23乗って言ったのかな
AIで金稼ぎしたい企業が超大規模GPUクラスタ作ればええやん感
こんなもん普通の学問向けの研究費の一部としてカウントしたら
他の分野の金を減らす名目に使われるだけなんだから >>88
まあ富岳の建造費(1300億円)でA100が25000個(700億円)以上は買えるんだけどね
お金と工数のかけかた間違ってるな 富岳を使うということが目的なので海外から買えというのは受け入れられない 使う人間がうんこだとゴミだというのがマスクで立証されたな ガイアの夜明けで特集してたけど意味不明な応答返してたな
日本発の生成AI作るならしょうがないんだろうけど富嶽で勝ち目があるのかがよくわからんわ >>126
蓮舫の言う通り2位でも良かった
富嶽とか言うゴミを持ち上げたせいで他にリソース(資金と研究者)を使えずアメリカに負けた
自民と官僚を盲信して「政府の決めたことに文句言うな!」って煩いアホどもは、優先順位の概念を一生理解出来てないんだろうな H100買えばいいのに
それかテスラの道場みたいなAI学習専用のスパコン作るか 単純に「GPU=ゲームに使うもの」ってイメージで使わないだけだろ 10の23乗FLOPsて絶対間違ってるだろ
他所が1秒間に出来る事を10日掛けてやる気なの? ハードの前にまず学術的になんかしたい事あるのか?
日本はLLM分野じゃ論文引用も皆無の完全な空気だそうじゃない 半導体高騰の買い負けでAI用のスパコンを構築する金がないだけだろ
まさに国力の低下だわ >>126
ではA100が25000個を屏風から出してください ■ このスレッドは過去ログ倉庫に格納されています