【速報】スーパーコンピュータ「富岳」で大規模言語モデル作成へ [237216734]
■ このスレッドは過去ログ倉庫に格納されています
「富岳」で和製生成AI 東工大や富士通、23年度中に
https://www.nikkei.com/article/DGXZQOUC223IT0S3A520C2000000/
東京工業大学や富士通などは22日、スーパーコンピューター「富岳」を使って2023年度中に高度な生成人工知能(AI)を開発すると発表した。日本語を中心とした基盤技術を構築し、24年度から国内企業などに無償で提供する。米オープンAIの「Chat(チャット)GPT」などが世界で注目を集める中、日本の産学が連携して自前技術で対抗する。
開発には理化学研究所や東北大学も参加する。生成AIの基盤となる大規模言語モデルを独自に開発する。AIの学習にはオンライン百科事典の「ウィキペディア」などで公開されている日本語のデータなどを使い、日本語の対話能力を高める。日本企業として独自の生成AIの開発を目指すサイバーエージェントとも連携する。
日本でも生成AIを開発する動きはあるが、性能を左右するパラメーター数は数十億程度であることが多い。サイバーが17日に公開した大規模言語モデルも最大68億だ。東工大などはチャットGPTの基盤である「GPT-3」の1750億に近い1000億程度のパラメーター数を持つ大規模言語モデルなどを構築する。
大規模なモデルの構築には高い計算能力を持つスパコンが必要だが、日本の民間企業は世界的な競争力のある機種を保有していない。世界ランキング2位の富岳を運営する理研などは新たに生成AIの開発を重点テーマと位置づけ、開発した大規模言語モデルは産業界や研究機関が活用できるよう公開する。 マスクのゴミシミュレーションですっかりケチがついたな >AIの学習にはオンライン百科事典の「ウィキペディア」などで公開されている日本語のデータなどを使い
ウヨ臭いAIになりそう この研究のためにwikipediaにいくら寄付したのかね > 東工大などはチャットGPTの基盤である「GPT-3」の1750億に近い1000億程度のパラメーター数を持つ大規模言語モデルなどを構築する。
最初だからこんなもんか 富岳のリソースをこんなんに占有される事の弊害の方がかなりデカそうだが ウィキペディアのデータセット利用した日本語LLMなんてもうたくさんあるのにな >>11
文系はコンピューターで何でも分かると思ってそうだけど
そういう予測するには元になるデータが必要でそれを調べるのが計算よりよっぽど大変なんだよ 言っちゃっていいのかわかんないけど
富岳じゃなくてもできるよね >>8
まあどの道抜かれるのは見えてたからな
蓮舫よく叩かれてるけど、スパコンに関しては叩くほどの事ではないと思うわ >>8
あれのおかげで
ベンチテスト専用機から設計思想の転換が起きて
汎用性を高めて作られたのが富岳だからな >>5
補助金モリモリで構造だけはいいんだが、キラーコンテンツが
飛沫シミュレーションくらいしかなかった宝の持ち腐れだったのでねえ
nvidia最近HBM2eあたりを搭載したAI専用デバイスだしてたが
あれに近い贅沢構成だよ >>20
構造はRyzenのパクリに見えるからジムケラーのおかげだよ
日本は追いかける背中がないと何もできない 孫正義のところはどこのスパコン使って作るんだろうね 富岳を使ってChatGPTみたいなクソみたいな使い方をするのはなんか違うし
学習データがWikipediaとかもうまともなものを作る気が無いだろ AIも並列処理の時代になにをやるつもりなんだこいつらは >>28
スパコンはもとからその用途だろ
それをコンパクトにしてゲーム用途からよってきたのが
GPGPUのあたりだよ
富岳は構造的には使いやすい >「ウィキペディア」などで公開されている日本語のデータなどを使い
あ、はい
歴史戦捗りますねえ >>3
やたらアニメ漫画ゲームに詳しいんだろ
他国はこんなwikipediaねぇもんw CUDAでやる事を富岳でできるようになるのか?
AMDのGPUでも遅くなるけどできるにはできるみたいだけど、バージョン違うと動かなくなりそうだし
CUDA依存せずにスパコンで同じ事できるなら価値はあるのかもしれない 例えば今日本最高峰GPUスパコンは
去年NECが立ち上げた
NvidiaGPU928個積んでるスパコン
これに対して
Metaが去年立ち上げたGPUスパコンは
NvidiaGPUを約16000個積んでる
つまり今のままでは全く勝負にならない
それを考えれば効率悪くても富嶽で
演算学習させる方がマシなのは間違いない ■ このスレッドは過去ログ倉庫に格納されています