WirelessWire News
『1ビットLLMの衝撃! 70Bで8.9倍高速 全ての推論を加算のみで!GPU不要になる可能性も』
https://wirelesswire.jp/2024/02/86094/
Microsoftの中国チームがとてつもないLLMをリリースした。それが「BitNet 1.58Bits」だ。
もともとMicrosoftはかねてから「1ビット量子化」の研究を続けて来た。しかし、32ビット浮動小数点での計算が主流な時代にはあまりに野心的で荒唐無稽なプロジェクトに見えていたのは否めない。しかし、現在、大規模言語モデル(LLM;Large Language Model)は8ビット、4ビットで量子化されるのが当たり前になり、量子化しても性能劣化はある程度まで抑えられることも知られるようになった。
昨年10月に発表した「BitNet」は、多くの人々が他のことに気を取られていてほとんど話題にならなかった。
そんな中、満を持して発表された1ビットLLMの性能に関するレポートは、衝撃的と言っていい内容だ。論文のタイトルも堂々と「The Era of 1-bit LLM(1ビットLLMの時代)」としている。
彼らが発表したグラフを引用しよう。
https://i.imgur.com/VMD8HyS.png
まず、最近主流になっている70B(700億)パラメータモデルでの比較である。Llamaの70BとBitNetの70Bモデルを比較すると、BitNetは8.9倍のスループットを誇るという。
「速いだけで回答が微妙なのでは」と心配するのが普通だろう。
そこでLlamaモデルとの比較が載っている。
https://i.imgur.com/zmgoo1X.png
この表によると、BitNetはLlamaよりも3倍高速でしかも高精度ということになる。
PPLは「困惑」の度合いを意味する数値で、低いほど「困惑してない」ことになる。Llamaよりも性能劣化してないどころか性能は上がっている。
また、各種ベンチマークにおいても平均点は同規模のBitNetがLlamaを上回っている。しかもBitNetは規模が大きくなるほどLlamaに対して優位に立つようになっている。
この圧倒的なスピードの秘密は、BitNetが文字通り「1ビットで処理している」からだ。
https://i.imgur.com/1tcsItA.png >>24
なんで情報量減らして精度上がってるん?と思ってたけど
浮動小数の誤差が混入しなくなるってメリットがあったのか
これがどれほど影響あるのかわからんけどそれっぽい理由はあるんだなぁ >>24
この場合
00が0
01が1
10が-1
11は空くけど何に割当てるの?何もなし? 0456番組の途中ですがアフィサイトへの転載は禁止です (ニンニククエ 5a2e-0MUJ)2024/02/29(木) 15:33:42.48ID:aRD+KZnp0GARLIC
>>449
数値計算をGPU使ってガツガツやろうって発想したのは日本人だけど? 0457番組の途中ですがアフィサイトへの転載は禁止です (ニンニククエW 8bba-UO4V)2024/02/29(木) 16:06:39.84ID:soqKvGkN0GARLIC
>>450
提案しても文系幹部が理解できないからな 0458安倍晋三🏺 ◆abesHiNZOU6m (ニンニククエW ca53-qVWJ)2024/02/29(木) 16:48:37.48ID:F5EvySTL0GARLIC
>>455
なんも無しなんじゃね?扱う物が減れば早くなるんだから 所詮は謎の企業か
何人もインテル帝国には勝てないのよ
>>445
当然だけどメモリ使用量はめちゃくちゃ減るぞ
使用量が減るということは今までと同じ帯域幅でもより高速に処理できるということでもある >>455
普通は11が-1って決まってる
1 + -1 =01+11(-1)=100→2bitだから00
00-01=11
なので10がN/A >>461
メモリ使用量の問題じゃなくてメモリアクセスの速度の問題
このロジックをCPUで走らせるのと、GPUで頑張って走らせるのと
結局のところ多少計算効率落としてもメモリ速度が1桁違うGPUがパフォーマンス出るみたいになったりせんのかと
メモリ使用量少なくなったっていってもどうせその分データ規模でかくして限界まで使っていくことになるだろ >>428
nvidiaが強いのは元からあるゲーム向けグラボの生産ラインを有効活用できるからであって
他が既に作ってる物を新規に設備投資して作っても儲からないのでは グラボ以外にまともな電力供給しながら高速バス接続できるデバイスなんて量産できないから
結局NVIDIA一強
NVIDIAも現状実用するのにGPUの形態が都合が良いからGPUでやってるだけで
もう何年も前からASIC・専用プロセッサ・その他もろもろ必要な関連会社に買収・投資しまくって準備してるからな
結局開発環境や人材の先行利益あって金も大量にあるエヌビが有利
NVIDIAはGH200のHopper部分を置き換えるだけで色々対応できるんじゃねーのそのためにDGXプラットフォーム作ったんだろうし
というか他の会社がGH200みたいなの作ろうと思ってもAIプロセッサ(GPU)以外の部分の量産ノウハウ不足でまともな値段で販売できないよ
0470安倍晋三🏺 (ニンニククエ 4685-w3el)2024/02/29(木) 19:07:03.26ID:GycB4h850GARLIC
>>355
> このサイズでこの解答は驚異的だ。もっと出鱈目なことを言うのが常なのである。
> BitNetが、その性質上、小さいモデルではtransformerに精度で勝てなかったからだ。
小さいモデルではTransformerに勝てないのに、小さいサイズでの性能が驚異的という矛盾
またくだらない妄言だね 0471安倍晋三🏺 (ニンニククエ 4685-w3el)2024/02/29(木) 19:14:53.27ID:GycB4h850GARLIC
この論文の結果が示唆しているのは
従来のLLMは正則化を改善することで大幅に性能向上する可能性があるということ
GPU不要論は中国の事情なのか話題作りか知らないけど、真面目に取り合う必要なし
結局、Transformer系って密すぎるんだよな
だから1bit化して丁度よいくらいというか、むしろロバストになって精度が上がったりするんだろう
0473安倍晋三🏺 (ニンニククエW 461f-fCbz)2024/02/29(木) 20:33:22.85ID:ZBNrS8N80GARLIC
FANG+安泰だな
0474番組の途中ですがアフィサイトへの転載は禁止です (ニンニククエ 9b16-o+si)2024/02/29(木) 20:49:51.41ID:Jl6WxLvj0GARLIC
そもそもグラボなくてもクラウド配信でゲームできるようになったんだろ
グラボいらなくなるよ
0475番組の途中ですがアフィサイトへの転載は禁止です (ニンニククエW 0605-U9dJ)2024/02/29(木) 21:12:46.25ID:blz/wy3M0GARLIC
これなんで日本人しか騒いで無いん?
X見てもGoogleトレンドみても外人騒いで無いんやが
0476天才 (ニンニククエ 1b0b-Y4uW)2024/02/29(木) 21:14:57.81ID:C5FdvF7U0GARLIC
この論文でたの4ヶ月前なんだけど。
>>463
MSも別にこれをCPUで動かすとは言ってないでしょ
既存GPU上でも無駄が多いけどとりあえずは動くし、最終的には加算だけが異常に高速なNPUのようなもので動かすことを想定してる
そこに高速メモリ積めばいい >>475
驚き屋が騒いでるだけだぞ
量子化なんて前から取り組まれてる分野なのに 0481番組の途中ですがアフィサイトへの転載は禁止です (ニククエW aafc-KPVc)2024/02/29(木) 23:12:39.72ID:LFoO4+jb0NIKU
結局NVDAは伸びるってことだな。よかったよかった
>>479
高速メモリ積めばいいって言葉で言うだけなら簡単だよな
実際はそれを一から製品化すると販売価格5000万とかになる
ノウハウあってGPUの規格流用して超大規模に量産してるNVIDIAだから1000万以下で作れてるだけ 0483番組の途中ですがアフィサイトへの転載は禁止です (ワッチョイ 9f0d-EVRh)2024/03/01(金) 00:14:34.62ID:9RL2We4+0
今日のNVDAの株価+2%超、MSFTは+0.2%弱
これが現実である
一部のユーザーが熱烈に持ち上げてるamdさんは・・・・・・・・ww
0485安倍晋三🏺 ◆.abeshinZo (ワッチョイW 864d-XXT3)2024/03/01(金) 05:30:41.03ID:S8iZuF1z0
>>471
加算はCPUの方が得意だからね
グラフィック処理が必要なGPUはダイの大部分を加算回路に割り当てるようなわけにはいかない
またAIをCPUで高速処理できればサーバからデータセンターGPUを排除する事で全体のパフォーマンスはよくなる 0486番組の途中ですがアフィサイトへの転載は禁止です (ワッチョイW e7fd-B7K3)2024/03/01(金) 09:24:51.28ID:IB2m3fO30
CPUベンダー各社は、CPUにAI処理部を付けようとしているので、
これを実装するならそっちで処理をするのかな?
ただ、メモリアクセス速度はGPUの方が上だから
GPU側にそれを付けるのは理に合ってるし
ローエンドだとCPU、ハイエンドだとGPUそういう事になりそう
0487番組の途中ですがアフィサイトへの転載は禁止です (ワッチョイW 5a20-B8xX)2024/03/01(金) 09:30:11.95ID:mOVbSJds0
APUやらNPUに関しての技術資産はAMDの方がありそうだけどな、どうなることやら
>>486
メモリアクセスやその帯域に関してはCPUはこれから先XEON maxみたいにメインメモリを内部外部両方に持って
CPUタイルの隣の内部メインメモリをL4キャッシュみたいに使うようになると思う
こうすれば非常に速くできる これで
実は大したことありませんでしたとなると、MSの権威は地の底に落ちる。
0490安倍晋三🏺 (ワッチョイ 46f8-w3el)2024/03/01(金) 11:33:24.80ID:+RKEJhUb0
日本人だけが騒いでるな
驚き屋さんが有料解説記事を売りたくて頑張ってるのかな
0491番組の途中ですがアフィサイトへの転載は禁止です (JPW 0H86-U9dJ)2024/03/01(金) 12:28:59.66ID:C0zJrAqlH
エヌビディア株は1日の変動が大きいから稼ぎ易いわ
0492番組の途中ですがアフィサイトへの転載は禁止です (ワッチョイW 4afd-B7K3)2024/03/01(金) 14:25:21.44ID:Crk0cun+0
>>488
そういや新しいXEONはHBMメモリが中に入っているんだったっけか
だとするとメモリアクセスは爆速だろうな
インテルは強力な数値計算ライブラリがあるから
CUDAからの移行も楽そうだしな なおIntelの2023年市場のAIサーバ出荷シェア…0%
現実は話にならないですね
妄想するだけなら自由ですが…
AMDは1.2%
そもそも周回遅れの話で妄想たくましくしてるの日本人だけだよ
0495番組の途中ですがアフィサイトへの転載は禁止です (ワッチョイW 4afd-B7K3)2024/03/01(金) 16:26:18.23ID:Crk0cun+0
0496番組の途中ですがアフィサイトへの転載は禁止です (ワッチョイ e774-nqG4)2024/03/01(金) 17:00:01.02ID:ox0tzrmT0
コレAppleが最初にプロダクト化するんだろな
するわけねーだろ
そんな無駄な事
あ、でもVisionProとか結構無駄なことしてたわapple
0498番組の途中ですがアフィサイトへの転載は禁止です (ワッチョイ 5a5a-0MUJ)2024/03/01(金) 17:13:37.04ID:FM4R4igV0
>>485
そんな話はない。CPUが得意なのは分岐命令とその予測だよ。 1bit整数(実インプリでは2bit?)演算って今のハードウェアだと8bit整数演算に詰め込むことになり、
AI向けを考慮して8bit整数演算も出来る今時のGPUなら、結局現時点ではGPUが速いってことになるのでは?
何を今更 重要なのは将来の話でしょ
BitNetで充分なら今のgpuの大部分の機能が要らないからgpgpu製品から
AIアクセラレータ製品群が完全に分岐するよねって
同じダイに加算器たくさん詰め込めるから爆速になるし
参入障壁低くなるから競合増えて安くなる
riva128の時みたいに新参メーカーが颯爽とトップ取るかもだし
当然nVidiaもしばらくは優位性続くだろうけど安いも製品出すだろうし
でもごっそり中国韓国に持っていかれそう
なにはともあれBitNetの効能メリデメ裏付け次第 話はそれからだ
そもそも現行のFPGAでも良いものできるんじゃ?
と思ったらそう言えばインテル間が悪いw
0502番組の途中ですがアフィサイトへの転載は禁止です (ワッチョイW 4afd-B7K3)2024/03/01(金) 19:46:12.96ID:Crk0cun+0
まあ地味に重要なのは電力効率だろうな、それぐらいAIの計算では電力を食ってるし
広く使おうと思ったら必須だしな
素人がありもしないことを将来はだの妄想してるあいだにプレマーケット今日もNVDA上げ上げです
MSFT下がってる。AMDは昨日もめっちゃ上がったし頑張ってるよ!