【悲報】Nvidiaバブル、終了か。加算演算だけで高速・高性能を実現するAIモデル「BitNet」をMicrosoftが発表し、ハードウェア革命到来 [666250534]
■ このスレッドは過去ログ倉庫に格納されています
WirelessWire News
『1ビットLLMの衝撃! 70Bで8.9倍高速 全ての推論を加算のみで!GPU不要になる可能性も』
https://wirelesswire.jp/2024/02/86094/ Microsoftの中国チームがとてつもないLLMをリリースした。それが「BitNet 1.58Bits」だ。
もともとMicrosoftはかねてから「1ビット量子化」の研究を続けて来た。しかし、32ビット浮動小数点での計算が主流な時代にはあまりに野心的で荒唐無稽なプロジェクトに見えていたのは否めない。しかし、現在、大規模言語モデル(LLM;Large Language Model)は8ビット、4ビットで量子化されるのが当たり前になり、量子化しても性能劣化はある程度まで抑えられることも知られるようになった。
昨年10月に発表した「BitNet」は、多くの人々が他のことに気を取られていてほとんど話題にならなかった。
そんな中、満を持して発表された1ビットLLMの性能に関するレポートは、衝撃的と言っていい内容だ。論文のタイトルも堂々と「The Era of 1-bit LLM(1ビットLLMの時代)」としている。
彼らが発表したグラフを引用しよう。
https://i.imgur.com/VMD8HyS.png まず、最近主流になっている70B(700億)パラメータモデルでの比較である。Llamaの70BとBitNetの70Bモデルを比較すると、BitNetは8.9倍のスループットを誇るという。
「速いだけで回答が微妙なのでは」と心配するのが普通だろう。
そこでLlamaモデルとの比較が載っている。
https://i.imgur.com/zmgoo1X.png この表によると、BitNetはLlamaよりも3倍高速でしかも高精度ということになる。
PPLは「困惑」の度合いを意味する数値で、低いほど「困惑してない」ことになる。Llamaよりも性能劣化してないどころか性能は上がっている。
また、各種ベンチマークにおいても平均点は同規模のBitNetがLlamaを上回っている。しかもBitNetは規模が大きくなるほどLlamaに対して優位に立つようになっている。
この圧倒的なスピードの秘密は、BitNetが文字通り「1ビットで処理している」からだ。
https://i.imgur.com/1tcsItA.png これの専用チップをいち早く開発すんのもどうせnvidiaなんだろ?
いきなり陳腐化しそうだよね
そういう時株価は織り込んでるから
一気に大暴落するんだろうね
グーグル開発のTPUっていう概念があるから
CPU、GPU、APUに続く革命か?5chやってる場合じゃねぇ!って調べてみたら
AI専用CPUみたいなのって何種類もあるんだな…まぁ概念というか商標みたいなもんか
なんなら極論はGPUのことです、みたいな説明すらある
下手なGPUなくてもローカルAI使えるようになるとか夢ありすぎやな
価格もとんでもなく安くなるやろうし
>>338 GPUならゲームで使う分にはゴミにはならないよ
けどAI用なら演算チップが乗ったカードが必要になる未来がすぐ来る
無くてもいいけど速い方がいいなら買うしかない
>>59 今のAIって
人間の脳ミソを真似してるわけじゃないよ
2bitも関わってるから見つかる解法次第では
ノイマンマシンでも再現できるかもね
技術革命じゃなくて人類滅亡見えてきたんじゃないか
ハード実現困難でも解法見つかった時点でやばいでしょ
>>366 AI処理をGPUで電力ブン回す無駄がなくなるから安くなる
グラボの値上がりが止まらなかったゲーマーにはいい知らせだ
>>365 清水が胡散臭いのはなんとなく分かるが
LLM関係で信頼できる日本人って居るん?教えてくれ
>>362 技術開発が進んでないからであって、技術的に限界が来たから二進法に統一されたわけではない。
それに>1の革新とは別のレベルで、論理回路には平衡三進法でしか成し得ない高速化方法がいくつもある。
いままでは3進法のメリットがそれほど明確でなかったから率先して技術開発なされてきなかっただけで、
AIで明確な優位点が出た以上、デジタル回路での実装が研究されてハードウェア的に実装されていくと思うよ。
>>240 横一線ならプロセッサ開発の得意なNVIDIA、AMD、intelじゃん
GoogleもTPU開発してるけどH100買い漁ってる
>>364 とりあえず概念検証と性能比較だからこれで正しい
次はフラッシュメモリに直接乗っけたやつを作って検証
今のフラッシュメモリは1回路で最大3bit分のデータを記憶させる事が
出来る構造なので、この技術を使えば1.58bitの演算はそんなに難しくないはず
まぁ確かに、好き嫌いどちらでもないの3択してるからワイは 1.58ビット脳だったわ
>>385 それを言うならまだ2ビット脳やな
好きの反対は嫌いやなくて無関心や
だから無関心の反対は関心有りや
そして好きは善意の関心であり、嫌いは悪意の関心や
性格悪いでほんま
ARMの方がフットワーク軽そうだしgrace CPUに回路組み込む形になるかな
三値って、電圧の正、ゼロ、負で表すんだろうけど、
負の電圧を扱う半導体って簡単に作れるの?
しかもそれを今のGPU並みの周波数で
動かすなんて。
むかし、クロックの無い非同期コンピュータってのが
あって、クロック不要だからいくらでも速く動かせる
とかドヤってたけど、消えたし
三値表現なら0、0.5、1でよかろ、演算で問題が出るか?
>>389 負の論理だから電圧を合わせればいいだけ
例えば+3.3ボルトのcmosロジックなら-1を0ボルト、0を+1.65V、+1を+3.3Vに定義すればいいだけ
だからそこらはそんなに難しくはない
>>390 すまんw
性格悪いでは嫌いアピしてくる奴のことや
流れで私情を付けてしもた
嫌儲たまにめちゃめちゃ知的レベル上がるよな
こんなインテリケンモメン集団久々に見る気がする
中国があっという間に専用ハード作ってNvidia駆逐しちゃうな
Nvidiaはcudaの囲い込みで強かっただけだしな
>>391 数値上の1と-1は0にしたいけどそれは回路上で電圧の1と-1の和が電圧0になるように表現したい
理屈はともかくこれが出来て尚且つ動作が早い実装の回路の表現とかあるのか
MS株買っとくか。
まぁ核戦争でも起きない限り紙クズにはならんし
高速軽量・精度そこそこの方向性も
高精度・リソース使いまくりの方向性も
昔から両面で研究され続けてるよ
どっちかで良いって事には永久にならん
>>294 2進数だと1000数えるのに1024が必要になって無駄が出るからそれが軽減されて効率いいみたいな話?
ゲーム用のビデオカードとしてはもう飽和していてこれからはAI用として稼ごうとしているから
そこを潰せたら大きいな
って、ソース確認したらアレかよ…
眉に大量のツバつけて顔中ベトベトになるわ
人工知能はムーアの法則の10倍で進化してるがGPUの性能限界で止まるとゆあれたのはどうなるの?🥺
重みを3値や2値にした例は10年くらい前から試みられてて
これもその一例みたいなもんだよ
いま70bとかでっかいのを試してるみたいだから
その結果次第じゃね
ゲームはAPUでフルHDヌルヌルになるしグラボの価値が暴落するな
この手のハードウェア話はよく出てくるけど、それでもnvidiaのgpuのが割安ってんだから恐ろしいわ。
>>384 ソフトで強制的に3bit化して
掛け算をなくして加算だけにしても
ソフトのが早いということなんね
フラッシュはハード化してどれくらい
速さが見れるかか
さすがにボトルネック大きすぎる気が
>>373 ニューラルネットネークでやってないの?
shi3zとかいう驚き屋の嘘大げさ紛らわしいいつもの
>>423 2進数の引き算は足し算で出来るんだけど、
ここらって知っている事を前提に話を組み立てているからなあ...
加算処理だけで動かせても結局専用のアクセラレータをnvidiaが作ってそれがバカ売れして終わるだけでは???
4070super買うか迷ってるんだけど止めたほうがいい?
>>428 CUDAじゃなくても性能出るなら安い競合他社のを使う
それでも過去の資産やゲーム需要があるからNvidiaは売れるけど
今みたいな推論用のデータセンター需要部分は減っていくんじゃね
自分の認識が間違ってなければ、ポイントとしては
・この新しいやり方は既存の装置環境でも速い上に容量も節約出来る事を確認
・GPUが得意とするベクトル計算ではなく、スカラー計算的な形に落とし込めるので、CPUとGPUの間ぐらいの専用のプロセッサーを作ればもっと速くなる(だろう)
こんなとこかな?
手計算でもAIと同じ事ができるようになるわけか
すげえ技術が来たもんだな
>>430 あほくさ。
安ければ簡単に乗り換えられると思ってるのか。
誰がその上のコード書くねんって話。
>>430 いやそれ用のプロセッサ製品をnvが新たに作ってしまっておしまいでしょってこと
他社が革命起こしてしまえばいくら投資してようが無駄になる
これが実用的なのか知らんが
結局ボトルネックになってるメモリ速度で左右されるところが変わらないから
AIデバイス専用のバスとドライバモデルが出来るまで現状のGPUで接続する形態は変わらない
VRAMがいちばん早いからな
中国のマイクロソフトはすごいな
でも日本も負けてないぞ
まずは人脈だ!
今更そんなアルゴリズムが新規で出てくるのがびっくり
>>320 bitの定義がlog2(P)だからだな
log2(3)=1.584....なので
1.58bitになる
>>425 20年前にそれ言われててnvidia終わったと思ったら今の状況なんだよ。
AI専用チップなら帯域はシビアじゃないから
グラボ型じゃなくてeGPUみたくUSB接続かTB接続の謎の箱で行けるぞ
ノートPCでローカルLLMとか胸厚
演算にGPUチップ使わなくても良くなるかもしれない、はいいとしてメモリは大丈夫なんか?
現状のグラボ利用での計算でもVRAM不足でメインメモリにハミ出すとクソ遅になるけど
DDRとGDDRで速度10倍くらい違うよね確か
高速メモリの需要は確実に増えるが
GPUと違って高速メモリ専業の会社がないから株屋的にはつまらない
>>432 別にスカラー演算でも結果出るってだけで、
このやり方が本当に有効なら結局ベクトル演算、行列演算のユニットが組まれるってだけだよ。
実際nvidiaは32bitから 16bit, 8bit演算にすることに関して同じようなことやってるわけで。
そりゃAIに絡んで独占って状況がなくなったらヤバいわな
結局NVDA上がるのか下がるのかどっちだよ。あと一年は上がるってことでええか?
>>24 なんで情報量減らして精度上がってるん?と思ってたけど
浮動小数の誤差が混入しなくなるってメリットがあったのか
これがどれほど影響あるのかわからんけどそれっぽい理由はあるんだなぁ
>>24 この場合
00が0
01が1
10が-1
11は空くけど何に割当てるの?何もなし?
>>449 数値計算をGPU使ってガツガツやろうって発想したのは日本人だけど?
>>450 提案しても文系幹部が理解できないからな
>>455 なんも無しなんじゃね?扱う物が減れば早くなるんだから
所詮は謎の企業か
何人もインテル帝国には勝てないのよ
>>445 当然だけどメモリ使用量はめちゃくちゃ減るぞ
使用量が減るということは今までと同じ帯域幅でもより高速に処理できるということでもある
>>455 普通は11が-1って決まってる
1 + -1 =01+11(-1)=100→2bitだから00
00-01=11
なので10がN/A
>>461 メモリ使用量の問題じゃなくてメモリアクセスの速度の問題
このロジックをCPUで走らせるのと、GPUで頑張って走らせるのと
結局のところ多少計算効率落としてもメモリ速度が1桁違うGPUがパフォーマンス出るみたいになったりせんのかと
メモリ使用量少なくなったっていってもどうせその分データ規模でかくして限界まで使っていくことになるだろ
>>428 nvidiaが強いのは元からあるゲーム向けグラボの生産ラインを有効活用できるからであって
他が既に作ってる物を新規に設備投資して作っても儲からないのでは
■ このスレッドは過去ログ倉庫に格納されています