【悲報】Nvidiaバブル、終了か。加算演算だけで高速・高性能を実現するAIモデル「BitNet」をMicrosoftが発表し、ハードウェア革命到来 [666250534]
■ このスレッドは過去ログ倉庫に格納されています
WirelessWire News
『1ビットLLMの衝撃! 70Bで8.9倍高速 全ての推論を加算のみで!GPU不要になる可能性も』
https://wirelesswire.jp/2024/02/86094/
Microsoftの中国チームがとてつもないLLMをリリースした。それが「BitNet 1.58Bits」だ。
もともとMicrosoftはかねてから「1ビット量子化」の研究を続けて来た。しかし、32ビット浮動小数点での計算が主流な時代にはあまりに野心的で荒唐無稽なプロジェクトに見えていたのは否めない。しかし、現在、大規模言語モデル(LLM;Large Language Model)は8ビット、4ビットで量子化されるのが当たり前になり、量子化しても性能劣化はある程度まで抑えられることも知られるようになった。
昨年10月に発表した「BitNet」は、多くの人々が他のことに気を取られていてほとんど話題にならなかった。
そんな中、満を持して発表された1ビットLLMの性能に関するレポートは、衝撃的と言っていい内容だ。論文のタイトルも堂々と「The Era of 1-bit LLM(1ビットLLMの時代)」としている。
彼らが発表したグラフを引用しよう。
https://i.imgur.com/VMD8HyS.png
まず、最近主流になっている70B(700億)パラメータモデルでの比較である。Llamaの70BとBitNetの70Bモデルを比較すると、BitNetは8.9倍のスループットを誇るという。
「速いだけで回答が微妙なのでは」と心配するのが普通だろう。
そこでLlamaモデルとの比較が載っている。
https://i.imgur.com/zmgoo1X.png
この表によると、BitNetはLlamaよりも3倍高速でしかも高精度ということになる。
PPLは「困惑」の度合いを意味する数値で、低いほど「困惑してない」ことになる。Llamaよりも性能劣化してないどころか性能は上がっている。
また、各種ベンチマークにおいても平均点は同規模のBitNetがLlamaを上回っている。しかもBitNetは規模が大きくなるほどLlamaに対して優位に立つようになっている。
この圧倒的なスピードの秘密は、BitNetが文字通り「1ビットで処理している」からだ。
https://i.imgur.com/1tcsItA.png
通常、LLMをふくむディープラーニングされたニューラルネットは巨大な行列の積和演算(掛け算と足し算)を必要とする。
推論時も学習時もそうだ。
しかし、1ビット、つまり、行列の中身が0か1しかないのであれば、全ての計算を加算演算のみにできる。
加算と乗算では計算速度も負荷も段違いに異なるため、これだけのスピードの差が出ている。また、当然ながらメモリ効率も高い。
このため、この論文では「積和演算に最適化されたGPUではなく、加算処理のみに特化した新しいハードウェアの出現」までもが予言されている。
今現在、世界各国が血眼になってGPUを確保し、囲い込んでいることを考えると、実に痛快な論文だ。
非常に驚異的なことが書いてあるのだが、残念ながらBitNetによるLLMの実装とモデルはまだ公開されていない。
だから彼らの主張が本当かどうかはまだ誰にもわからないのだが、BitNetTransformerの実装だけは公開されているため、腕に覚えがあるエンジニアなら自分でトレーニングコードを書いて確かめることができる。
いずれにせよ、 この論文が本当だとしたら、とんでもないことが起きることになる。
この業界に居て長いが、本当にいつもいつも、こんなニュースに触れて興奮できるこの時代を生きる我々は幸運としか言えない。
もちろん筆者もBitNetを試してみるつもりだ。
【論文】
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits
1 ビット LLM の時代: すべての大規模言語モデルは 1.58 ビット
https://huggingface.co/papers/2402.17764 量子コンピューターと同じ
すごいすごい言われてたけど
この10年間で株が上がったのはnvidia これ抜きにしてもヌビダビスの株価の上がり方は流石に垂直すぎてバブルやろ 謎の企業の決算前に発表すればよかったのにやさちいね 中身を1と0と-1で表現してる
なので4値の2bitではないけど3値必要なので正確には1.58bit
こうすることでかけ算があったはずの行列の計算を強制的に足し算引き算無の3種類に落とし込める
加えて演算を進めていくにつれて浮動小数だとノイズが混じっていくが、こっちは精度が落ちようがない >>24
1bit?と思ってリンク先見た
そうだね 行列演算の手続きを加法一本にして単純化したわけか
誰でも思い付きそうだが何が技術的に難しいんだろう? >>24
あーやっぱそうか
それで1.58なんや😺 なんか結局GPUにMapして並列化する方が早いで終わりそうな気がするが そこまでNividaのプレが下がってる訳でも無いしMicrosoftのプレが上がってる訳でも無いな
様子をうかがっている段階か 要はAIの学習法でもっと良いのがありましたってことだよな 最近は左翼も1bit脳だから精度はその程度で十分だと言うことが判明したんだな グラボのせいでPC価格下がらないからとっととなんとかしてくれ >>2
学習する時点で最初から1.58bitなの? >>5
今のAIが真似してるのは、人間の脳みそとかいうガバガバハードウェアだからな 中国人のトップは神レベルだからね🥺
人口多い科学国家の頂点は世界最強🥺 >>51
ものすごく大雑把に言うと
GPUで強引に計算するくらいならSSDにもっとクソデカい容量取って代わりに計算そのものを簡単にしようぜ
くらいの理解でいいよ
ぶっちゃけどうせ直ぐ並列化されてGPU使えるようになって終わると思う AI界隈はこの調子でしばらく話題が尽きる事は無いのだろうな
見ていると下手なクソ海外ドラマより面白い >>49
これは学習じゃなくて学習済みモデルに対してやね
たぶん 下げたら買う
それよりビットコインの方がやべえやろ
量子コンピュータリスクもある >>56
それはないんじゃないの
1.58bに量子化するんしょ多分
でもそれでちゃんと動くとは思わなかった
嘘のようなホントの話
イソジン うーん なんかホログラムディスクで容量何万倍みたいな話に思える
いつ市販されるのこれ?本当にモノになるのか? 画像AIの計算方法も改善出来るなら凄いけどどうなん
遅すぎて辛いんよ まぁ実用化は数十年後とかやろ
それまではNvidiaが無双するっしょ もうね 誇大広告にはうんざりなんですわ
OpenAIの何がすごいかって言うといきなり実物を出して使わせちゃうスタイル
空飛ぶクルマや大阪磯村ワクチンみたいなのはちょっとね NVIDIAだってAI向けのGPU出してるぐらいだしな
AIに需要あるのかわからん時代ならもともとゲーム用のGPUを流用するのが当然だけど
今後はPCにはグラボじゃなくAI専用ボードを搭載するのが自然な流れかもしれん 3枚目みるとmodelってのが1,0,-1の3種類だけどこれが特徴量ってやつなん
年収とかだとあからさまにそぐわない気がするけど言語モデルとかってのだとこれでOKなの 昔から量子化したモデルでも性能はそんなに落ちないって言われてるんだわ
ハードウェアが変わろうと学習時にはやっぱり-1,0,1だとうまくいかないから推論専用な気がする
それにどうせそれがベストになったとしてもCUDAの乗算が要らないってだけで足し算引き算の機能はいるんでしょ 最近NVIDIA株買った民の阿鼻叫喚が気持ちいw
強がってるの受けるわw 行列演算から乗算が不要になるってだけだからNVIDIAの時代は終わらんし、Tensorコアみたいに専用コアがGPUに搭載されるようになるだろうな >>72
Can be utilized not just for text but for images and maybe even video or audio processing
だってさ
凄えぞ大丈夫かこれ そのうちソフト化するわな
いつまでも100万もするボート使ってらんない お前らMS株全力でいけ
まだ400ドルくらいだからお得だしこれからも上がる
AIへの投資もしてて隙がない 量子化捨ててるなら
1bit違うパラメータで全然違う答え出そう >>84
GPUが転用されてるのは積和演算器がバケモノみたいな量乗ってるからで
加算器のみでいけるのなら回路がとんでもなく小さくなるしネットワークも回路上に載る可能性がある
そうなるとFPGAの出番で二大メーカーは少し前にAMDとIntelに買収されているというね >>88
ほー
でも量子化はどうせ質が落ちるから怪しいなぁ
超伝導のアレみたいな雰囲気もあるし
はよテスト版出してや VRAMをモリモリ消費する現状も改善するのか?
8GBしかないから辛いぞ ■ このスレッドは過去ログ倉庫に格納されています