GPTを超える大規模言語アーキテクチャ「Hyena」(はいなー)とは何か? [163661708]
■ このスレッドは過去ログ倉庫に格納されています
GPTを超える大規模言語アーキテクチャ「Hyena」とは何か?
清水亮の「世界を変えるAI」
広く使われているGPT3やChatGPTといったいわゆる「Transformer(トランスフォーマー)」というモデルは、パラメータ数が多く、しかも計算量が膨大であるため、利用料金が高い上に動作が遅いと言う問題がある。Hyenaの特徴は、まずGPTに比べて計算量が圧倒的に少ないことだ。
https://www.itmedia.co.jp/news/spv/2303/09/news086.html
3月7日、刺激的なブログがHazy Researchから投稿された。新しい大規模言語モデルHyena(ハイエナ)の登場だ。
Hazy Researchはスタンフォード大学とモントリオール大学による共同の研究チームだ。特に深層学習の世界ではトップ研究者として知られ、コンピュータ業界におけるノーベル賞に相当するチューリング賞受賞者であるヨシュア・ベンジオ博士も論文に名を連ねていることから話題になっている。
現在、広く使われているのはGPT-3やChatGPTといったいわゆる「Transformer(トランスフォーマー)」というモデルだ。「Transformer」は、並列化がしやすく大規模な学習に向いているという特徴を持っている。GPTも、実は「Generative Pre-trained Transformer(生成的事前訓練済みトランスフォーマー)」の略で、要はTransformerである。
Transformerそのものは2018年からあり、GPT以外にも「BERT」や「Sentence Transformer」などさまざまなバージョンがある。最近急激に話題を呼んでいるChatGPTも、Transformerを内部的に使用しているものだ。
GPTのモデルに比べ、速度が100倍に
しかし、大規模なTransformerモデルは、パラメータ数が多く、しかも計算量が膨大であるため、利用料金が高い上に動作が遅いという問題がある。
それに比べると、Hyenaの特徴は、まずGPTに比べて計算量が圧倒的に少ないことだ。
GPTはモデルサイズが大きくなればなるほど、パラメータ数の二乗に比例して計算量が増えるという弱点がある。パラメータ数をnとすると、n*nの計算量ということになる。
ところがHyenaは、計算量がパラメータ数をnとしたときにn*log2nになる。パラメータの2乗とlog2n乗とでは、パラメータが増えたときの計算量が大きく変わる。実際のベンチマークで、10万トークン時にGPTの100倍高速となる結果が出ている。
この差は、パラメータ数が多ければ多いほど、つまりAIとして賢ければ賢いほど開いていくので、これから言語モデルの規模がもっと大きくなるとしても、Hyenaの果たす役割は重要だ。
長文に対応 目標は本10冊分の自動生成
もう一つ、大きな違いは、長いシーケンス(文章)に対応することだ。現在のTransformerではだいたい長さ4000トークン(単語数)前後のシーケンスを扱うように訓練されている。例えばGPT-3のdavinci-003モデルは、4097トークンまでしか学習されていない。
しかし、今後、画像生成から動画生成へ変化したり、長い音声データを生成したりするように発展していくことを考えると、4000トークンでは短すぎる。だからChatGPTと長時間同じスレッドで会話を続けていると会話が破綻してくる。これは扱えるシーケンス長が短いからだ。
HyenaとTransformerを比べると、6000トークンくらいからHyenaの方が効率的になり、10万トークンくらいまで長いシーケンスになると、100倍高速化することが実験によって確かめられている。
上のグラフでは、青線が従来のTransformerで用いられるAttentionで、赤線がHyenaだ。
横軸はシーケンスの長さ(トークン数)である。トークンが十分短い場合は差は少ないが、長くなればなるほど差が開いていくのが分かる。
Hyenaは、本一冊くらいの長さの文章を扱うデータセット「PG-19」で訓練した場合でも、16000トークンのシーケンスで学習すると、同規模のパラメータ数のGPTに匹敵する性能を達成している。逆にシーケンスが短いとGPTに負けてしまう。
また、画像認識など文章以外の分野でもTransformerと同じ性能に達することが分かっており、今後Transformer一辺倒だったものが少しずつHyenaに置き換わっていく可能性もある。
研究チームの次なる目標は、さらに長いシーケンス長として、100万トークンのシーケンスを学習することを目指している。日本では新書などに必要な文字数が、最低8~10万字といわれているので、まさに本一冊どころか小説10巻分の文章の自動生成においてさらなる性能向上を狙っているようだ。
これだけ長いシーケンスが扱えるようになると、今は非常に素朴なやりとりしかできないChatGPTのようなものも、人生の友と呼べるくらいに長く付き合える可能性がある。
人は、かなり親しい人との間でも、100万語も言葉を交わすことは滅多にないはずだ。 >>12
たしかこれもオープンなものじゃなかったっけ >>13
これもってどれと比較してるんだ?
オープンソースの話だと思うが >>ヨシュア・ベンジオ
メシア・アベシンゾ
つまり… 板長がついにAI分野に進出か
思っていたより時間がかかったな >>9
ゲーミングPCでならサクサク動くぐらいだったら この技術開発って始まったばかりでこれからだから
いろいろなところからどんどん新しい理論や技術が出てくるよ openAI自体は文句ないんだがbingがゴミUIすぎてゲンナリしたわ
ほんまマイクロソフトはやることにセンスがない金持ってるだけ
競合するサービスはどんどん出てきて欲しい bingAIはガチでゴミ
検索したい時はperplexity使うしそれ以外はchatGPTでいい ■ このスレッドは過去ログ倉庫に格納されています