X



GPTを超える大規模言語アーキテクチャ「Hyena」(はいなー)とは何か? [163661708]
■ このスレッドは過去ログ倉庫に格納されています
0001番組の途中ですがアフィサイトへの転載は禁止です (アウアウウー Sa1d-TuiH)
垢版 |
2023/03/09(木) 20:02:34.31ID:RAR3kRXMa?2BP(1111)

GPTを超える大規模言語アーキテクチャ「Hyena」とは何か?

清水亮の「世界を変えるAI」
広く使われているGPT3やChatGPTといったいわゆる「Transformer(トランスフォーマー)」というモデルは、パラメータ数が多く、しかも計算量が膨大であるため、利用料金が高い上に動作が遅いと言う問題がある。Hyenaの特徴は、まずGPTに比べて計算量が圧倒的に少ないことだ。

https://www.itmedia.co.jp/news/spv/2303/09/news086.html
0002番組の途中ですがアフィサイトへの転載は禁止です (ワッチョイ fbbd-gCGi)
垢版 |
2023/03/09(木) 20:03:19.35ID:Q1bdm5vV0
もーちてなに?
0003番組の途中ですがアフィサイトへの転載は禁止です (アウアウウー Sa1d-TuiH)
垢版 |
2023/03/09(木) 20:03:26.83ID:RAR3kRXMa?2BP(1111)

 3月7日、刺激的なブログがHazy Researchから投稿された。新しい大規模言語モデルHyena(ハイエナ)の登場だ。

 Hazy Researchはスタンフォード大学とモントリオール大学による共同の研究チームだ。特に深層学習の世界ではトップ研究者として知られ、コンピュータ業界におけるノーベル賞に相当するチューリング賞受賞者であるヨシュア・ベンジオ博士も論文に名を連ねていることから話題になっている。

 現在、広く使われているのはGPT-3やChatGPTといったいわゆる「Transformer(トランスフォーマー)」というモデルだ。「Transformer」は、並列化がしやすく大規模な学習に向いているという特徴を持っている。GPTも、実は「Generative Pre-trained Transformer(生成的事前訓練済みトランスフォーマー)」の略で、要はTransformerである。

 Transformerそのものは2018年からあり、GPT以外にも「BERT」や「Sentence Transformer」などさまざまなバージョンがある。最近急激に話題を呼んでいるChatGPTも、Transformerを内部的に使用しているものだ。
0004番組の途中ですがアフィサイトへの転載は禁止です (ワッチョイW 138b-R/U/)
垢版 |
2023/03/09(木) 20:03:35.47ID:K3G7oceO0
あるんよ
0005番組の途中ですがアフィサイトへの転載は禁止です (ワッチョイW 914c-nOum)
垢版 |
2023/03/09(木) 20:03:56.66ID:n5q+z8s30
>>2
乾燥大麻
0006番組の途中ですがアフィサイトへの転載は禁止です (アウアウウー Sa1d-TuiH)
垢版 |
2023/03/09(木) 20:03:58.10ID:RAR3kRXMa?2BP(1111)

GPTのモデルに比べ、速度が100倍に

 しかし、大規模なTransformerモデルは、パラメータ数が多く、しかも計算量が膨大であるため、利用料金が高い上に動作が遅いという問題がある。

 それに比べると、Hyenaの特徴は、まずGPTに比べて計算量が圧倒的に少ないことだ。

GPTはモデルサイズが大きくなればなるほど、パラメータ数の二乗に比例して計算量が増えるという弱点がある。パラメータ数をnとすると、n*nの計算量ということになる。

 ところがHyenaは、計算量がパラメータ数をnとしたときにn*log2nになる。パラメータの2乗とlog2n乗とでは、パラメータが増えたときの計算量が大きく変わる。実際のベンチマークで、10万トークン時にGPTの100倍高速となる結果が出ている。

 この差は、パラメータ数が多ければ多いほど、つまりAIとして賢ければ賢いほど開いていくので、これから言語モデルの規模がもっと大きくなるとしても、Hyenaの果たす役割は重要だ。
0007番組の途中ですがアフィサイトへの転載は禁止です (ワッチョイ 7b56-W5Lg)
垢版 |
2023/03/09(木) 20:05:36.65ID:8f0ikIf40
おるんよ
0009番組の途中ですがアフィサイトへの転載は禁止です (アウアウウー Sa1d-a2By)
垢版 |
2023/03/09(木) 20:06:08.21ID:8zMOgfnya
性能が良くても無料じゃないと食いつかないよ
0010番組の途中ですがアフィサイトへの転載は禁止です (ワッチョイW 990d-5uCt)
垢版 |
2023/03/09(木) 20:06:30.12ID:a0Ir/8ph0
more chip' got own you
0011番組の途中ですがアフィサイトへの転載は禁止です (アウアウウー Sa1d-TuiH)
垢版 |
2023/03/09(木) 20:07:59.99ID:RAR3kRXMa?2BP(1111)

長文に対応 目標は本10冊分の自動生成

 もう一つ、大きな違いは、長いシーケンス(文章)に対応することだ。現在のTransformerではだいたい長さ4000トークン(単語数)前後のシーケンスを扱うように訓練されている。例えばGPT-3のdavinci-003モデルは、4097トークンまでしか学習されていない。

 しかし、今後、画像生成から動画生成へ変化したり、長い音声データを生成したりするように発展していくことを考えると、4000トークンでは短すぎる。だからChatGPTと長時間同じスレッドで会話を続けていると会話が破綻してくる。これは扱えるシーケンス長が短いからだ。

 HyenaとTransformerを比べると、6000トークンくらいからHyenaの方が効率的になり、10万トークンくらいまで長いシーケンスになると、100倍高速化することが実験によって確かめられている。

上のグラフでは、青線が従来のTransformerで用いられるAttentionで、赤線がHyenaだ。

横軸はシーケンスの長さ(トークン数)である。トークンが十分短い場合は差は少ないが、長くなればなるほど差が開いていくのが分かる。

 Hyenaは、本一冊くらいの長さの文章を扱うデータセット「PG-19」で訓練した場合でも、16000トークンのシーケンスで学習すると、同規模のパラメータ数のGPTに匹敵する性能を達成している。逆にシーケンスが短いとGPTに負けてしまう。

また、画像認識など文章以外の分野でもTransformerと同じ性能に達することが分かっており、今後Transformer一辺倒だったものが少しずつHyenaに置き換わっていく可能性もある。

 研究チームの次なる目標は、さらに長いシーケンス長として、100万トークンのシーケンスを学習することを目指している。日本では新書などに必要な文字数が、最低8~10万字といわれているので、まさに本一冊どころか小説10巻分の文章の自動生成においてさらなる性能向上を狙っているようだ。

 これだけ長いシーケンスが扱えるようになると、今は非常に素朴なやりとりしかできないChatGPTのようなものも、人生の友と呼べるくらいに長く付き合える可能性がある。

人は、かなり親しい人との間でも、100万語も言葉を交わすことは滅多にないはずだ。
0013番組の途中ですがアフィサイトへの転載は禁止です (ワッチョイW 09af-myJ/)
垢版 |
2023/03/09(木) 20:10:11.09ID:R75AkDSC0
>>12
たしかこれもオープンなものじゃなかったっけ
0015番組の途中ですがアフィサイトへの転載は禁止です (ワッチョイW c9c9-m8ZH)
垢版 |
2023/03/09(木) 20:10:28.79ID:auzMId070
聞く態度
0017番組の途中ですがアフィサイトへの転載は禁止です (ワッチョイW f985-hq1u)
垢版 |
2023/03/09(木) 20:13:44.86ID:OHyZHraR0
>>13
これもってどれと比較してるんだ?
オープンソースの話だと思うが
0018番組の途中ですがアフィサイトへの転載は禁止です (テテンテンテン MMeb-N6iH)
垢版 |
2023/03/09(木) 20:14:02.81ID:l4eEMWxnM
お餅ですか?
0019番組の途中ですがアフィサイトへの転載は禁止です (ワッチョイW 418f-kY3o)
垢版 |
2023/03/09(木) 20:15:06.93ID:03yTLIUN0
タケヨシキかな?
0021番組の途中ですがアフィサイトへの転載は禁止です (ワッチョイ 9344-Qpn1)
垢版 |
2023/03/09(木) 20:21:04.98ID:Hiuj8I5U0
>>ヨシュア・ベンジオ
メシア・アベシンゾ
つまり…
0022番組の途中ですがアフィサイトへの転載は禁止です (ワッチョイ 3160-Qpn1)
垢版 |
2023/03/09(木) 20:22:15.30ID:g9oY9saI0
板長がついにAI分野に進出か
思っていたより時間がかかったな
0023番組の途中ですがアフィサイトへの転載は禁止です (ワッチョイW e989-6vWg)
垢版 |
2023/03/09(木) 20:24:14.15ID:6GUyC42G0
タケ・ヨシキ
0024番組の途中ですがアフィサイトへの転載は禁止です (ワッチョイW 7b23-MCi5)
垢版 |
2023/03/09(木) 20:24:59.76ID:4dLImRXY0
ハイエナじゃねーか
0025番組の途中ですがアフィサイトへの転載は禁止です (ワッチョイW 5376-eevX)
垢版 |
2023/03/09(木) 20:25:22.11ID:IGQKY9G60
>>9
ゲーミングPCでならサクサク動くぐらいだったら
0026番組の途中ですがアフィサイトへの転載は禁止です (ワッチョイ 29d2-AVBr)
垢版 |
2023/03/09(木) 20:29:48.47ID:DwBUv6Pz0
この技術開発って始まったばかりでこれからだから
いろいろなところからどんどん新しい理論や技術が出てくるよ
0027番組の途中ですがアフィサイトへの転載は禁止です (ワッチョイW 7308-4ImW)
垢版 |
2023/03/09(木) 20:53:29.12ID:1NXV6lIT0
openAI自体は文句ないんだがbingがゴミUIすぎてゲンナリしたわ
ほんまマイクロソフトはやることにセンスがない金持ってるだけ
競合するサービスはどんどん出てきて欲しい
0028番組の途中ですがアフィサイトへの転載は禁止です (ワッチョイW 190f-xHLC)
垢版 |
2023/03/09(木) 21:06:53.74ID:Yz+1WzEZ0
bingAIはガチでゴミ
検索したい時はperplexity使うしそれ以外はchatGPTでいい
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況