Bloombergによれば、このデモは少なからず誤解を招くものだという。まず、実際の出力はかなり遅い。ビデオには、応答がスピードアップされているという免責事項があるが、実際には処理速度以上のごまかしがそこにはある。そもそもGeminiはビデオを見ているわけではないのだ。我々が聞いている返答はすべて、AIにビデオの静止画を見せ、テキストプロンプトを与えた結果である。

ビデオでは、カップの中にボールを隠そうとしたり、アヒルの絵を描いたり、地図を使ったゲームをしたりと、ユーザーがさまざまなタスクをこなしている。映像中、Geminiはリアルタイムでナレーションを入れ、その場ですべてを把握する。しかし、ビデオではわからないのは、GoogleがGeminiのデモを作るためにテキストプロンプトを使い、コンテキストを提供していることだ。

Googleは、キャプチャしたコンテンツの静止画像フレームに基づいてGeminiにプロンプトを与えた。そして、テキストでAIモデルを促した。その後、ナレーションが加えられた。

実際、ビデオに映し出されたプロンプトは、Geminiに与えられたものですらない。ビデオでは、Geminiがテーブルの上に置かれた3つのカップを見て、ユーザーがゲームをしようとしていると即座に判断しているように見える。実際には、GoogleはGeminiにゲームのやり方を教えた。そして、非常に具体的な指示に従うGeminiの能力をテストした。そのような状況であっても、Geminiはそのタスクを完璧にこなせるわけではない。

「もちろん、Geminiが常にこの課題を正しくこなすとは限りません。時々、フェイク・アウトの技(空のカップを2つ交換する)につまづくようだが、それもうまくいくことがあります。しかし、このようなシンプルなプロンプトのおかげで、Geminiを素早くテストするのが本当に楽しくなります」とGoogleは説明している。

Google研究担当副社長でディープラーニングをリードするOriol Vinyals氏は、Xでこのビデオを擁護した。



https://texal.jp/2023/12/09/googles-gemini-hands-on-video-reveals-extensive-editing-and-staging/