I-JEPAは、人間が世界を受動的に観察しながら、その背景情報を大量に学んでいくという考えに基づいている。I-JEPAは、このような学習方法を模倣しようとするもので、世界に関する常識的な背景知識を捕らえ、それをデジタル表現に符号化し、後でアクセスできるようにする。課題は、このようなシステムが、ラベル付きデータセットとは対照的に、画像や音声などのラベルなしデータを用いて、これらの表現を自己教師付きで学習しなければならないことだ。

I-JEPAは、画像やテキストなどの入力の一部を、同じ入力の他の部分の表現を用いて予測することが出来る。これは、画像の一部を消したり、文章中の単語を隠したりするなど、入力の一部を取り除いたり歪めたりすることで学習し、失われた入力を予測しようとする新しい生成AIモデルとは異なるものだ。

Metaによれば、生成AIモデルが採用する手法の欠点は、世界は本質的に予測不可能であるにもかかわらず、欠落した情報をすべて埋めようとすることだ。その結果、生成的な方法は、無関係な細部に焦点を当てすぎるため、人が決して犯さないようなミスを犯すことが多い。例えば、人間の手を正確に再現しようとすると、余計な数字が加わってしまったり、他のミスを犯してしまったりするのだ。

I-JEPAは、このようなミスを防ぐために、ピクセルレベルの不要なディテールを排除した抽象的な予測対象を用いて、より人間に近い形で欠損情報を予測する。このように、I-JEPAの予測器は、部分的に観測可能なコンテキストに基づいて静止画像の空間的な不確実性をモデル化し、ピクセルレベルの詳細とは対照的に、画像内の未見領域に関するより高いレベルの情報を予測することが出来るのだ。

https://texal.jp/2023/06/16/meta-launches-i-jepa-the-first-ai-model-that-learns-like-a-human/