脳活動から視覚画像を再構成することは、脳データに関連するサンプルサイズが比較的小さいため難しい問題である。
近年では、GAN(Generative Adversarial Network)や自己教師あり学習などの深層学習モデルを使用して、この課題に取り組み良い結果を示してきているが、リアルな画像を生成できないのが現状だ。

 この課題に対し、今回はテキストプロンプトから画像を生成する潜在拡散モデルとfMRIによる脳活動記録を組み合わせて、脳活動から画像を生成するフレームワークを提案する。
具体的には、Text-to-Image拡散生成モデルで代表的な1つである「Stable Diffusion」を使用する。

 このフレームワークは、脳活動を用いた複雑な深層学習モデルの訓練を行わず、fMRIから潜在拡散モデルの潜在空間へのマッピングを必要とするだけのシンプルな仕様である。具体的には、脳活動から低次の視覚情報を読み取るデコーダーと、高次の意味情報を読み取るデコーダーをそれぞれ構築し、それらの出力をStable Diffusionの内部における画像とテキスト情報に対応した潜在変数として用いる。

 学習データセットには、高磁場強度(7T)で実施された大規模fMRIデータセット「Natura


https://i.imgur.com/p2v1rPt.jpg


https://news.yahoo.co.jp/articles/6a6ef9227d87662aeb814330f23618b32e0c6b0b