マイクロソフト、写真や呪文だけで高品質な3Dアバターを生成するAI「Rodin」を発表
Microsoft Research Asiaと香港科学技術大学の研究者グループは2022年12月12日、
写真やプロンプト(いわゆる呪文)を元に高品質な3Dアバターを生成するモデル「Rodin(ロダン)」を論文発表。
マイクロソフトの公式サイトにも「Project 3D Avatar Diffusion」として掲載されている。
◆写真や呪文から3Dアバターを生成。呪文による事後編集も可能
1枚の静止画画像から高品質な3Dアバターを生成。
https://i.imgur.com/dvb1vWV.jpg
写真には写っていない後ろ姿も生成されていることがわかる。
https://i.imgur.com/EUBdK7j.jpg
「A bearded man with curly hair posing in a black leather jacket(黒い革ジャンを着てカーリーヘアーで髭をはやした男性)」
というプロンプトから3Dアバターを生成したところ。
https://i.imgur.com/xoFEvbB.jpg
こちらは「A woman with afro hairstyle wearing red(赤い服を着たアフロヘアの女性)」というプロンプトで試したもの。
服や髪型は異なるが顔のパーツは似通っている。
https://i.imgur.com/5uaR6w9.jpg
そこで、一度生成された画像に対し、プロンプトを使って直感的にカスタマイズすることも可能だ。
図は髪色を黒から茶に変更しているが、服を着替えたりヒゲを生やしたり表情を変えたりすることも可能なようだ。
https://i.imgur.com/XqBNoKo.jpg
多様性にも配慮されており、性別、年齢、民族、表情、世代など様々なバリエーションを表現できるようになっている。
https://i.imgur.com/ESNAEhC.jpg
Rodinのアーキテクチャを説明する概念図。
https://i.imgur.com/AQEiY9r.jpg
拡散モデルをベースに画像とテキストから視点を自由に変更できる3Dアバターを生成している。
一度生成モデルが学習されると、それを元に画像・プロンプト・ランダムなノイズを使って自由にカスタマイズが可能になっている。
◆アバター作成に大きな変化が起こる予感
VTuberを始めたいと思った初心者が最初につまずくのが3Dアバターの作成ではないだろうか。
一般的に2Dアイコンと比較して3Dアバターの作成はまだまだ難易度が高い。
しかもリアルタイムに動かせるものを作ろうとなると3Dモデリングソフトを使った本格的な3Dオブジェクトの作成は必須になる。
ニコニコ動画の「カスタムキャスト」や「REALITY」のようにスマホで簡単に3Dアバターを利用できるアプリも増えてきているが、
それらはあらかじめ用意されたテンプレートからカスタマイズしていくものだ
おそらく近いうちに「Rodin」モデルを利用した3Dアバター作成ツールがマイクロソフトから発表されるだろう。
そうなれば自分の顔を元にした3Dアバターを使ったVTuberも増えるかもしれない。
「顔は出したくないけど配信したいし個性も出したい」というニーズに応えることができるのだ。
もちろんニーズはVTuberだけではないだろう。特にメタバースの3Dチャットで利用するアバターに使用したいと考える人も多いかもしれない。
現状「Rodin」は顔と上半身しか生成しないが、全身モデルが生成できるようになる日も遠くないだろう。
そうなればメタバースがより現実に近づいていくのではないだろうか。
https://news.yahoo.co.jp/articles/a97b968c4b8144da2c901da41373c44651f9688b