文章から“動画”を自動作成するAI、中国の研究チームが開発

中国の清華大学の研究チームは、簡単なテキストを入力に、その文章を基にした簡単な動画を自動作成する機械学習モデルを開発した。

中国の清華大学の研究チームが開発した「CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers」は、簡単なテキストを入力に、その文章を基にした簡単な動画を自動作成する機械学習モデルだ。

 以下の画像のように、例えば「A man is sking.」と入力すると、男性が雪の上をスキーで滑る映像を出力し「A lion is drinking water.」だとライオンが手にコップを持ち水を飲む映像を出力する。
ここでの映像サンプルは、4秒間の32フレームで解像度480×480で出力される。

https://image.itmedia.co.jp/l/im/news/articles/2206/06/l_tm1636144_sl06032_1_w490.jpg

昨今、米OpenAIのDALL-Eや米GoogleのImagen、中国の清華大学によるCogView2などのように、テキストから画像に変換するモデルの精度が高まっている。
次のステップとして、テキストから動画に変換するモデルを開発するのは自然なことだろう。

https://www.itmedia.co.jp/news/spv/2206/06/news039.html