SANA-WMは普通の動画生成AIと何が違いますか？

単に短い映像を作るだけでなく、6DoFカメラ軌道に沿って視点を動かし、1分スケールの空間的・時間的な一貫性を保つことを狙ったワールドモデルです。

SANA-WMでダンス動画を作れますか？

将来的にはカメラワークや長いショットの一貫性に役立つ可能性があります。ただし人物の細かな振付、手足の整合性、音楽同期は別の制御技術や動画生成ワークフローも重要になります。

SANA-WMとは？NVIDIAの1分動画ワールドモデルを図解で理解する

まず結論: SANA-WMは「カメラを動かせる1分動画の世界モデル」

SANA-WMは、NVIDIA研究チームが発表した2.6Bパラメータのワールドモデルです。論文では、720pの高品質動画を最長1分生成し、6DoFのカメラ制御に対応するモデルとして説明されています。(arXiv)

ここで重要なのは、SANA-WMが単なる「動画生成AIの新作」ではないことです。普通の動画生成AIが「プロンプトから数秒の映像を作る」ものだとすると、SANA-WMはカメラが空間を移動したときに、世界がどう見えるかを長く保つ方向に寄っています。

ダンス動画で例えると、次の違いです。

観点	一般的な動画生成AI	SANA-WMが狙う方向
主な強み	短い印象的な映像を作る	長い空間・視点移動を保つ
制御対象	テキスト、画像、短い動き	6DoFカメラ軌道、長尺の一貫性
ダンス動画で効く部分	衣装、雰囲気、短い振付	スタジオ空間、カメラワーク、長回し
注意点	手足や顔が崩れることがある	振付・音楽同期専用モデルではない

図解: SANA-WMの全体像

SANA-WMの入力、世界モデル、出力、ダンス動画で得意な部分と別途必要な部分 — SANA-WMは、テキストや初期映像だけでなく、カメラ軌道を条件として受け取り、1分スケールの視点移動つき動画を作ることを狙う。

この図のポイントは、SANA-WMを「1回の動画生成ボタン」として見るより、空間・時間・視点をまとめて扱うモデルとして見ることです。

ワールドモデルとは何か

ワールドモデルとは、AIが「世界の構造」や「動いたときの見え方」を内部で予測するモデルです。

たとえば、カメラがダンサーの正面から横へ回り込むと、床の見え方、照明の反射、人物の輪郭、背景の位置関係が変わります。短い動画なら雰囲気でごまかせても、1分間続くと、背景が急に変わる、人物の位置が飛ぶ、カメラが意図と違う方向へずれる、といった破綻が目立ちます。

SANA-WMは、この長尺の破綻を抑えるために、最初からminute-scale、つまり1分スケールの生成を前提に設計されています。

技術的な見どころ

1. ハイブリッド線形注意で長い動画を扱う

動画が長くなるほど、モデルが参照すべき情報は増えます。単純に全フレームを細かく見ようとすると、メモリも計算量も大きくなります。

SANA-WMでは、論文上の中核設計としてHybrid Linear Attentionが挙げられています。フレーム単位のGated DeltaNetとsoftmax attentionを組み合わせ、長い文脈を効率よく扱う構成です。(arXiv)

ざっくり言えば、「長い流れは軽く覚え、必要なところだけ詳しく見る」ための仕組みです。

2. 6DoFカメラ制御に対応する

6DoFは、6 degrees of freedomの略です。カメラの動きを次の6方向で扱います。

種類	内容
移動	前後、左右、上下
回転	横を向く、上下を向く、傾く

ダンス動画では、これはかなり重要です。固定カメラの正面ショットだけでなく、ダンサーの周囲を回る、低い位置から寄る、横移動しながら追う、といった映像演出に関係します。

ただし、SANA-WMのカメラ制御は「人物の骨格をこの通りに踊らせる」制御とは別です。カメラの動きと、身体の振付制御は分けて考える必要があります。

3. リファイナーで長尺動画を整える

論文では、SANA-WMは2段階の生成パイプラインを使うと説明されています。まず本体モデルが長い動画を生成し、その後に長尺動画向けのリファイナーで品質と一貫性を高めます。

動画生成でよく起きる問題は、1フレームだけ綺麗でも、前後につなぐとちらつくことです。リファイナーは、この細部やフレーム間のつながりを補正する役割です。

どれくらい効率が良いのか

論文では、SANA-WMは約21万3000本の公開動画クリップを使い、64基のH100 GPUで15日学習したとされています。また、60秒クリップを単一GPUで生成でき、蒸留済みモデルではRTX 5090とNVFP4量子化により、60秒720p動画のノイズ除去を34秒で実行できると説明されています。(arXiv)

この数字はかなり強い主張です。ただし、ここでいう34秒は生成工程の特定部分の処理時間であり、手元のPCで誰でも同じ条件を再現できる、という意味ではありません。実際に試す場合は、公開される重み、推論コード、GPUメモリ、量子化対応、依存ライブラリを確認する必要があります。

ダンス動画を作りたい人にとって何が嬉しいか

ダンス動画づくりでSANA-WMが効きそうなのは、主にカメラワークと空間の維持です。

たとえば、次のような映像です。

ネオン照明のスタジオで、架空のダンサーを正面から撮る。
カメラがゆっくり横へ回り込む。
途中で軽くプッシュインする。
最後に全身が見える位置で止まる。

このとき必要なのは、単に「踊っている人」を作ることだけではありません。床、壁、照明、カメラ位置、人物のサイズ感が長い時間で整合している必要があります。SANA-WMの方向性は、この問題に近いです。

一方で、ダンス動画で難しいのは次です。

難所	なぜ難しいか
手足の正確な振付	関節、指、接地、重心が崩れやすい
音楽との同期	ビート、拍、動作タイミングの制御が必要
同じ人物の維持	長尺になるほど顔や衣装が変わりやすい
激しい回転や高速動作	モーションブラーや身体構造の破綻が出やすい

つまり、SANA-WMは「ダンス動画を一発で完璧に作る魔法」ではなく、長めのショットやカメラ移動を安定させるための基盤技術として見るのが現実的です。

いま試すなら何を見るべきか

2026年5月18日時点では、NVlabs/Sana GitHubにはSANA-WMのリリース告知があります。一方で、Getting Started欄ではSANA-WMがcoming soonとして扱われ、To-Do上でもSANA World Modelが未完了項目として残っています。(GitHub)

そのため、今すぐダンス動画を作りたい場合は、次の順番が現実的です。

SANA-WMの公式デモで、どの程度カメラ移動と長尺一貫性が出るか確認する。
公式のコード、重み、推論手順が公開されたら、まず短尺・低解像度で試す。
ダンス動画そのものは、既存の動画生成AIやimage-to-videoを使い、SANA-WMはカメラワークや空間維持の候補として追う。
振付を重視する場合は、ポーズ、モーション、参照動画を制御できるワークフローも併用する。

ダンス動画用のプロンプト例

SANA-WMや他の動画生成AIで試すなら、最初は欲張りすぎないほうが安定します。1本目は「1人、短い動き、明確なカメラ」に絞るのがよいです。

A fictional dancer performs an energetic street dance routine in a neon-lit studio.
The dancer is not based on any real person.
Action: two sharp hip-hop steps, a quick spin, then a confident final pose.
Camera: medium full-body shot, smooth side tracking, slight push-in at the end.
Lighting: colorful neon rim lights, clean cinematic contrast.
Style: polished music video look, high detail, natural motion.
Constraints: no logos, no text, no copyrighted characters, no real people, no existing song reference.

ポイントは、1ショットに1つの主動作と1つのカメラ移動に絞ることです。「長い振付、複数人、複雑な背景、激しいカメラ、音楽同期」を同時に入れると、失敗要因が増えます。

まとめ

SANA-WMは、動画生成AIの中でも「長さ」と「カメラ制御」に焦点を当てた重要な研究です。特に、1分スケールの動画を720pで生成し、6DoFカメラ軌道へ追従するという設計は、ゲーム、ロボット、仮想撮影、シミュレーションに近い発想です。

ダンス動画づくりでは、人物の振付そのものよりも、空間の一貫性、カメラワーク、長回しの安定化に価値が出やすいでしょう。現時点では公式実行環境の整備を待ちながら、短い動画生成ワークフローで構図とプロンプトを固めておくのが実用的です。