SANA-WMとは?NVIDIAの1分動画ワールドモデルを図解で理解する
NVIDIA研究チームが発表したSANA-WMを、ワールドモデル、6DoFカメラ制御、1分動画生成、ダンス動画づくりとの関係から初心者向けに図解整理します。
- sana-wm
- nvidia
- world-model
- video-generation
- physical-ai
- ai-video
- 情報確認
- 参考リンク
- 3件
- 更新性
- 定期更新
- 読了目安
- 約5分
仕様・料金・提供範囲が変わりやすいテーマは、公開日・更新日・情報確認日を分けて管理します。 導入前には必ず記事末尾の一次情報と公式ドキュメントで最新状況を確認してください。
まず結論: SANA-WMは「カメラを動かせる1分動画の世界モデル」
SANA-WMは、NVIDIA研究チームが発表した2.6Bパラメータのワールドモデルです。論文では、720pの高品質動画を最長1分生成し、6DoFのカメラ制御に対応するモデルとして説明されています。(arXiv)
ここで重要なのは、SANA-WMが単なる「動画生成AIの新作」ではないことです。普通の動画生成AIが「プロンプトから数秒の映像を作る」ものだとすると、SANA-WMはカメラが空間を移動したときに、世界がどう見えるかを長く保つ方向に寄っています。
ダンス動画で例えると、次の違いです。
| 観点 | 一般的な動画生成AI | SANA-WMが狙う方向 |
|---|---|---|
| 主な強み | 短い印象的な映像を作る | 長い空間・視点移動を保つ |
| 制御対象 | テキスト、画像、短い動き | 6DoFカメラ軌道、長尺の一貫性 |
| ダンス動画で効く部分 | 衣装、雰囲気、短い振付 | スタジオ空間、カメラワーク、長回し |
| 注意点 | 手足や顔が崩れることがある | 振付・音楽同期専用モデルではない |
図解: SANA-WMの全体像
この図のポイントは、SANA-WMを「1回の動画生成ボタン」として見るより、空間・時間・視点をまとめて扱うモデルとして見ることです。
ワールドモデルとは何か
ワールドモデルとは、AIが「世界の構造」や「動いたときの見え方」を内部で予測するモデルです。
たとえば、カメラがダンサーの正面から横へ回り込むと、床の見え方、照明の反射、人物の輪郭、背景の位置関係が変わります。短い動画なら雰囲気でごまかせても、1分間続くと、背景が急に変わる、人物の位置が飛ぶ、カメラが意図と違う方向へずれる、といった破綻が目立ちます。
SANA-WMは、この長尺の破綻を抑えるために、最初からminute-scale、つまり1分スケールの生成を前提に設計されています。
技術的な見どころ
1. ハイブリッド線形注意で長い動画を扱う
動画が長くなるほど、モデルが参照すべき情報は増えます。単純に全フレームを細かく見ようとすると、メモリも計算量も大きくなります。
SANA-WMでは、論文上の中核設計としてHybrid Linear Attentionが挙げられています。フレーム単位のGated DeltaNetとsoftmax attentionを組み合わせ、長い文脈を効率よく扱う構成です。(arXiv)
ざっくり言えば、「長い流れは軽く覚え、必要なところだけ詳しく見る」ための仕組みです。
2. 6DoFカメラ制御に対応する
6DoFは、6 degrees of freedomの略です。カメラの動きを次の6方向で扱います。
| 種類 | 内容 |
|---|---|
| 移動 | 前後、左右、上下 |
| 回転 | 横を向く、上下を向く、傾く |
ダンス動画では、これはかなり重要です。固定カメラの正面ショットだけでなく、ダンサーの周囲を回る、低い位置から寄る、横移動しながら追う、といった映像演出に関係します。
ただし、SANA-WMのカメラ制御は「人物の骨格をこの通りに踊らせる」制御とは別です。カメラの動きと、身体の振付制御は分けて考える必要があります。
3. リファイナーで長尺動画を整える
論文では、SANA-WMは2段階の生成パイプラインを使うと説明されています。まず本体モデルが長い動画を生成し、その後に長尺動画向けのリファイナーで品質と一貫性を高めます。
動画生成でよく起きる問題は、1フレームだけ綺麗でも、前後につなぐとちらつくことです。リファイナーは、この細部やフレーム間のつながりを補正する役割です。
どれくらい効率が良いのか
論文では、SANA-WMは約21万3000本の公開動画クリップを使い、64基のH100 GPUで15日学習したとされています。また、60秒クリップを単一GPUで生成でき、蒸留済みモデルではRTX 5090とNVFP4量子化により、60秒720p動画のノイズ除去を34秒で実行できると説明されています。(arXiv)
この数字はかなり強い主張です。ただし、ここでいう34秒は生成工程の特定部分の処理時間であり、手元のPCで誰でも同じ条件を再現できる、という意味ではありません。実際に試す場合は、公開される重み、推論コード、GPUメモリ、量子化対応、依存ライブラリを確認する必要があります。
ダンス動画を作りたい人にとって何が嬉しいか
ダンス動画づくりでSANA-WMが効きそうなのは、主にカメラワークと空間の維持です。
たとえば、次のような映像です。
- ネオン照明のスタジオで、架空のダンサーを正面から撮る。
- カメラがゆっくり横へ回り込む。
- 途中で軽くプッシュインする。
- 最後に全身が見える位置で止まる。
このとき必要なのは、単に「踊っている人」を作ることだけではありません。床、壁、照明、カメラ位置、人物のサイズ感が長い時間で整合している必要があります。SANA-WMの方向性は、この問題に近いです。
一方で、ダンス動画で難しいのは次です。
| 難所 | なぜ難しいか |
|---|---|
| 手足の正確な振付 | 関節、指、接地、重心が崩れやすい |
| 音楽との同期 | ビート、拍、動作タイミングの制御が必要 |
| 同じ人物の維持 | 長尺になるほど顔や衣装が変わりやすい |
| 激しい回転や高速動作 | モーションブラーや身体構造の破綻が出やすい |
つまり、SANA-WMは「ダンス動画を一発で完璧に作る魔法」ではなく、長めのショットやカメラ移動を安定させるための基盤技術として見るのが現実的です。
いま試すなら何を見るべきか
2026年5月18日時点では、NVlabs/Sana GitHubにはSANA-WMのリリース告知があります。一方で、Getting Started欄ではSANA-WMがcoming soonとして扱われ、To-Do上でもSANA World Modelが未完了項目として残っています。(GitHub)
そのため、今すぐダンス動画を作りたい場合は、次の順番が現実的です。
- SANA-WMの公式デモで、どの程度カメラ移動と長尺一貫性が出るか確認する。
- 公式のコード、重み、推論手順が公開されたら、まず短尺・低解像度で試す。
- ダンス動画そのものは、既存の動画生成AIやimage-to-videoを使い、SANA-WMはカメラワークや空間維持の候補として追う。
- 振付を重視する場合は、ポーズ、モーション、参照動画を制御できるワークフローも併用する。
ダンス動画用のプロンプト例
SANA-WMや他の動画生成AIで試すなら、最初は欲張りすぎないほうが安定します。1本目は「1人、短い動き、明確なカメラ」に絞るのがよいです。
A fictional dancer performs an energetic street dance routine in a neon-lit studio.The dancer is not based on any real person.Action: two sharp hip-hop steps, a quick spin, then a confident final pose.Camera: medium full-body shot, smooth side tracking, slight push-in at the end.Lighting: colorful neon rim lights, clean cinematic contrast.Style: polished music video look, high detail, natural motion.Constraints: no logos, no text, no copyrighted characters, no real people, no existing song reference.ポイントは、1ショットに1つの主動作と1つのカメラ移動に絞ることです。「長い振付、複数人、複雑な背景、激しいカメラ、音楽同期」を同時に入れると、失敗要因が増えます。
まとめ
SANA-WMは、動画生成AIの中でも「長さ」と「カメラ制御」に焦点を当てた重要な研究です。特に、1分スケールの動画を720pで生成し、6DoFカメラ軌道へ追従するという設計は、ゲーム、ロボット、仮想撮影、シミュレーションに近い発想です。
ダンス動画づくりでは、人物の振付そのものよりも、空間の一貫性、カメラワーク、長回しの安定化に価値が出やすいでしょう。現時点では公式実行環境の整備を待ちながら、短い動画生成ワークフローで構図とプロンプトを固めておくのが実用的です。
出典
一次情報・参考リンク
関連して読む
- · 参考リンク 8件
フィジカルAIとは|開発トレンド・VLA・世界モデル・ヒューマノイド徹底調査
フィジカルAI(Physical AI)の意味、VLA・世界モデル・ロボット基盤モデルの技術スタック、NVIDIA/Google DeepMind/Figure/Tesla の主要プレイヤー動向、IFR市場データ、ヒューマノイド開発と安全規制までを横断整理。日本企業の勝ち筋と実装ロードマップを2026年4月時点で解説します。
ローカルLLMの損益分岐 — サブスク定額で考える3つの分岐点
ローカルLLMがクラウドより得になるのはいつか。token従量ではなく定額サブを前提に、GPU中古相場・電気代・サブスク月額の概算から、ローカルが効く3パターン(機密/上限超え/共有)を比較します(数値は概算)。
ローカルLLMが日本語実務でやらかす失敗集 — 実測7例ギャラリー
J-WorkBench の生トランスクリプトから、ローカルLLMが日本語の実務でやらかした失敗を7例そのまま並べた見本帳。JSON崩壊・根拠なし断言・敬語崩壊・表の二重計上・コード未修正、そしてローカルがクラウド3社に勝った逆転例まで、脚色なしの出力で示します。