本文へスキップ
Edition · Tokyo

SANA-WMとは?NVIDIAの1分動画ワールドモデルを図解で理解する

NVIDIA研究チームが発表したSANA-WMを、ワールドモデル、6DoFカメラ制御、1分動画生成、ダンス動画づくりとの関係から初心者向けに図解整理します。

codeagent.jp編集部 情報確認 約5分
Tags
  • sana-wm
  • nvidia
  • world-model
  • video-generation
  • physical-ai
  • ai-video
情報確認
参考リンク
3件
更新性
定期更新
読了目安
約5分
更新管理

仕様・料金・提供範囲が変わりやすいテーマは、公開日・更新日・情報確認日を分けて管理します。 導入前には必ず記事末尾の一次情報と公式ドキュメントで最新状況を確認してください。

SANA-WMとは?NVIDIAの1分動画ワールドモデルを図解で理解する の16:9共有用サマリー画像。 SANA-WMは動画生成AIというより、カメラ移動を含む世界の見え方を1分スケールで作るワールドモデルである 1. 何者か: NVIDIA研究チームの2.6Bパラメータ級ワールドモデル、720pで最長1分の動画生成を前提に設計されている、6DoFカメラ軌道に沿った視点移動を制御できる 2. 仕組み: ハイブリッド線形注意で長い文脈を効率よく扱う、2系統のカメラ制御で粗い軌道と細かな変化を両方見る、リファイナーで長尺動画の見た目と一貫性を補正する 3. 使いどころ: ゲーム、ロボット、仮想撮影、シミュレーションと相性がよい、ダンス動画ではカメラワークや空間維持が強みになりうる、現時点では公式実行導線の整備状況を確認してから試す
SANA-WMとは?NVIDIAの1分動画ワールドモデルを図解で理解する 資料 26-14QT 2026.05.18 ニュース・政策動向

まず結論: SANA-WMは「カメラを動かせる1分動画の世界モデル」

SANA-WMは、NVIDIA研究チームが発表した2.6Bパラメータのワールドモデルです。論文では、720pの高品質動画を最長1分生成し、6DoFのカメラ制御に対応するモデルとして説明されています。(arXiv)

ここで重要なのは、SANA-WMが単なる「動画生成AIの新作」ではないことです。普通の動画生成AIが「プロンプトから数秒の映像を作る」ものだとすると、SANA-WMはカメラが空間を移動したときに、世界がどう見えるかを長く保つ方向に寄っています。

ダンス動画で例えると、次の違いです。

観点一般的な動画生成AISANA-WMが狙う方向
主な強み短い印象的な映像を作る長い空間・視点移動を保つ
制御対象テキスト、画像、短い動き6DoFカメラ軌道、長尺の一貫性
ダンス動画で効く部分衣装、雰囲気、短い振付スタジオ空間、カメラワーク、長回し
注意点手足や顔が崩れることがある振付・音楽同期専用モデルではない

図解: SANA-WMの全体像

SANA-WMの入力、世界モデル、出力、ダンス動画で得意な部分と別途必要な部分
SANA-WMは、テキストや初期映像だけでなく、カメラ軌道を条件として受け取り、1分スケールの視点移動つき動画を作ることを狙う。

この図のポイントは、SANA-WMを「1回の動画生成ボタン」として見るより、空間・時間・視点をまとめて扱うモデルとして見ることです。

ワールドモデルとは何か

ワールドモデルとは、AIが「世界の構造」や「動いたときの見え方」を内部で予測するモデルです。

たとえば、カメラがダンサーの正面から横へ回り込むと、床の見え方、照明の反射、人物の輪郭、背景の位置関係が変わります。短い動画なら雰囲気でごまかせても、1分間続くと、背景が急に変わる、人物の位置が飛ぶ、カメラが意図と違う方向へずれる、といった破綻が目立ちます。

SANA-WMは、この長尺の破綻を抑えるために、最初からminute-scale、つまり1分スケールの生成を前提に設計されています。

技術的な見どころ

1. ハイブリッド線形注意で長い動画を扱う

動画が長くなるほど、モデルが参照すべき情報は増えます。単純に全フレームを細かく見ようとすると、メモリも計算量も大きくなります。

SANA-WMでは、論文上の中核設計としてHybrid Linear Attentionが挙げられています。フレーム単位のGated DeltaNetとsoftmax attentionを組み合わせ、長い文脈を効率よく扱う構成です。(arXiv)

ざっくり言えば、「長い流れは軽く覚え、必要なところだけ詳しく見る」ための仕組みです。

2. 6DoFカメラ制御に対応する

6DoFは、6 degrees of freedomの略です。カメラの動きを次の6方向で扱います。

種類内容
移動前後、左右、上下
回転横を向く、上下を向く、傾く

ダンス動画では、これはかなり重要です。固定カメラの正面ショットだけでなく、ダンサーの周囲を回る、低い位置から寄る、横移動しながら追う、といった映像演出に関係します。

ただし、SANA-WMのカメラ制御は「人物の骨格をこの通りに踊らせる」制御とは別です。カメラの動きと、身体の振付制御は分けて考える必要があります。

3. リファイナーで長尺動画を整える

論文では、SANA-WMは2段階の生成パイプラインを使うと説明されています。まず本体モデルが長い動画を生成し、その後に長尺動画向けのリファイナーで品質と一貫性を高めます。

動画生成でよく起きる問題は、1フレームだけ綺麗でも、前後につなぐとちらつくことです。リファイナーは、この細部やフレーム間のつながりを補正する役割です。

どれくらい効率が良いのか

論文では、SANA-WMは約21万3000本の公開動画クリップを使い、64基のH100 GPUで15日学習したとされています。また、60秒クリップを単一GPUで生成でき、蒸留済みモデルではRTX 5090とNVFP4量子化により、60秒720p動画のノイズ除去を34秒で実行できると説明されています。(arXiv)

この数字はかなり強い主張です。ただし、ここでいう34秒は生成工程の特定部分の処理時間であり、手元のPCで誰でも同じ条件を再現できる、という意味ではありません。実際に試す場合は、公開される重み、推論コード、GPUメモリ、量子化対応、依存ライブラリを確認する必要があります。

ダンス動画を作りたい人にとって何が嬉しいか

ダンス動画づくりでSANA-WMが効きそうなのは、主にカメラワークと空間の維持です。

たとえば、次のような映像です。

  1. ネオン照明のスタジオで、架空のダンサーを正面から撮る。
  2. カメラがゆっくり横へ回り込む。
  3. 途中で軽くプッシュインする。
  4. 最後に全身が見える位置で止まる。

このとき必要なのは、単に「踊っている人」を作ることだけではありません。床、壁、照明、カメラ位置、人物のサイズ感が長い時間で整合している必要があります。SANA-WMの方向性は、この問題に近いです。

一方で、ダンス動画で難しいのは次です。

難所なぜ難しいか
手足の正確な振付関節、指、接地、重心が崩れやすい
音楽との同期ビート、拍、動作タイミングの制御が必要
同じ人物の維持長尺になるほど顔や衣装が変わりやすい
激しい回転や高速動作モーションブラーや身体構造の破綻が出やすい

つまり、SANA-WMは「ダンス動画を一発で完璧に作る魔法」ではなく、長めのショットやカメラ移動を安定させるための基盤技術として見るのが現実的です。

いま試すなら何を見るべきか

2026年5月18日時点では、NVlabs/Sana GitHubにはSANA-WMのリリース告知があります。一方で、Getting Started欄ではSANA-WMがcoming soonとして扱われ、To-Do上でもSANA World Modelが未完了項目として残っています。(GitHub)

そのため、今すぐダンス動画を作りたい場合は、次の順番が現実的です。

  1. SANA-WMの公式デモで、どの程度カメラ移動と長尺一貫性が出るか確認する。
  2. 公式のコード、重み、推論手順が公開されたら、まず短尺・低解像度で試す。
  3. ダンス動画そのものは、既存の動画生成AIやimage-to-videoを使い、SANA-WMはカメラワークや空間維持の候補として追う。
  4. 振付を重視する場合は、ポーズ、モーション、参照動画を制御できるワークフローも併用する。

ダンス動画用のプロンプト例

SANA-WMや他の動画生成AIで試すなら、最初は欲張りすぎないほうが安定します。1本目は「1人、短い動き、明確なカメラ」に絞るのがよいです。

A fictional dancer performs an energetic street dance routine in a neon-lit studio.
The dancer is not based on any real person.
Action: two sharp hip-hop steps, a quick spin, then a confident final pose.
Camera: medium full-body shot, smooth side tracking, slight push-in at the end.
Lighting: colorful neon rim lights, clean cinematic contrast.
Style: polished music video look, high detail, natural motion.
Constraints: no logos, no text, no copyrighted characters, no real people, no existing song reference.

ポイントは、1ショットに1つの主動作と1つのカメラ移動に絞ることです。「長い振付、複数人、複雑な背景、激しいカメラ、音楽同期」を同時に入れると、失敗要因が増えます。

まとめ

SANA-WMは、動画生成AIの中でも「長さ」と「カメラ制御」に焦点を当てた重要な研究です。特に、1分スケールの動画を720pで生成し、6DoFカメラ軌道へ追従するという設計は、ゲーム、ロボット、仮想撮影、シミュレーションに近い発想です。

ダンス動画づくりでは、人物の振付そのものよりも、空間の一貫性、カメラワーク、長回しの安定化に価値が出やすいでしょう。現時点では公式実行環境の整備を待ちながら、短い動画生成ワークフローで構図とプロンプトを固めておくのが実用的です。

出典

Primary sources

一次情報・参考リンク

About the author
codeagent.jp編集部

Claude Code / Codex / MCP を個人開発サイト運用と公開MCPサーバー開発で試し、一次情報・検証ログ・失敗例をもとに整理します。

関連して読む