ByteDance「Seedance 2.0」公開、“デジタル監督”時代のAI動画生成が加速 video poster
ByteDanceが2026年2月9日(月)に公開したAI動画生成モデル「Seedance 2.0」が、テキストや画像から“映画のような複数シーン”を自動でつなぐ「デジタル監督」的な表現を目指すとして注目を集めています。一方で、顔画像だけから声の特徴が再現されうるという指摘もあり、利便性と安全性のバランスが改めて問われています。
Seedance 2.0で何ができる? 60秒で“マルチショット+音声”
公表された内容によると、Seedance 2.0はテキスト入力(プロンプト)や画像入力から、シネマティック(映画的)な動画を生成できます。特徴は、動画と音声を同時に生成できる点で、詳細なプロンプト、または1枚の画像のアップロードにより、約60秒でネイティブ音声付きのマルチショット(複数カット)映像を作れるとされています。
- テキスト/画像から動画を生成
- 動画と音声を同時に生成
- 単一プロンプトから複数の連続シーンを自動構成
“デジタルディレクター”としての強み:物語とカメラワーク
同モデルの中核機能として強調されているのが「シネマティック・ストーリーテリング」です。単発の短い動画を作るだけでなく、1つの指示から複数の場面を連結し、ひと続きのシーン展開を組み上げられるとされています。
中国本土の映画・動画チャンネル「Mediastorm」創業者の潘天鸿(Pan Tianhong)氏はレビューで、格闘シーン生成のテストにおいて、ショット構図に明確な変化が出てカメラアングルが頻繁に切り替わり、人間の監督がカメラを動かすような挙動に近いと述べました。
制作現場はどう変わる? 「生産能力の急増」という見立ても
ゲーム「Black Myth: Wukong」のプロデューサー、冯骥(Feng Ji)氏は、モデルの利用を踏まえ、将来的に動画コンテンツ産業の制作能力が前例のない規模で伸び、制作プロセス自体が再構築される可能性に言及しています。
撮影・編集・音付けといった工程が「分業で積み上げる」形から、「意図(プロンプト)を起点に一気通貫で試作する」形へ寄っていくのか。現場のワークフローをどう設計し直すかが、次の論点になりそうです。
一方で懸念も:顔画像だけで“声の特徴”が近づく指摘
注目が集まる一方で、悪用リスクや本人同意(同意のない生成)への懸念も示されています。潘氏はテストで、顔画像だけをアップロードし、プロンプトや音声素材を与えなかったにもかかわらず、自身の声の特徴に近い音声が生成されうると感じたと述べました。
映像生成が「見た目」だけでなく「声」まで一体で作れるようになるほど、なりすまし、誤認、同意の扱い、そして本人確認の設計が重要になります。
ByteDanceの対策:本人確認を条件に、実在人物の生成を制限
ByteDanceは不正利用を防ぐためとして、機能の一部を制限したと説明しています。具体的には、実在人物が登場する動画の生成は本人確認(identity verification)後のみ許可し、実在人物の画像や動画を参照素材として使うことは無効化したとしています。
中国本土で加速するAI動画生成:Kling AIも「映画的ストーリーテリング」
AI動画生成モデルの進化は中国本土で急速に進んでいます。入力情報によれば、Kling AIは2026年2月5日に3.0モデルシリーズを公開し、Seedance 2.0と同様に「シネマティック・ストーリーテリング」を中核機能として打ち出しました。
複数シーンの自動構成が“標準機能”になっていくと、私たちが目にする動画の作られ方、そして「誰が責任を持つのか」という設計も、より繊細な議論を必要としそうです。
今後の焦点は、表現力の競争だけでなく、実在人物の取り扱い(本人確認、同意、参照素材の制限など)をどこまで実装として徹底できるか。技術ができることが増えるほど、運用の細部がニュースになっていきます。
Reference(s):
AI models as 'digital directors'? Seedance 2.0 takes up the challenge
cgtn.com








