
Photo by Image 2.0
©有界UnKnown原创作者丨山茶编辑|钱江
最近肯定很多人都看过这样一段视频。
一个体育比赛的转播画面,一个充满魅力的女性,她坐在观众席上,转播镜头刚好对准她,然后一个很经典的电视转播画面就出现了。
这些当然都不是真实发生的,而是AI生成的内容。
怎么样,是不是一眼就觉得,这些AI视频,和之前那些AI味儿很浓的视频完全不一样?
这是因为,这些视频都是先用Image2.0生成图片,然后再用图片完成视频生成的。
作为OpenAI最新一代视觉生成模型,Image2.0是引入了thinking mode(就是推理模式),可以把推理、工具使用、实时网页搜索和图像生成结合起来,让AI能够把一个粗略需求,转化成一个完整的、经过思考的视觉结果。
能力上,Image2.0甚至超越了之前火遍全网的Nano Banana。
官方列出的能力包括高保真写实、自然光照、准确材质、丰富色彩、人物与身份保持、多步骤编辑,以及更可靠的图中文字渲染。
这意味着,Image2.0可以更胜任在广告、设计、漫画、信息图、角色设定、产品视觉这些真实工作流里的素材生产工具。
当然,仅仅只是图片生成,还没有办法把视频做到如此逼真。
图片生成之后,更关键的,就是找到一个合适的视频生成工具,把图片变成视频。
文章开头两个视频,是我们用ViduQ3生成的。
在目前国内的AI视频生成工具中,我们选择的是ViduQ3,原因主要有4个:
第一是,它能接住Image2.0的画面质感。
Image2.0已经把人物、光线、构图、材质这些东西做得很真实了,后面的视频模型不能把它毁掉。
而ViduQ3的图生视频和参考生视频能力行业领先,参考生能力在superclue榜单位列第一。可以保障把图片变成视频的过程中保持角色、画面风格和镜头氛围的一致性。

第二是ViduQ3生成的结果更接近“成片”。
现在很多图生视频工具,生成的画面就像一张动图。而ViduQ3更强调镜头、运镜、转场、光影、粒子、流体、运动学这些影视化效果,可以让最后出来的东西更像一个影视片段。
第三就是,它突出的声音能力。
ViduQ3支持最长16秒音视频直出,Voice同步、支持对口型,也能通过Prompt精准控制BGM、音效和背景声,这就直接决定了生成的视频更加真实。
要知道,真实感不只是画面决定的,声音、环境音、节奏也会影响观感。尤其是这类转播感、街拍感、短剧感的视频,如果声音是后期硬贴上去的,就很容易露馅。
最后,也是最重要的一点,就是它“快”。
ViduQ3 Turbo生成10秒1080P的视频,最快大概只需要80~150秒,这与其他模型相比要快不少。这在AI短剧、漫剧这些需要批量制作的场景下,效率优势就非常明显了。

▲图片由Image2生成
哦,对了!
最关键的一点,现在Vidu生图功能已经集成Image2,这意味着不用再去ChatGPT生图再回来做视频,而是可以在Vidu直接调用Image2模型。

两个工具打通,所有创作流程在一个平台完成,整体更顺畅、方便。
而有了Image2.0+ViduQ3之后,能做的事情就很多了。
比如,我们可以随时随地跳一场街舞。
只需要先用Image2生成一个人物在跳舞时,不同角度和姿势的参考图。然后把生成的图片给到ViduQ3,输入简单的跳舞提示词,就可以得到一段这样的视频:
提示词:参考图中的年轻亚洲女性为主角,保持人物五官、发型、气质和黑色穿搭一致。场景设定在现代舞蹈室,木质地板、整面镜墙、灰色墙面、顶部轨道灯,空间干净高级,有真实练舞房氛围。镜头从中景开始,女生站在舞蹈室中央,穿黑色不对称修身上衣、宽松黑色高腰长裤、黑色西装外套和黑白运动鞋,头发高高盘起,几缕碎发自然垂落。她先以冷静自信的姿态站定,随后音乐节奏响起,开始跳一段帅气有力的街舞。动作风格偏hip-hop/urban dance,力量感强,节奏清晰,包括肩部律动、胸部pop、手臂hit、快速转身、低身位footwork、身体wave、甩头、外套随动作摆动。动作要干净利落,不要软绵绵,表现出强烈的控制力、爆发力和酷感。镜头语言要像高质量舞蹈MV:先是正面中景跟拍,然后切换到低角度推近,突出腿部步伐和身体力量;中段绕拍半圈,捕捉她转身、甩发和外套飞起的瞬间;最后回到正面,她完成一个有力量的定格pose,眼神直视镜头,气场强。 画面要求:真实感、电影感、高清细节、自然肤质、服装材质清晰、舞蹈动作流畅,人物比例准确,手指和四肢不要变形。整体色调高级冷灰,木地板带暖色反光,镜墙中有自然反射,灯光柔和但有层次。 16:9 横版构图,4K,cinematic lighting,realistic dance studio,dynamic camera movement,smooth motion,powerful street dance choreography。
或者,在你追剧时看到剧情里的角色犯蠢的时候,直接走进剧里,上手改写剧情,爽一把。
比如穿越到《权力的游戏》里,给乔弗里一个大逼兜:
提示词:在中世纪奇幻宫廷场景中,乔弗里正站在人群前,神情傲慢。图2中的年轻亚洲女性身穿符合宫廷氛围的古风服装,从画面外径直走向乔弗里,来到他面前后,干脆利落地扇了他巴掌。短暂停顿一下后,她再次迅速连续扇了他两巴掌。乔弗里被打得震惊错愕,周围人物也露出吃惊反应。三巴掌打完后,女生冷静转身,头也不回地离开。整体为写实真人影视风格,史诗奇幻宫廷剧质感,动作连贯,情绪有张力,16:9。
或者你也可以暂时替代主演,自己上去演一段,就像和猪八戒一起去偷个西瓜:
提示词:请使用图1和图2作为人物参考。图1中的猪八戒是主要角色,保留他经典的古装造型、猪脸特征、头饰、服装风格和乡野场景气质;图2中的女性角色为一位年轻亚洲女性,保留她精致的五官、黑色盘发、现代感气质,并将她的服装自然调整为符合古装乡野环境的简洁古风装束。视频内容:在一片夏日乡村西瓜地旁,图1中的猪八戒鬼鬼祟祟地走在前面,左顾右盼,准备去偷西瓜。图2中的年轻亚洲女性悄悄跟在猪八戒身后,动作轻轻的,神情带着紧张和好奇,像是在偷偷参与这场`偷瓜行动`。两人一前一后穿过田间小路,慢慢接近西瓜地。猪八戒不时回头示意她小声一点,然后弯下腰,小心翼翼地靠近地里的西瓜。女性角色也跟着蹲下,配合猪八戒一起偷西瓜,整个过程带有一点喜剧感和偷偷摸摸的趣味感。画面风格:写实风格,真人影视感,中国古装神话电视剧质感,乡村田园场景,自然日光,镜头自然流畅,人物动作连贯。整体氛围轻松、幽默、带一点做坏事时的紧张感。中景跟拍+轻微手持感,镜头缓慢推进,保证人物始终清晰,动作自然,表情生动。重点突出`猪八戒在前带路,女性在后跟随,两人一起偷偷去偷西瓜`的情节。
或者跟孙悟空和沙僧一起吃个人参果:
提示词:请使用图1和图2作为人物参考。图1中的两位经典神话人物保留原有的古装电视剧造型、服饰、发饰、面部特征和复古影视气质;图2中的女性角色保留精致的亚洲女性五官、盘发造型和整体气质,同时将服装自然调整为符合古代神话场景的古风装束,使她能够自然融入画面。视频内容:在一处古风室内场景中,图1中的两位角色并排坐着,正在偷偷品尝`人生果`,动作小心又投入,带一点偷吃时的满足感和喜剧感。图2中的女性坐在他们旁边,和他们靠得比较近,也一起吃人生果。她一边好奇地观察他们,一边轻轻拿起人生果,小口品尝,神情自然,带一点新鲜、好奇和开心。三人同框,氛围轻松有趣,像是一起分享秘密美食。画面中,三个人的互动自然协调,女性不是站在远处旁观,而是真正坐在他们旁边,融入他们之间,一起吃人生果。可以加入轻微的对视、偷笑、满足的表情,让整体更有生活感和喜剧感。画面风格:写实真人风格,带有中国经典古装神话电视剧的质感,暖色调室内光线,复古布景,人物动作自然细腻。镜头以中景固定镜头或缓慢推进为主,画面稳定,重点突出`三个人坐在一起吃人生果`的情节。整体氛围轻松、幽默、温暖,带一点偷偷吃东西的趣味感。
当然,正像前面所说,Image2.0+ViduQ3这对王炸组合,更大的用武之地还是在AI短剧和AI漫剧上。
我们根据英国作家萨基(Saki,本名H.H.Munro)的著名短篇小说《敞开的窗户》做了一个简单的Demo。
仍然是先用Image2.0生成关键图片,然后再用ViduQ3生成音画同步的视频。
先给大家看看效果:
怎么样,方法是不是很简单?效果是不是也不错?你也赶紧去试试吧!
- END -