让林黛玉喝咖啡、马斯克拍合影!视频大模型Vidu首发新功能:确定人物形象,恣意生成场景

09-11 504阅读 1评论

让林黛玉喝咖啡、马斯克拍合影!视频大模型Vidu首发新功能:确定人物形象,恣意生成场景

用户上传恣意主体的相片,Vidu就能确定这一主体的形象,依据输入的描绘词恣意切换场景,输出主体一起的视频。主体可所以人物、动物、产品、动画人物、虚拟人物。

比方生成林黛玉在现代咖啡馆喝咖啡的视频:

让林黛玉喝咖啡、马斯克拍合影!视频大模型Vidu首发新功能:确定人物形象,恣意生成场景

而Vidu的「主体参照」功用不仅能坚持面部一起,也能坚持人物全体形象的高度一起,依据输入的文字描绘来灵敏输出方针场景,因而可以生成保存原图形象的林黛玉在现代场景中喝咖啡的视频,画面作用天然、实在,人物造型高度一起。

让林黛玉喝咖啡、马斯克拍合影!视频大模型Vidu首发新功能:确定人物形象,恣意生成场景

再比方上传这张马斯克的相片:

让林黛玉喝咖啡、马斯克拍合影!视频大模型Vidu首发新功能:确定人物形象,恣意生成场景

让林黛玉喝咖啡、马斯克拍合影!视频大模型Vidu首发新功能:确定人物形象,恣意生成场景

让林黛玉喝咖啡、马斯克拍合影!视频大模型Vidu首发新功能:确定人物形象,恣意生成场景

Vidu是全球首个支撑这项才能的视频大模型。「主体参照」功用可以完结对恣意主体的一起性生成,让视频生成愈加安稳、可控。该功用已面向用户免费敞开,注册即可体会。

体会地址: www.vidu.studio

本年4月底,由生数科技和清华大学联合研制的国内首个纯自研原创视频大模型Vidu面向全球发布。7月底正式上线后,Vidu凭仗在高动态性、准确语义了解、动漫风格、快速推理等方面的亮点,产品体现位列全球视频大模型的“榜首队伍”,并在TikTok等海外交际媒体渠道上掀起多种AI视频主题玩法的热潮,如“跨过时空的拥抱”等。

生数科技联合创始人兼CEO唐家渝说,简直全球做动漫视频都会首选Vidu,由于它在全体流通度、人体天然度等方面显着抢先,并且视频生成速度快,30秒内就能生成单个片段。

让林黛玉喝咖啡、马斯克拍合影!视频大模型Vidu首发新功能:确定人物形象,恣意生成场景

打造Vidu的生数科技成立于2023年3月,现在团队规划逾100人,已完结数亿元融资(最新揭露为Pre-A轮),出资方包括启明创投、北京人工智能工业出资基金、蚂蚁集团、百度、达泰本钱、BV百度风投、哈勃出资、锦秋基金等闻名组织。

今天生数科技还推出了协作伙伴方案,约请广告、影视、动漫、游戏等职业的组织参加,一起探究新的视频创造形式,在内容共创、技能支撑、商场拓宽等方面打开协作。

第一批协作伙伴包括高兴麻花、猫眼文娱、伟人网络、美克家居、融创文明、河南省非物质文明遗产维护和才智中心、李可柒画院等闻名企业与组织。

让林黛玉喝咖啡、马斯克拍合影!视频大模型Vidu首发新功能:确定人物形象,恣意生成场景

上传动物图片,Vidu相同能完结其在不同环境下、大幅运动状况中细节特征坚持一起。

让林黛玉喝咖啡、马斯克拍合影!视频大模型Vidu首发新功能:确定人物形象,恣意生成场景

以产品为主体,产品的外观和细节在不同场景中坚持高度一起。

让林黛玉喝咖啡、马斯克拍合影!视频大模型Vidu首发新功能:确定人物形象,恣意生成场景

针对动漫人物或许虚拟的主体等,Vidu相同可以坚持其高度一起。

让林黛玉喝咖啡、马斯克拍合影!视频大模型Vidu首发新功能:确定人物形象,恣意生成场景

让林黛玉喝咖啡、马斯克拍合影!视频大模型Vidu首发新功能:确定人物形象,恣意生成场景

此前视频大模型已有的「图生视频」、「人物一起性」等才能在生成作用上存在显着缺少,比方图生视频依据首帧画面的接连生成,无法直接输出方针场景,约束了视频内容的多样性和场景的自由度;人物一起性只限于人物面部特征的一起性,难以剧变人物全体形象的安稳。

比较之下,「主体参照」不局限于人物,面向恣意主体,在人物主体下可选择坚持面部一起,也可选择坚持人物全体形象的高度一起,经过输入文字描绘灵敏输出方针场景。

二、打破视频模型的局限性:可控性缺少

视频大模型遍及存在着一个中心问题——可控性缺少,或许叫一起性的缺少。

在实践视频创造中,视频内容往往环绕特定的目标打开,可所以人物或特定物体,这些目标在视频中的形象需求坚持接连一起。

现有的视频模型往往难以完结这一点,常常是主体在生成过程中简单崩坏。生成视频接连性弱,无法剧变每次生成视频时主题、场景、风格等的一起性,特别触及杂乱交互的情况下尤为显着。

此外,视频模型的输出成果有较大的随机性,需求不断生成测验,关于镜头运用、光影作用等细节的操控也不行精密准确。

所以现阶段的视频模型虽然在画面体现力、物理规则、想象力等方面获得必定打破,但可控性缺少约束了它们在创造连接、完好视频内容方面的使用。现在大多数的AI视频内容仍是依据独立视频资料的拼接,情节的连接性缺少。

为了处理这一问题,业界曾测验选用“先AI生图、再图生视频”的办法,经过AI绘图东西如Midjourney生成分镜头画面,先在图片层面坚持主体一起,然后再将这些画面转化为视频片段并进行编排组成。

这种方法的问题是,AI绘图的一起性并不完美,往往需求经过重复修正和部分重绘来处理。并且实践的视频制造过程中触及很多场景和镜头,在处理多组分镜头的场景时,生图的工作量巨大,能占到全流程的一半以上,终究视频内容也会由于过火依靠分镜头画面而缺少创造性和灵敏性。

让林黛玉喝咖啡、马斯克拍合影!视频大模型Vidu首发新功能:确定人物形象,恣意生成场景
▲动画短片《夏天的礼物》的视频片段动图

「主体参照」功用也在商业广告片方向展示了强壮的潜力。

广告片的一大关键在于要剧变多个镜头、不同场景下品牌物形象的一起性。Vidu「主体参照」功用可以很好的完结,例如在跑步鞋广告事例中,仅经过一张产品图,便完结了一切视频画面的生成,无论是不同视点、布景,仍是动态体现,跑步鞋的形象在整个视频中都坚持了高度一起。

让林黛玉喝咖啡、马斯克拍合影!视频大模型Vidu首发新功能:确定人物形象,恣意生成场景

据生数科技官方介绍,该视频仅一位人员花费6个小时完结,包括前期策划、资料生成,后期编排,结构30段AI视频资料的生成仅花费3个小时,整个流程仅参照一张产品图。

传统广告片制造高度依靠线下实拍和后期制造,时刻周期长、本钱投入大,但现在经过Vidu可以极大地节约广告制造的本钱,整个产出流程愈加高效,品牌方对新资料的开发也能愈加灵敏。

结语:“主体参照”代表着AI完好叙事的初步

此前Vidu牵手海内外头部艺术家已产出百部优秀著作,全渠道播放量破千万。面向专业创造范畴,Vidu正与AI艺术家们协作探究AI赋能下的全新创造形式。

比方与北京电影节AIGC短片单元最佳影片得主、Ainimate Lab协作打造的动画短片《一路向南》,画面质量挨近传统动画制造规范,但本钱仅为传统流程的1/40。

Ainimate Lab AI负责人陈刘芳说,该短片的创造团队仅由三人构成:一名导演、一名故事版艺术家和一名AIGC技能使用专家。Vidu大大缩短了制造周期并显着降低了本钱,制造周期约为1周。比较之下,传统流程需求20人,包括导演、美术、建模、灯火、烘托等不同“工种”,周期在1个月左右。

在唐家渝看来,「主体参照」这一全新功用的上线,代表着AI完好叙事的初步,AI视频创造也将迈向更高效、更灵敏的阶段。

无论是制造短视频、动画著作仍是广告片,在叙事的艺术中,一个完好的叙事系统是“主体一起、场景一起、风格一起”等要素的有机结合。

因而,视频模型要到达叙事的完好性,就必须在这些中心元素上完结全面可控。

“主体参照”功用是Vidu在一起性方面迈出的重要一步。接下来Vidu会持续探究怎么准确操控多主体交互、风格一致、多变场景安稳切换等杂乱元素,以满意更高层次的叙事需求。

久远来看,一旦完结了全面的可控性,视频创造职业将阅历一场颠覆性的革新。到时,人物、场景、风格,乃至镜头运用、光影作用等元素,都将转化为可灵敏调整的参数。用户只需求动动手指、调调参,就可以完结一部印象著作的创造,而每一个著作的背面,也将是用户依据AI构建出的共同世界观和自我表达。

文章版权声明:除非注明,否则均为ZBLOG原创文章,转载或复制请以超链接形式并注明出处。

发表评论

快捷回复: 表情:
评论列表 (有 1 条评论,504人围观)
网友昵称:厕所抓蛆
厕所抓蛆 V 游客 沙发
比较,「主体参照」功用摆脱了静态图片的捆绑,生成的画面更具感染力和自由度,让创造的连接性大大提高,还协助他节约7成左右的生图工作量,让他可以将更多精力放在故事内容的打磨上,而非生成图片资料上。再叠加上Vidu的杂乱动作处理才能和多元素的了解才能,他觉得Vidu就像是一位真人助理“动画师”在辅佐创造
09-12 回复