让林黛玉喝咖啡、马斯克拍合影！视频大模型Vidu首发新功能：确定人物形象，恣意生成场景

09-11 504阅读 1评论

用户上传恣意主体的相片，Vidu就能确定这一主体的形象，依据输入的描绘词恣意切换场景，输出主体一起的视频。主体可所以人物、动物、产品、动画人物、虚拟人物。

比方生成林黛玉在现代咖啡馆喝咖啡的视频：

而Vidu的「主体参照」功用不仅能坚持面部一起，也能坚持人物全体形象的高度一起，依据输入的文字描绘来灵敏输出方针场景，因而可以生成保存原图形象的林黛玉在现代场景中喝咖啡的视频，画面作用天然、实在，人物造型高度一起。

再比方上传这张马斯克的相片：

Vidu是全球首个支撑这项才能的视频大模型。「主体参照」功用可以完结对恣意主体的一起性生成，让视频生成愈加安稳、可控。该功用已面向用户免费敞开，注册即可体会。

体会地址: www.vidu.studio

本年4月底，由生数科技和清华大学联合研制的国内首个纯自研原创视频大模型Vidu面向全球发布。7月底正式上线后，Vidu凭仗在高动态性、准确语义了解、动漫风格、快速推理等方面的亮点，产品体现位列全球视频大模型的“榜首队伍”，并在TikTok等海外交际媒体渠道上掀起多种AI视频主题玩法的热潮，如“跨过时空的拥抱”等。

生数科技联合创始人兼CEO唐家渝说，简直全球做动漫视频都会首选Vidu，由于它在全体流通度、人体天然度等方面显着抢先，并且视频生成速度快，30秒内就能生成单个片段。

打造Vidu的生数科技成立于2023年3月，现在团队规划逾100人，已完结数亿元融资（最新揭露为Pre-A轮），出资方包括启明创投、北京人工智能工业出资基金、蚂蚁集团、百度、达泰本钱、BV百度风投、哈勃出资、锦秋基金等闻名组织。

今天生数科技还推出了协作伙伴方案，约请广告、影视、动漫、游戏等职业的组织参加，一起探究新的视频创造形式，在内容共创、技能支撑、商场拓宽等方面打开协作。

第一批协作伙伴包括高兴麻花、猫眼文娱、伟人网络、美克家居、融创文明、河南省非物质文明遗产维护和才智中心、李可柒画院等闻名企业与组织。

上传动物图片，Vidu相同能完结其在不同环境下、大幅运动状况中细节特征坚持一起。

以产品为主体，产品的外观和细节在不同场景中坚持高度一起。

针对动漫人物或许虚拟的主体等，Vidu相同可以坚持其高度一起。

此前视频大模型已有的「图生视频」、「人物一起性」等才能在生成作用上存在显着缺少，比方图生视频依据首帧画面的接连生成，无法直接输出方针场景，约束了视频内容的多样性和场景的自由度；人物一起性只限于人物面部特征的一起性，难以剧变人物全体形象的安稳。

比较之下，「主体参照」不局限于人物，面向恣意主体，在人物主体下可选择坚持面部一起，也可选择坚持人物全体形象的高度一起，经过输入文字描绘灵敏输出方针场景。

二、打破视频模型的局限性：可控性缺少

视频大模型遍及存在着一个中心问题——可控性缺少，或许叫一起性的缺少。

在实践视频创造中，视频内容往往环绕特定的目标打开，可所以人物或特定物体，这些目标在视频中的形象需求坚持接连一起。

现有的视频模型往往难以完结这一点，常常是主体在生成过程中简单崩坏。生成视频接连性弱，无法剧变每次生成视频时主题、场景、风格等的一起性，特别触及杂乱交互的情况下尤为显着。

此外，视频模型的输出成果有较大的随机性，需求不断生成测验，关于镜头运用、光影作用等细节的操控也不行精密准确。

所以现阶段的视频模型虽然在画面体现力、物理规则、想象力等方面获得必定打破，但可控性缺少约束了它们在创造连接、完好视频内容方面的使用。现在大多数的AI视频内容仍是依据独立视频资料的拼接，情节的连接性缺少。

为了处理这一问题，业界曾测验选用“先AI生图、再图生视频”的办法，经过AI绘图东西如Midjourney生成分镜头画面，先在图片层面坚持主体一起，然后再将这些画面转化为视频片段并进行编排组成。

这种方法的问题是，AI绘图的一起性并不完美，往往需求经过重复修正和部分重绘来处理。并且实践的视频制造过程中触及很多场景和镜头，在处理多组分镜头的场景时，生图的工作量巨大，能占到全流程的一半以上，终究视频内容也会由于过火依靠分镜头画面而缺少创造性和灵敏性。

▲动画短片《夏天的礼物》的视频片段动图

「主体参照」功用也在商业广告片方向展示了强壮的潜力。

广告片的一大关键在于要剧变多个镜头、不同场景下品牌物形象的一起性。Vidu「主体参照」功用可以很好的完结，例如在跑步鞋广告事例中，仅经过一张产品图，便完结了一切视频画面的生成，无论是不同视点、布景，仍是动态体现，跑步鞋的形象在整个视频中都坚持了高度一起。

据生数科技官方介绍，该视频仅一位人员花费6个小时完结，包括前期策划、资料生成，后期编排，结构30段AI视频资料的生成仅花费3个小时，整个流程仅参照一张产品图。

传统广告片制造高度依靠线下实拍和后期制造，时刻周期长、本钱投入大，但现在经过Vidu可以极大地节约广告制造的本钱，整个产出流程愈加高效，品牌方对新资料的开发也能愈加灵敏。

结语：“主体参照”代表着AI完好叙事的初步

此前Vidu牵手海内外头部艺术家已产出百部优秀著作，全渠道播放量破千万。面向专业创造范畴，Vidu正与AI艺术家们协作探究AI赋能下的全新创造形式。

比方与北京电影节AIGC短片单元最佳影片得主、Ainimate Lab协作打造的动画短片《一路向南》，画面质量挨近传统动画制造规范，但本钱仅为传统流程的1/40。

Ainimate Lab AI负责人陈刘芳说，该短片的创造团队仅由三人构成：一名导演、一名故事版艺术家和一名AIGC技能使用专家。Vidu大大缩短了制造周期并显着降低了本钱，制造周期约为1周。比较之下，传统流程需求20人，包括导演、美术、建模、灯火、烘托等不同“工种”，周期在1个月左右。

在唐家渝看来，「主体参照」这一全新功用的上线，代表着AI完好叙事的初步，AI视频创造也将迈向更高效、更灵敏的阶段。

无论是制造短视频、动画著作仍是广告片，在叙事的艺术中，一个完好的叙事系统是“主体一起、场景一起、风格一起”等要素的有机结合。

因而，视频模型要到达叙事的完好性，就必须在这些中心元素上完结全面可控。

“主体参照”功用是Vidu在一起性方面迈出的重要一步。接下来Vidu会持续探究怎么准确操控多主体交互、风格一致、多变场景安稳切换等杂乱元素，以满意更高层次的叙事需求。

久远来看，一旦完结了全面的可控性，视频创造职业将阅历一场颠覆性的革新。到时，人物、场景、风格，乃至镜头运用、光影作用等元素，都将转化为可灵敏调整的参数。用户只需求动动手指、调调参，就可以完结一部印象著作的创造，而每一个著作的背面，也将是用户依据AI构建出的共同世界观和自我表达。

让林黛玉喝咖啡、马斯克拍合影！视频大模型Vidu首发新功能：确定人物形象，恣意生成场景

相关阅读

美国枪击事件频发造成多人死伤

泉州市未成年人心理健康辅导“公益九月”主题活动（惠安专场）启动

《黑神话：悟空》新Mod来袭！明叶化身天命人角色

能学到几成🤔王治郅一对一训练周琦经典梦幻脚步再现

发表评论取消回复