文章作者、来源:东西文娱 4月初,Netflix在Hugging Face上发布了其首个开源AI模型——VOID(全称Video Object and Interaction Deletion,视频物件与互动删除),以Apache 2.0许可证发布,意味着任何人都可以免费使用,甚至用于商业用途。 正如Ben Affle文章作者、来源:东西文娱 4月初,Netflix在Hugging Face上发布了其首个开源AI模型——VOID(全称Video Object and Interaction Deletion,视频物件与互动删除),以Apache 2.0许可证发布,意味着任何人都可以免费使用,甚至用于商业用途。 正如Ben Affle

Netflix首次开源AI视频模型,流媒体掀起AI竞赛

2026/04/14 09:44
阅读时长 14 分钟
如需对本内容提供反馈或相关疑问,请通过邮箱 crypto.news@mexc.com 联系我们。

文章作者、来源:东西文娱

4月初,Netflix在Hugging Face上发布了其首个开源AI模型——VOID(全称Video Object and Interaction Deletion,视频物件与互动删除),以Apache 2.0许可证发布,意味着任何人都可以免费使用,甚至用于商业用途。

正如Ben Affleck在其创立的InterPositive被Netflix收购时所说,这“不是关于文字提示或从无到有地生成什么”,而是基于已拍摄的素材,让电影人拥有更多后期控制力。VOID延续的正是同一逻辑,或将改写后期制作的经济模型。

在内部盲测中,一项涵盖25名参与者、横跨多种场景的调查显示,VOID以64.8%的偏好率胜出,遥遥领先于排名第二的Runway(仅18.4%)。这标志着Netflix正式在AI视频赛道上亮牌。

VOID是什么?

后期制作的经济模型正在被改写

传统视频后期有一个公开的秘密:从画面中移除一个物体很容易,但让整个场景看起来好像那个东西从来就不存在——这件事难到令人发指。把一个抱着吉他的人移走,你会得到一把悬浮在半空中、违背重力的吉他。好莱坞视效团队为修复这类问题,往往要花上好几周。

VOID要解决的正是这个痛点。与现有视频修补工具仅修正阴影和反射等视觉伪影不同,VOID能理解物理因果关系——如果你移除一个抱着物件的人,那个物件会在输出视频中自然落地。

这种“理解物理”的能力,源于VOID的核心创新——Quadmask(四值掩码)系统。它摒弃了传统的“移除/保留”二元掩码,改用一个四层级掩码,将画面区域划分为移除区、过渡区、受影响区和保留区。

通俗地说,Quadmask不仅告诉AI“擦什么”,还告诉它“擦完之后,剩下的东西该怎么动”——为扩散模型提供了模拟物理因果关系所需的深层情境意识。

此外,VOID采用两阶段推理流程来解决视频扩散模型的一个已知弱点——物体变形伪影。第一阶段可处理大多数视频;第二阶段专门利用第一阶段输出的光流翘曲潜变量作为初始化,进行二次扩散运算来修复残留瑕疵。

论文展示了几个令人印象深刻的案例。在两车对撞的视频中,VOID可以移除其中一辆车,生成剩余车辆继续沿公路行驶的画面,碰撞后的碎片、烟雾和火焰全部被替换为干净的路面;移除一个跳入泳池的人后,输出的视频里泳池水面波澜不惊。气球在持有者被移除后会自然上升,积木在不相关积木被移除后仍保持稳定。通常情况下,人的触碰一旦消失,物体就会发生变形,而VOID正是为解决这一问题而生。

理解VOID的价值,需要先了解一个成本现实:一场戏拍完后发现画面里有不该出现的物件——穿帮、道具失误、临时改剧情——传统方案要么是昂贵的重拍,要么是耗时数周的手工VFX修复。VOID提供了第三条路:在后期直接移除物体,并让AI自动重建符合物理规律的场景。对中等预算项目而言,这意味着数周的VFX工时和六位数的重拍成本可以被大幅压缩。

VOID的底层视频扩散模型构建于阿里巴巴PAI出品的CogVideoX-Fun-V1.5-5b-InP之上,这是一个50亿参数的3D Transformer视频生成模型;Google的Gemini负责分析场景以识别受删除操作影响的区域;Meta的SAM2负责分割要移除的物体。训练采用来自Adobe Research的HUMOTO(人-物体交互)数据集和Google Kubric的合成反事实数据,在8块A100 80GB GPU上使用DeepSpeed ZeRO Stage 2完成。

该项目由Netflix和保加利亚索菲亚大学INSAIT的研究人员联合发布。值得注意的是,VOID以Apache 2.0许可证在Hugging Face上托管,可用于商业用途,但运行模型需要40GB以上显存的GPU。

这意味着它暂时还不是一个“人人可用”的消费级工具,但对于专业影视制作机构和独立VFX工作室而言,获取好莱坞级别后期能力的门槛已经大幅降低——这一模式类似于2022年Stable Diffusion对图像编辑领域的成本颠覆。对制作公司、广告机构和企业视频领域来说,后期制作的经济模型正在被改写。

VOID为何开源?

参与定义未来影视产业AI工具的技术标准

一个值得深思的问题是:Netflix为什么选择以Apache 2.0许可对全世界开放?这一策略与Netflix近期对InterPositive采取的完全收购形成鲜明对比。

开源VOID,更像是Netflix仿效Meta等科技巨头的战略——通过释出强大的基础研究工具,在学术和开发者社群中建立声誉和影响力,实质上参与定义未来影视产业AI工具的技术标准。

VOID作为一篇学术论文和开源项目的对象(值得注意的是,该论文尚未经过同行评审,目前仍是预印本),使其天然成为行业讨论和技术迭代的基准点。

Netflix目前尚未宣布将该模型整合到现有产品或制作流程中的计划。此前InterPositive的电影人专属工具、Eyeline的虚拟制作流水线——则被Netflix牢牢握在自己手中。

这套“开源基础研究、锁死核心工具”的双轨策略,折射出Netflix对AI工具生态的深思熟虑:用VOID争夺行业标准话语权,用InterPositive和Eyeline构建不可替代的竞争壁垒。

Netflix首席产品和技术官Elizabeth Stone在宣布收购InterPositive时说得直白:“InterPositive团队加入Netflix,是因为我们共同相信创新应该赋能故事讲述者,而不是取代他们。”

回望Netflix的AI应用轨迹,从一个帮你挑DVD的Cinematch算法,到一款可以重写视频物理定律的开源模型,这条线勾勒出的不仅是一家流媒体公司的技术进化,更是整个好莱坞权力格局重构的缩影。

对影视公司而言,VOID意味着更少的重拍成本、更快的制作周期和更大的创作灵活性。对好莱坞之外的创作者而言,高质量视觉叙事的门槛将大幅降低。

流媒体AI竞赛加速,奈飞的AI布局节奏

多年来,机器学习和人工智能一直在为Netflix的内容推荐以及制作和推广技术提供支持。

Netflix的生成式AI应用在2025年迎来里程碑。阿根廷科幻剧集《永恒者》(El Eternauta)是第一部将AI生成的"最终像素"画面整合到高预算制作中的重大作品。利用一系列自研和第三方AI工具,制作团队实现了复杂视觉特效生产时间的十倍缩减。(相关阅读:市值上5000亿美元后,Netflix“大方”公开原创剧用生成式AI,制作提速10倍)

Netflix联席CEO Ted Sarandos在2025年第二季度财报电话会议上提及该项目,称其为首个使用生成式AI的Netflix全球作品。不过值得注意的是,专业VFX社区对此存在争议,部分从业者批评其绕过了传统质控环节,质疑最终输出的质量标准。

2025年10月,Netflix将旗下Scanline VFX和Eyeline Studios统一为Eyeline品牌,下设三个核心部门——Visual Effects(视觉特效)、Studios(虚拟制作)和Labs(前沿研究)。

其中Eyeline Labs致力于推动生成式AI视频的极限,已产出一系列前沿成果,包括CVPR 2025口头报告论文“Go-with-the-Flow”(运动可控视频扩散模型)和用于面部重新打光的DifFRelight框架。正如Eyeline CEO Jeffrey Shapiro所说:“将Scanline VFX和Eyeline Studios合并在一个品牌之下,使得我们能够开创新工具、促进创意协作、引领未来电影制作方向。”

今年3月,Netflix买下了Ben Affleck创立的AI电影制作工具初创公司InterPositive。据报道,知名导演David Fincher已经在一部Brad Pitt主演的即将上映的项目中使用了InterPositive的工具——该片几乎可以确认就是Netflix签约发行的《The Adventures of Cliff Booth》,由Fincher执导,Pitt重新扮演《好莱坞往事》中的Cliff Booth,已于2026年1月15日杀青。

随着流媒体竞争的加剧,各大公司都在加大技术投入,以控制成本、支持全球增长并实现服务差异化。Netflix大力发展人工智能相关应用和本地化工具,正契合了这一背景,并将技术与其核心内容引擎更紧密地结合起来。

随着时间的推移,关键问题在于这些能力将如何影响Netflix的成本结构、内容发布节奏以及为全球观众提供个性化体验的能力。

对Netflix而言,此前收购AI制作公司和InterPositive,似乎是为了将更多内容制作环节收归己有,并将其与AI驱动的工具直接连接起来。这一点至关重要,因为Netflix已经在字幕、推荐和广告创意方面依赖AI,而这些收购将这种逻辑扩展到剧本开发、后期制作、视觉特效等领域。

理论上,对这些工具更严格的控制可以使Netflix在不同地区拥有更一致的工作流程,加快剧集和电影的制作周期,并更好地将资源用于直播活动、体育赛事和特许经营等项目上。

免责声明: 本网站转载的文章均来源于公开平台,仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利,请联系 crypto.news@mexc.com 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证,并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考,不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。

USD1 Genesis:0 费率 + 12% APR

USD1 Genesis:0 费率 + 12% APRUSD1 Genesis:0 费率 + 12% APR

新用户:质押最高享 600% APR。限时福利!