火山引擎丢出视频大模型「王炸」，云厂商从「价格战」回归「卷性能」

2024-09-29 08:52

极客公园

宛辰

不一定要抢第一，要推出成熟的产品，因为模型对未来10-20年影响长远，做好积累后发先至也是好事。

本文来自极客公园（www.geekpark.net），作者 | 宛辰。

更好的模型性能、更好用的模型服务，才能在产品上打开更多场景。

自今年2月Sora面世以来，很多人都期待字节的动作。拥有抖音和剪映这两个最强的视频App在手，字节的视频生成大模型，被寄予厚望。

这就来了。

9月24日，字节跳动旗下火山引擎在深圳举办AI创新巡展，一举发布了包括「豆包视频生成大模型」「音乐生成大模型」在内的多款模型。

在此之前，海内外不少现象级的同类模型产品相继发布，包括字节跳动相继发布的即梦、海绵音乐，和剪映（含CapCut）中的新功能。秘而不宣的海绵音乐App更是被视为最适合中文的音乐生成App、国内当之无愧的「Suno」。

字节为什么选择在多少有些「AI产品看麻了」的9月，推出这几款AI App背后的大模型引擎？

对此，火山引擎总裁谭待向极客公园表示，不是按照某个固定计划精心设计什么节点发布，AI模型进展日新月异，什么时候做好、适合对外就尽快发布。

这背后的逻辑是，火山引擎的定位是字节跳动的ToB云平台，模型对企业的开放由火山引擎来做，但推出产品前，需要先在内部使用，打磨到一定程度、做到企业级可用，才会向外推出。此前发布的豆包也是如此，先有字节内部推出的产品豆包App，再有今年5月由火山引擎推出企业级可用的豆包大模型。

他补充说：「不一定要抢第一，要推出成熟的产品，因为模型对未来10-20年影响长远，做好积累后发先至也是好事。」

而火山引擎未来十年要驶向的远方，并不是一个、两个模型比如视频生成模型的领先，而是「成为全球领先的云和AI服务商」。

01抖音和剪映加持，字节视频生成大模型更关注使用场景

视频生成大模型，成为整场发布会最大的亮点。

谭待表示，「因为视频特别难，我们一次性推出两个，充分解决视频里面的各种问题」。豆包家族新成员——豆包视频生成-PixelDance、豆包视频生成-Seaweed，正式面向企业市场开启邀测。

从现场展示来看，豆包视频模型可以根据文字和图片的输入，生成相应的视频。值得注意的是，字节跳动并没有公布其模型生成视频的最大时长，尽管后者被认为是体现技术能力的一大表现。

豆包视频生成大模型，更强调其在实际应用中、各种生活和商业场景所需的三个核心功能点。

首先是模型对复杂指令的理解遵循。以下图的视频为例，输入「特写⼀个⼥⼈的面部，有些⽣⽓，戴上了⼀副墨镜；这时⼀个男⼈从画⾯右侧⾛进来抱住了她」。

在这个相对复杂的描述下，豆包模型生成的视频呈现出了一个人情绪的变化、动作前后时间的变化，还出现了一个新的人物，这个新的人物跟原来的人物也有交互。换言之，豆包视频大模型能够根据指令实现时序性上有连续的动作指令，并且可以生成多个主体，并且让多个主体间进行交互。

豆包视频模型的第二个特点在于运镜，⾖包视频模型让视频在主体的⼤动态与镜头中进行切换，拥有变焦、环绕、平摇、缩放、⽬标跟随等多镜头语⾔的实现。

生成的视频可以灵活控制视⻆，更接近真实世界的体验｜视频来源：字节跳动

第三个特点则是⼀致性多镜头。在AI生成的视频中，如何保证多镜头来回切时，不同主体在来回切换中的镜头是一致的，这也是当前行业的共性难点。

豆包在一个prompt下生成的视频，可以实现多个镜头切换，同时保持主体、⻛格、氛围的⼀致性。｜来源：字节跳动

在谈及豆包视频生成大模型的特点时，谭待表示，豆包视频大模型背后有两方面优势，一是技术突破和全栈能力等优势，在技术上，字节在这两款视频模型上做了大量技术创新，比如通过⾼效的DiT融合计算单元、全新设计的扩散模型训练⽅法和深度优化后的Transformer结构，让整个⽣成视频的动作更灵动、镜头更多样、细节更丰满。

同时抖音、剪映对视频的理解也是优势。「剪映对视频的理解、对豆包视频生成模型有帮助，指令遵循做得好也离不开语言模型，豆包是全体系模型，底层有基座模型有助于更好地理解指令。」

在深入到视频场景的解决方案上，豆包视频模型支持不同题材类型，⽀持包括⿊⽩、3d动画、2d动画、国画、⽔彩、⽔粉等多种⻛格，包含支持1:1，3:4，4:3，16:9，9:16，21:9等多个比例，对应于电影、电视、电脑、手机等多个商业场景。

⾖包视频⽣成模型通过整个模型能把商品快速3D，而且动态多⻆度展⽰，还能配合不同的节日，比如中秋、七夕、春节等节点快速替换背景和⻛格，⽣成不同尺⼨的内容发布到不同平台上，最终适合整体营销的战略完成。

在更聚焦的场景上，豆包视频模型也推出了更适配的解决方案，⽐如电商营销场景，可以让用户根据商品生成大量的配合营销节点的视频素材，并且适配不同媒体平台的不同尺⼨发布。

在视频发布环节，还有一个彩蛋，火山引擎带来了内部——剪映和即梦如何使用视频⽣成模型的实践案例。从抖音转战剪映CapCut的张楠（Kelly）通过数字分身Kelly的形式亮相。

在该数字人视频中，Kelly数字分身的动作像真人一样自然，口型也可以与各国的不同语言完全适配。

这个案例也向外界展示了豆包视频大模型在场景上带来的新可能，比如自媒体、口播、营销、带货、企业培训等，不必亲自上阵进行拍摄，内容制作成本也可以大幅降低。

据悉，豆包视频模型不是期货，最新模型会在国庆节后上线到火山引擎方舟平台，即梦最新内测版已经使用了豆包视频生成模型-Seawe。

至于定价问题，谭待表示还没确定。他称「视频模型和语言模型应用场景不同，定价逻辑也不同。要考虑新体验-老体验-迁移成本，最终能否广泛应用取决于是否比以前生产力ROI提升很多。」

02从「卷」价格，回到「卷」性能

与视频大模型一同发布的，还有音乐大模型、同声传译大模型，和豆包主力模型的新升级。就像豆包视频模型的效果让人眼前一亮，上述模型产品也均有亮眼的性能提升。

这一系列新升级也反应了，火山引擎开始从「卷价格」到「卷性能」的转变，后者将会成为其下一阶段的战略重点。会后接受采访时，火山引擎总裁谭待重申了这一立场，他表示：「大模型的应用成本已经得到很好解决。大模型要从卷价格走向卷性能、卷更好的模型能力和服务」。

早在今年5月，火山引擎推出的豆包大模型把价格降至最低每千token低于一厘钱，引发了大模型厂商的价格战。从那以来，模型厂商的整体模型调用量均出现了大幅提升。

据火山引擎披露，截至9月，豆包语言模型的日均tokens使用量超过1.3万亿，相比5月首次发布时增长超十倍，多模态数据处理量也分别达到每天5000万张图片和85万小时语音。

尽管如此，模型性能掣肘成为了模型调用量进一步提升的瓶颈，同时也是机会。谭待举例称，业内多家大模型目前最高仅支持300K甚至100K的TPM（每分钟token数），难以承载企业生产环境流量。例如某科研机构的文献翻译场景，TPM峰值为360K，某汽车智能座舱的TPM峰值为420K，某AI教育公司的TPM峰值更是达到630K。为此，豆包大模型默认支持800K的初始TPM，超行业平均水平，客户还可根据需求灵活扩容。

此前MiniMax创始人闫俊杰向极客公园表示，从技术发展的角度看，模型推理成本10倍、百倍的降低是必然，只是时间问题，难的是通用模型的性能提升。

在看到从ChatGPT到GPT-4，性能出现了大幅提升时，大模型领域也沿着OpenAI在模型预训练上做Scaling Law，旨在用更多的数据、加更多的算力、提升模型参数量的做法来提升模型性能。随着这一路径的效率降低、优质数据耗尽的担忧，通过这一方法提升性能的路径陷入瓶颈。

现在，随着o1的出现，大模型在推理阶段引入强化学习的路径，带来了进一步提升模型性能的明确路径。

同时，随着更多企业在AI应用上的探索，也为模型性能的定向提升带来了很多工程调优手段。更好的模型性能、更好用的模型服务，才能在产品上打开更多场景，而这也将成为包括火山引擎在内的AI基础设施服务商们下一阶段的重点。

THEEND

免责声明：凡注明为其它来源的信息均转自其它平台，由网友自主投稿和发布、编辑整理上传，对此类作品本站仅提供交流平台，不为其版权负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。若有来源标注错误或侵犯了您的合法权益，请作者持权属证明与本站联系，我们将及时更正、删除，谢谢。联系邮箱：xiali@infoobs.com

本月热门

精选文章

热点资讯

工信部五所与深信服联合发布《2024上半年网络安全漏洞态势报告》

火山引擎丢出视频大模型「王炸」，云厂商从「价格战」回归「卷性能」

2025 信息化观察网

长按扫描二维码阅读原文