月之暗面Kimi火了!凭什么访问量增速吊打百度阿里?

当ICT出现新风口的时候,就会有“网红”公司。在AI领域,前有“四小龙”(商汤、旷视、云从、依图),现在AI大模型成为舆论主流,于是,媒体话语里又出现了“大模型四小虎”(百川智能、Minimax、智谱AI、月之暗面)。

本文来自ICT茶馆。

当ICT出现新风口的时候,就会有“网红”公司。在AI领域,前有“四小龙”(商汤、旷视、云从、依图),现在AI大模型成为舆论主流,于是,媒体话语里又出现了“大模型四小虎”(百川智能、Minimax、智谱AI、月之暗面)。

近期,风头最盛的当属北京月之暗面科技有限公司(简称“月之暗面”)。根据公司官网,月之暗面(Moonshot AI)创立于2023年3月,致力于寻求将能源转化为智能的最优解,通过产品与用户共创智能,2023年10月推出全球首个支持输入20万汉字的智能助手产品Kimi。

创始团队核心成员参与了Google Gemini、Google Bard、盘古NLP、悟道等多个大模型的研发,多项核心技术被Google PaLM、Meta LLaMa、Stable Diffusion等主流产品采用。

让月之暗面曝光率大增的,就是Kimi,我们可以把它看成一位智能化水平更高的聊天机器人。去年10月发布时,Kimi可支持的无损上下文输入长度为20万字,也就是说,可以一口气读完20万字的小说。3月18日,月之暗面宣布Kimi支持200万字的无损上下文输入。

这种超大“吞吐量”让Kimi日活跃用户剧增。根据券商监测数据,截止3月25日,Kimi的网页端、APP端的用户DAU(日活跃用户数量)突破历史新高,分别达到了79万和54万。叠加小程序用户量,全端总DAU显著大于225万,或已超越百度旗下大模型文心一言的233万。而半个月之前,3月10日,Kimi的全端DAU才刚刚突破120万人。

与此同时,百度的文心一言和阿里旗下的通义千问两大TOP2玩家,用户访问量则大幅下滑,降幅分别达到33.43%与45.05%。

微信图片_20240409083549.png

尽管,文心一言、通义千问、360智脑都发力长文本处理功能,但业界认为Kimi在长文本领域的领先身位,并没有那么容易被超越。

因为,Kimi有一位定海神针——月之暗面创始人杨植麟,90后汕头学霸。他拥有清华和卡内基梅隆背景,是长文本领域专家。在过去五年内的自研语言处理(NLP)领域,杨植麟有相当的影响力。在华人学者引用排名中,杨植麟的学术论文位居前10,在40岁以下排名第一。

微信图片_20240409083616.jpg

在运行速度方面,杨植麟带领他的团队创造了无损压缩技术,从而可减少参数对存储的需求、推理的算力,以及数据传输的带宽占用,进而高效率无损处理百万级的长Token。

同时,在准确率或者精度方面,Kimi的无损长上下文窗口的方案,是在逐字阅读全文后给出答案,精度更高。其他大厂推出的“检索增强生成技术”是对全文关键信息进行检索生成答案,但可能会丢失掉部分关键的信息。

此外,AI大模型赛道也存在“强者恒强”。2023年12月、今年1月和2月,Kimi用户留存分别为18.48%、22.25%和23.36%。这种高留存的粘性,同时形成了正反馈。用户们在使用过程中自发“喂”给Kimi很多专业语料。通过不断学习和处理各种类型的语料,Kimi更能理解和适应不同的语境、问题和需求,从而提高其性能和准确性。

目前,大厂在长文本领域想追上甚至超越月之暗面还挺难的,因为其并没有公布无损压缩技术细节。除了论文,该技术在学界也没有太多开源内容可参照。大厂想要“学习”、并工程化是非常困难的。

不过,月之暗面和大厂并不是完全对立的。今年2月,月之暗面完成了新一轮的融资,金额超过10亿美元,一举刷新国内AI领域最大单笔融资记录。投资方包括红杉中国、小红书、阿里,老股东跟投等。本轮融资后,月之暗面估值达25亿美元(约合人民币180亿)。据媒体报道,阿里作为领投方,其投资额度的70%,将被置换成算力服务器予以支持月之暗面的业务发展。

新闻多一点:

为什么说大模型的“长文本”能力很重要?

因为从技术视角看,参数量决定了大模型支持多复杂的“计算”,而能够接收多少文本输入(即长文本技术)则决定了大模型有多大的“内存”,两者共同决定模型的应用效果。支持更长的上下文意味着大模型拥有更大的“内存”,从而使得大模型的应用更加深入和广泛:比如通过多篇财报进行市场分析、处理超长的法务合同、快速梳理多篇文章或多个网页的关键信息、基于长篇小说设定进行角色扮演等等,都可以在超长文本技术的加持下,成为我们工作和生活的一部分。

当前大模型输入长度普遍较低的现状对其技术落地产生了极大制约。例如:

1目前大火的虚拟角色场景中,由于长文本能力不足,虚拟角色会轻易忘记重要信息。

2对于大模型开发者来说,输入prompt长度的限制约束了大模型应用的场景和能力的发挥,比如基于大模型开发剧本杀类游戏时,往往需要将数万字甚至超过十万字的剧情设定以及游戏规则作为prompt加入应用,如果模型输入长度不够,则只能削减规则和设定,从而无法达到预期游戏效果。

3在另一个大模型应用的主要方向——Agent中,由于Agent运行需要自动进行多轮规划和决策,且每次行动都需要参考历史记忆信息才能完成,这会带来了模型输入的快速增加,同时也意味着不能处理更长上下文的模型将因为无法全面准确的基于历史信息进行新的规划和决策从而降低Agent运行成功的概率。

4在使用大模型作为工作助理完成任务的过程中,几乎每个深度用户都遇到过输入长度超出限制的情况。尤其是律师、分析师、咨询师等职业的用户,由于常常需要分析处理较长的文本内容,使用大模型时受挫的情况发生频率极高。

而上述所有的问题在大模型拥有足够长的上下文输入后都将会迎刃而解。

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论