9项国际主流测试集第一，讯飞星火大模型预计今年底可实现类“o1”能力

2024-10-25 11:00

文汇网

沈湫莎

由艾伦人工智能研究所、OpenAI等国内外权威单位发布，涵盖理解和推理、综合考试、数学和科学、代码等不同任务类型的14项主流测试集中，讯飞星火4.0-Turbo在其中9项测试集中实现超越，效率相对提升50%。

本文来自文汇网（www.whb.cn），作者 | 沈湫莎。

在今天举行的第七届世界声博会暨2024科大讯飞全球1024开发者节开幕式上，科大讯飞董事长刘庆峰公布讯飞星火大模型应用成绩单，并发布讯飞星火4.0 Turbo：七大核心能力全面超过GPT-4 Turbo，数学和代码能力超越GPT-4o，国内外中英文14项主流测试集中讯飞星火4.0 Turbo实现9项第一。

科大讯飞还一口气首发了10项基于讯飞星火底座能力的硬核产品与创新应用，国产超大规模智算平台“飞星二号”也宣告启动。

讯飞星火4.0 Turbo预计今年底可实现类“o1”能力

刘庆峰特别提到了“硬碰硬”的数学能力和代码能力。根据实用数学任务构建测试集CAppliedMath-1.0，讯飞星火4.0 Turbo在计算、财务、金融、度量等多个维度的任务中均超过GPT-4o水平，已完成超长思维链、树搜索和自我反思评价等算法验证，预计今年底可实现类“o1”的高难度数学能力显著提升。

根据代码生成HumanEval测试集上的效果对比，讯飞星火4.0 Turbo在Python、Java、JavaScript等任务上和GPT-4o的差距微弱，在C++能力上超过GPT-4o。在真实应用场景，基于认知智能全国重点实验室构建的iFLYCode-Eval-2.0代码实用场景测试集，讯飞星火4.0 Turbo在代码生成、代码检错、单元测试等任务上都超过了GPT-4o。同时推出星火代码7B版本，满足代码生成、代码补全等极速响应型任务，效果业界最优。

首发语音视觉虚拟人交互“三合一”

发布会上，科大讯飞重新定义万物智联时代的多模AIUI交互标准，在原有的远场高噪、全双工、多语种多方言能力上，升级了多模态能力，新增了超拟人和个性化能力。

超拟人数字人首次亮相，多模态的交互从超拟人的语音变成超拟人的数字人，实现语音、视频、图文的全部联动的多模态交互。科大讯飞研究院院长刘聪现场和超拟人数字人玩了个“角色扮演”游戏，无论是扮演孙悟空还是小猪佩奇，数字人反应都惟妙惟肖。

多模态视觉能力加持下的人机交互有多惊喜？刘聪现场给超拟人数字人打了个“视频电话”，他不断调整道具“孙悟空”“奥特曼”“怪兽”的摆放位置，无需拍照，超拟人数字人看图说话，马上回应：“奥特曼和孙悟空停止了打斗，正在联合对抗怪兽”，和刘聪畅聊不同角度的所见。

刘聪还演示了更实用的旅游购物场景，当摄像头转向印有外文的化妆品及酒类产品时，超拟人数字人能对画面中产品的品牌、功能等信息进行“秒回”，超拟人数字人已成为“跨语言”购物的好帮手。

“目前，讯飞星火支持用户创建自己的个性化数字人，打造每个人的数字分身。”刘聪现场演示了一个自己的“数字分身”，只需在后台进行简单的编辑、定义，就可快速生成自己的卡通形象，更能一句话复刻自己的声音作为发音人，随时随地与自己对话。目前，已支持1300+种人设打造。

首发星火多语言大模型及多款新品应用

活动上首发了星火多语言大模型：在语音识别领域，科大讯飞的远场高噪场景语音识别领先优势进一步扩大；在多语言能力上，首次实现全国地级市方言全覆盖，含全国288个地市、202种方言，讯飞输入法14.0即将支持202种方言免切换自由说；在多语种能力上，首次发布星火多语言大模型，除中英文外，可支持俄、日、阿、法等8个语种。根据实用任务场景构建测试集MMT-Eval-1.0，讯飞星火在汽车、家电、办公、翻译等行业的任务场景应用效果超过了GPT-4o。

多模态多语言能力升级，将全面赋能汽车产业。科大讯飞还首发了汽车端侧星火大模型，据悉，今年第四季度起，奇瑞、广汽、长城等多款搭载端侧大模型的车型将上市开售。另外，面向教育、医疗、司法、政务服务、企业办公等多个行业场景也有最新的产品应用发布。

THEEND

免责声明：凡注明为其它来源的信息均转自其它平台，由网友自主投稿和发布、编辑整理上传，对此类作品本站仅提供交流平台，不为其版权负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。若有来源标注错误或侵犯了您的合法权益，请作者持权属证明与本站联系，我们将及时更正、删除，谢谢。联系邮箱：xiali@infoobs.com

本月热门

精选文章

热点资讯

从智能手机到智能家居：科技对我们习惯的影响

9项国际主流测试集第一，讯飞星火大模型预计今年底可实现类“o1”能力

2025 信息化观察网

长按扫描二维码阅读原文