本文来自微信公众号“数字经济杂志”,作者/杜兰。
技术创新是一条弯曲的直线,要经过技术萌芽期、期望膨胀期、泡沫破裂的低谷期、稳步爬升的复苏期和成熟期。元宇宙作为一种融合多个技术的科技愿景,也难免经历这种种阶段。全景式的、虚实共生的元宇宙,在短期内难以实现,甚至XR产业的规模突破仍有待时日。但长期来看,我们应该对元宇宙抱有美好的预期,因为元宇宙具有以虚助实,推动现实生产力发展的巨大潜力。
在过去的两年里,元宇宙一直都是科技圈里的热门概念。从最初的什么是元宇宙,描绘未来场景,勾勒发展阶段,到探索元宇宙在具体行业和场景的落地路径,人们对元宇宙的认识逐渐回归理性和现实。一方面,元宇宙应作为数字经济的一部分来助力实体经济发展,这已成为国内产业界的共识;另一方面,作为元宇宙入口的VR/AR/XR终端设备发展却始终较为缓慢,近期多个科技巨头在发展受挫后陆续收缩了相关的布局,不禁让人感慨元宇宙诸多掣肘,道阻且长。
2023年1月以来,ChatGPT引发全球人工智能的新一轮技术热潮,这使元宇宙看起来更显落寞。在这种背景下,我们应如何看待元宇宙的现状和前景?人工智能的发展又将怎样推动元宇宙的发展?ChatGPT对元宇宙又有何意义?我想就此分享一些观点。
元宇宙的困境:沉浸感与开放度难以兼得
元宇宙到底发展到哪一步了?我们首先通过好莱坞电影《头号玩家》,来看看理想中的元宇宙是什么样。这部电影中的元宇宙叫做“绿洲”,它已经具备了元宇宙的6个基本要素:虚拟形象和身份、沉浸式体验、社交系统、经济系统、开放自由的创作以及规则共识。每个要素不但从技术到应用都高度发达,而且都是虚实共生的。
我们距离“绿洲”这种理想中的元宇宙有多远?在当下,主要用户为青少年的Roblox游戏社区基本具备了元宇宙各个要素,尤其是在社交系统、经济系统、自由开放的创作环境等方面表现很好,但沉浸式体验感很弱,卡通风的人物和场景建模,真实感远远不及3A游戏大作,也不完全是VR场景。
与之恰恰相反的是,国内外主流的XR设备一直致力于沉浸感、真实感的提升,也取得了显著的进步,但却始终没有形成像Roblox这样的用户规模和活跃生态(Roblox2022年Q4日活用户为5880万)。
人工智能是提升元宇宙生产效率的关键
在资源有限的情况下,必须提高生产效率和降低成本,而人工智能技术的发展或将是破局的关键。人工智能是能够贯穿元宇宙各场景的基础性工具,将助力元宇宙变得高效敏捷、成本低廉、性能强大。
第一,人工智能是保障元宇宙人机交互沉浸式体验的支撑性技术。元宇宙的高度沉浸体验,有赖于终端设备上的视觉、听觉、触觉等感官体验的高度逼真,以及语音、光学定位、手势追踪、动作捕捉等人机交互要非常敏捷智能,这些功能的提升都有赖于AI技术的支撑。
作为中国人工智能领域的头部企业,科大讯飞在“智能人机交互”领域取得了很多突破。过去一年里,我们的语音合成体验实现大幅提升,在“讯飞有声”App上,你不但能选择多种风格的合成声音,还能花几分钟时间让AI“复刻”自己的声音。语音识别方面,在最复杂的高噪音、多人说话的场景下,我们从过去的单模态识别准确率39%做到了多模态的88%,已基本可以大规模使用。
在此基础上,我们在积极推进从“单模态感知”到“多模态感知”的系统创新,在复杂场景的感知、复杂信息的理解等方面都取得了重大突破。基于多模态语音识别、视线检测等多模态融合技术,科大讯飞推出了“多模态免唤醒交互系统”,交互响应成功率超93%以上、误唤醒率0.01%,目前已在车载场景实现定点生产。此外,实时手势识别技术实现了“凌空手写”,视线追踪技术实现了“眼神打字”,多模感知算法为用户带来了更多元、更直接、更沉浸的交互体验。
这些技术进步也为未来元宇宙中的沉浸式人机交互打下了基础。只有大幅提升人机交互的沉浸感、便捷性,才能加速元宇宙XR硬件终端普及,推动市场应用与技术发展产生正向循环,推动制造和研发成本不断降低。
第二,人工智能是元宇宙世界创建和内容生产的助推器。元宇宙中,用户直接接触到的对象主要有虚拟人、虚拟物品和场景、文娱内容等。借助人工智能AIGC技术,以人机耦合的方式来生产这些对象,将大大提高生产效率和降低成本。
虚拟人是元宇宙落地的先锋领域,在真正应用于元宇宙之前,虚拟人就已广泛应用于媒体、电商、娱乐、运营商、旅游、教育、政务、企业等很多领域,助力降本增效。还可以打造情感陪伴型虚拟人,为每个家庭服务。过去一年,科大讯飞在虚拟人的多模感知、多维表达、情感贯穿、自主定义等方面取得突破,不但虚拟人的真实度大幅提升,制作效率也显著提高,可以快速构建3D虚拟人,一句话马上学会你的声线,可以定制特定的手势、姿态,整个过程只需低代码甚至无代码。
元宇宙中物品、场景的构建也需要人工智能技术。例如英伟达通过人工智能技术用2D图片快速生成3D模型,而不再需要通过漫长的建模、渲染。Meta开发的BuilderBot工具,直接说“要一棵树”,或者“在这儿放一张桌子”,就能用语音指令的方式快速搭建场景。
科大讯飞使用人工智能的语义理解技术,实现了建筑三维图纸的自动设计,可以帮助设计师把一个20万平方米建筑的设计周期从60天缩短到15天。在元宇宙中,同样可以应用这项技术提升数字建筑的搭建效率。
在文娱内容创作方面,用AI写作、绘画、作曲、视频等技术将大大低元宇宙中人们的创作门槛,提高创作效率,极大地丰富元宇宙中的个性化内容。例如AI绘画领域,DALL·E、DiscoDiffusion、Midjourney等工具支持文本到图片的创作,既能生成不同艺术风格的绘画作品,也能生成以假乱真的摄影作品,把图像艺术的创作门槛降到了最低。
第三,人工智能也是元宇宙以虚助实,服务于民生和产业发展的桥梁。从现实世界到虚拟世界,我们的媒介是数字人,而从虚拟世界到现实世界,我们的媒介是机器人。科大讯飞的“超脑2030计划”,旨在打造懂知识、善学习、能进化的机器人,让机器人走进每个家庭。当然这个目标不是一步完成的,现阶段我们会发展专业虚拟人,再到具备多模态情感理解能力的陪伴虚拟人,同时发展仿生机器人、外骨骼机器人等硬件技术,最后我们要打造出软硬件一体,贯穿虚拟世界和现实世界的陪伴机器人。在农业、工业等实体经济领域,人工智能也将帮助我们更好地实现虚实融合。例如在农业领域,农业生产者可以在虚拟空间里借助智能设备对农作物和畜禽的生长状态进行实时观测,制定最佳的农作物管理措施,并利用智能设备落实这些措施。工业元宇宙,可以在研发设计环节,用虚实共生的可视化方式进行模拟验证,优化产品全生命周期的制造过程,解决产品试制周期长、制造工艺不稳定等问题。也可以更高效地管控整个生产过程,及时发现和诊断故障。
ChatGPT对元宇宙有重要意义
首先要明确的是,ChatGPT是人工智能的一项技术和产品,而元宇宙与其说是一项技术,不如说是一个极为宏大和复杂的场景,两者之间并不是直接的此消彼长的关系。但从技术角度看,ChatGPT对元宇宙的发展又是个好消息。最近我们讯飞研究院的执行院长刘聪在接受新华网专访时谈到了ChatGPT。这项技术本质上是一个由浮点数参数表示的深度神经网络大模型,是深度学习提出后又一个里程碑式的技术革命,已经实现了初步的“智慧涌现”。我们认为,在ChatGPT的基础上,以自然语言处理为代表的人工智能算法有可能重构互联网和移动互联网的产品形态,促进教育业、医疗业、汽车业、金融业、消费业、媒体业、服务业和制造业等众多产业的升级,最终带来对应商业模式的变革。
如果把元宇宙看作三维空间的互联网,那么ChatGPT在当前互联网世界的应用也将能够进一步拓展到元宇宙中,加速元宇宙的到来。结合科大讯飞多年来在深度学习算法、大模型技术、行业大数据、知识图谱、多模态感知、系统工程技术方面优势积累,通过最近两个多月的系统分析和快速验证,我们非常有信心实现ChatGPT类似的技术阶跃进步,并在中文认知智能领域达到国际领先水平。
元宇宙发展要学会沿途下蛋,为真实世界服务。我们常说技术创新是一条弯曲的直线,总是要经过技术萌芽期、期望膨胀期、泡沫破裂的低谷期、稳步爬升的复苏期和成熟期。元宇宙作为一种融合多个技术的科技愿景,也难免经历这种种阶段。全景式的、虚实共生的元宇宙,在短期内难以实现,甚至XR产业的规模突破仍有待时日。但长期来看,我们应该对元宇宙抱有美好的预期,因为元宇宙具有以虚助实,推动现实生产力发展的巨大潜力。
当泡沫退去,真正想要投身元宇宙的创业者要坚持源于热爱的初心,要看到星辰大海,才能在创新道路上长期坚守。也要学会沿途下蛋,为阶段性的技术成果找到应用场景和市场,最好是选择社会刚需领域或有大量潜在的活跃用户领域,这样既能为后续发展造血,也能通过应用牵引推动技术不断突破。
科技产生于真实世界的需求,并且要为真实世界服务。只有让数字技术融合实体经济发展,引领让现实世界更美好的开拓型元宇宙,摒弃让人深度沉迷的奶嘴形元宇宙,才能给中国和人类社会带来真正意义上的进步。
(文︱杜兰科大讯飞高级副总裁)