GPT上车,是不是营销噱头?

现阶段大部分的GPT在车上更像“娱乐项目”,回答些问题、生成一段文本或是一副图画。“我们做车还要和车相关,只是复制手机上能实现的功能,感觉意义不大。”一位车企的研发人员如此评价目前上车的GPT。

640 (1).png

本文来自微信公众号“电动汽车观察家”,作者/朱世耘。

续航里程、车内大屏、智能驾驶之后,电动智能汽车卷起了高端人工智能。

12月20日,星途星纪元ES搭载奇瑞“LION AI”大模型;10日,理想汽车为5.0版本的OTA召开了一次发布会,重点包括名为Mind GPT大模型上车;更早的时间,百度GPT类大模型文心一言已分别上车极越01和银河L6;问界、小鹏、蔚来、长城也都已自研或联合自研了自己的大模型,华为盘古、XGPT灵犀、NOMI GPT、Coffee GPT计划分别搭载在M9、X9、ET9和蓝山车型上。奔驰则在海外探索ChatGPT直接上车的模式。

但从功能来看,现阶段大部分的GPT在车上更像“娱乐项目”,回答些问题、生成一段文本或是一副图画。“我们做车还要和车相关,只是复制手机上能实现的功能,感觉意义不大。”一位车企的研发人员如此评价目前上车的GPT。

GPT上车,到底是一时风潮,还是战略布局?

01

能“控”车的理想Mind GPT

仅能作为“娱乐项目”,是因为目前大部分GPT在车内更像是一位仅能聊天的乘客,而非车辆的一部分。

在连接上,目前大部分GPT仍在云端,通过联网的方式“上车”,且仅能通过屏幕和音响系统接收人类的输入,并进行输出。无法像当前的语音助手一样,在人类说:“我冷了”时,调高车内空调温度。

640 (1).png

在《电动汽车观察家》的不完全统计中,理想的Mind GPT走得相对靠前,已经具备了一定的控车能力。

目前,Mind GPT在云端和车机端都有模型,规模大小不同,负责的范围也有所区别。除“聊天”之外,Mind GPT可以调用车内“车控、出行、媒体类”的API(应用程序编程接口),与语音助理系统协同,提供服务和响应。

“比如你想吃个火锅,只需要给理想同学说,我们的车机界面就会生成火锅的图片供你选择,自动算好出行路线等实现一系列高效、自然的操作。”理想汽车空间软负责人李涛在一次采访中举例。

这背后,是语音助理对语音、视觉信号进行感知后,由MindGPT进行认知和理解,“自己”判断是否生成一个(调用搜索、导航功能)的指令。如决定生成指令,则用该指令调用外部接口或给到车机进行执行和语音反馈播报。

“MindGPT得思考什么时候调用哪个API,传什么参数,以及基于API返回内容生成回复话术,这是一整套新的基于大模型agent(人工智能代理)架构。”理想汽车的一位研发工程师向《电动汽车观察家》表示。

02

未来:从语音助理到人工智能Agent

此前,“调用哪个API、传什么参数,基于API返回内容生成什么样的话术”都是由人类工程师完成的。

目前,包括智能手机、智能座舱等在内的电子设备或应用产品,本质上是由工程师将产品、应用的底层能力封装到一个Graphic(图形)UI中,用户按照一定的规则,通过点击实现方式。

例如先点击“音乐”图案,在二级页面点击“FM”图案,在三级页面点击“频道”图案,才能实现“听广播”这个功能。

640 (1).png

VOS(语音操作系统)模块架构

目前的语音助理可以使人类指令通过语音的方式进行发送,但底层仍是语音指令库与应用封装路径进行对应,来实现功能。

在这种模式下,交互和功能都是固定的很不灵活,但约束和指引清晰。所以,对人类来说新系统的学习成本较高,但一旦上,功能实现的成功率则极高。

GPT则提供了另一种交互方式。

640 (1).png

虽然GPT与VOS(语音操作系统)的核心模块,都属于NLP(自然语言类模型),但其具有之前NLP模型不具备的理解和推理能力。

之前NLP模型主要用于识别“你在说什么”,例如“冷了”、“打开”、“音乐”等字面意思。GPT则具有通过上下文、环境信息理解“言下之意”的能力,例如在对话过程中,对“你这个(笑话)太冷了”的反应,不是调高空调温度,而是讲一个“暖笑话”。

因为,GPT能够基于Prompt(提示词)进行扩展、补全、完善,从而生成新的文本内容,甚至是转换为图片、语音等其它模态。

所谓Prompt,指向模型提供输入以引导其生成特定输出的文本或指令。但相比语音助手往往需要需要明确甚至单一的Prompt不同,GPT所需的Prompt可以是复杂而模糊的。

如同人类常会遗忘,但一经提示会立刻想起。而这个“提示”(Prompt)可以是某句话、某个词,甚至没有直接关联的某个景象或物体。Prompt就是用以帮助GPT回想起自己预训练时“学过”的东西。预训练越加丰富,则对语言的理解愈发深刻。

当这种理解力叠加了API的调用能力时,人类与机器的交互便不再是通过手/口去操作机器,而是与一位助理进行沟通需求,由其去完成任务。

“原来的计算能力下,(软件)没有办法解读你的意图,所以用GUI预设你的意图。现在有了LUI(语言交互界面,基于GPT理解能力构建),它能够解读你输入的所有意图,进而灵活匹配所有的API。”蓝湖&MasterGo创始人任洋辉表示:“我觉得未来所有的能力可能都会均匀化,比如说你在任何的APP都可以买货、订机票、订酒店……只要你讲就可以了。这个API哪怕本应用里没有,它其实可以调用API市场里的,随时可以抽取。”

03

当下:伪场景和基础准备

640 (1).png

奔驰新E所搭载的“场景”功能

事实上,除聊天和画画外,也有不少车企正在探索赋予GPT一定的车控能力,基于车内人的状态、表达,自由组合一些场景化的功能出来。“但据我了解现在GPT能够应用的场景比较低频,车机没有必要必须要去占据手机能做的事情。”上述车企研发人员表示。

如同GPT本身尚无形成成型的商业模式一样,GPT上车目前也尚未找到能够被人们高频使用的场景。

另一方面,车端算力与GPT所需而言,差距巨大,由此降低模型性能表现。而完全依靠云端算力,则意味着时延加大的问题,对于高安全性的汽车来说是不可接受的。

不过在探索的过程中,汽车智能化与GPT的落地方向是一致的。目前,小鹏、智己、奔驰等多家国内外车企推出的“场景”功能,可由车主能够进行简单编程组合出新的应用。背后,正是由数百甚至上千个被封装出的原子级API所支撑。而这些原子级能力,也将成为未来GPT作为助理调动资源,提供了基础。

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论