本文来自“物联网智库”,作者/李宝珠。
AIGC的风已经刮到了实时互动(RTE)领域,并且已经有企业乘风起势。
提到RTE,亦或是实时音视频(RTC),可能很多人感觉到陌生,但其实,在视频会议、线上直播、网上课堂等场景中,正是RTC与RTE支撑起了低时延、高清晰、深度沉浸的互动体验。
从2015年前后,短视频、直播兴起,才令人们对于实时音视频有了更加具象的认知。随后,疫情爆发之下“全民宅家”所催生的视频会议、在线教育、电商直播也使得实时音视频需求迅速爆发。
据36氪研究院发布的数据显示,实时音视频在国内360、华为、小米三大安卓应用市场的近10,000个App中的渗透率,2015年还不到1%,2021年已突破30%。业界认为,在未来几年,实时音视频技术在关键行业的渗透率可能将超过50%。
对于很多消费者而言,RTC、RTE作为默默耕耘在应用背后的重要技术,或许并没有得到颇高的关注,但在产业端,这个能够迸发出创新应用的领域却是在持续成长中逐渐与越来越多的场景结合。
这也令笔者想起了此前与声网相关负责人的一次访谈——“即便你过去没有听说过声网,但你一定用过声网的服务”。的确,作为最早一批入局实时音视频领域的企业,声网虽然在C端并不似生态繁荣的大厂那般名头响亮,但其全球注册应用在2022年9月就已超过51.1万,在行业内的影响力可见一斑。
就在今天上午,RTE 2023第九届实时互联网大会在北京召开,这个由声网从2015年搭建而成的交流平台,也逐渐成为了RTC的行业聚会,而在今天上午的主论坛上,AIGC无疑成为了主旋律。
AIGC+RTE,玩出什么新花样
从去年年底开始,ChatGPT异军突起,甚至被黄仁勋称为人工智能的“iPhone时刻”。时至今日,这场围绕大模型、AIGC的狂欢还在持续,并且有更多相关的技术、行业参与其中,RTE其实并不是最早加入的,但应该算得上是极富创造力的。
首先来了解一下什么是RTE。
据悉,2020年,声网在上市招股书中首次公开提出“RTE(Real-Time Engagement)”概念,此后这一概念逐渐被全行业认可和使用。此前,更多被业内所熟知的RTC更多是强调对语义信息进行高质量和高效率的传递,而RTE则是更聚焦用户所需要的共享时空,即场景。
换言之,RTC是从信息传递的角度出发,而实时音视频也仅仅提供语音沟通,能够满足单一的场景和通话标准。而随着实时互动的创新场景涌现,加之人们对于通话质量的要求提升,低时延、高清晰的实时互动需求恰恰是RTE的专长。
而火爆的AIGC自然是不需要过多介绍了,从聊天机器人到AI助理,再到到虚拟女友,再到复刻亲人形象,其已经多次展示了惊人的创造力。
那么,RTE又能够与AI擦出哪些火花呢?
声网创始人兼CEO赵斌在RTE大会上展示了声网凤鸣AI引擎优化线上课程噪声的案例,以及利用AI算法提升实时视频清晰度的案例,进一步介绍了AI对于RTE行业的颠覆式改造。此外,面向社交和泛娱乐场景的实时互动,AIGC相较传统的AI对话机器人,还能够提供更加接近于真人的情感价值和情绪价值。
赵斌还表示,AIGC对于RTE行业的另一个影响便是可以大幅提高应用开发效率。从编程、自动化测试再到文档生产以及低代码平台进化,都将得到一定的促进。虽然很多影响和变化还都处于早期阶段,但未来值得释放的空间仍非常值得期待,还有很多想象仍未被实现。
例如,AIGC能否彻底颠覆低代码形成的方式,以对话的形式指令机器来生成代码,甚至不光是生成代码,而是生成完整的应用,从而实现新一代的无代码能力。
至于声网,作为RTE赛道的开创者,其也率先推出了AIGC RTE能力模块,可以和任何大模型平台对接,将现有的文字交流的互动方式和沟通方式转化成更加自然的语音对话,同时也保障了接近人与人对话的低时延体验。
据介绍,目前声网RTE x AIGC一站式解决方案,可以将AI对话端到端响应延时控制在1.9秒以内,并且支持API快速调用,提供开箱即用的场景化demo,最快3个小时即可实现方案验证。
赵斌也表示,除了社交、直播、泛娱乐场景等,企业用户近年来开始积极拥抱实时互动所带来的一系列变化,开始基于RTE进行效率优化。企业也意识到如今的实时互动能力已经远远超出了企业内部视频会议的需求,而实时互动平台也不仅仅是视频会议平台,其所提供的无所不答的实时网络以及无所不及的音视频能力,正在成为企业数字化转型的一个重要支撑。
对于几万、甚至几十万人的大企业而言,往往需要构建全域一张网、全业务一张网、全设备一网通、全业务多形态连接的基础能力。声网也可以配合企业构建音视频实时互动平台,用统一中台的方式,改造企业内部过去做一个应用就要重新建一套系统、重新部署网络的低效、重复建设模式,从而极大地提高企业在业务上的灵活度和效率。
值得注意的是,在演讲的最后,赵斌也带了one more thing——声网在RTE行业里面首次实现了广播级的4K超高清实时互动体验。
5G能与实时音视频擦出什么火花?
虽然RTE 2023大会的主论坛主要聚焦在了AIGC与RTE的结合,但其实围绕实时互动的通信技术升级也是不容忽视的重要底座。过去,业内一直在期待5G能够帮助RTE领域实现4G所未能达到的体验。
一方面,5G的超大带宽、超低时延等特征,可大幅降低音视频信息的延迟和缓冲时间,提高端到端毫秒级传输时延的满足率,为RTC的数据传输奠定了坚实的基础。另一方面,5G的商用之于不断涌现的实时音视频场景而言也是恰逢其时。
例如,在智慧医疗领域,无论是5G远程会诊,还是远程手术示教、远程教学等场景,都需要低时延、高清晰的实时音视频系统。
此外,以声网的超低延时平行驾驶和平行控制方案为例,该方案面向以无人车、机器人为代表的智能设备远程运维、人工接管和远程控制场景。针对于同城远程控制,声网解决方案通过标记优先级优化路由调度策略和同节点转化方式,保障该场景下的延时传输质量。
同时还结合了多运营商物联网卡场景下,通过Multipath多路径融合的技术,保证网络质量的可用性和弱网对抗能力。据悉,实测数据显示,从无人驾驶车辆摄像头画面采集,到远程控制台显示,声网能做实时音视频端到端时延最低百毫秒内,5G公网平均160ms;可靠信令可以做到端到端25ms之内,5G公网平均50ms,可以保障低速自动驾驶车辆在30公里时速下,拥有相对可靠、安全和高效沉浸式的体验,来完成所有的远程作业。
未来,随着AIGC的进一步融合,加之5G提供更加稳定、高可靠的通道,RTE势必将带来更多创新应用,让我们拭目以待。
参考资料:
1.《全球音视频社交市场规模达1813亿美元,60%以上用声网》,36氪产业创新
2.《加速迈入“真实时”物联网RTC成智能设备“硬指标”》,砍柴网
3.《声网CEO赵斌:生成式AI技术将颠覆式改造社交和泛娱乐行业|钛媒体焦点》,钛媒体APP