5月27日至28日, 2017全球机器智能峰会(GMIS 2017) 在北京898创新空间举行。来自瑞士、美国、加拿大以及国内外众多人工智能学术专家大牛、业界资深大咖,分享机器学习的前沿进展、新奇思想、人工智能的炫酷应用以及机器智能时代的创业经验。
5 月 28 日上午,上海交通大学教授、思必驰联合创始人、首席科学家俞凯教授作为会议主持,分别邀请了会议包括《人工智能:一种现代方法》的作者 Stuart Russell、第四范式联合创始人兼首席科学家杨强、科大讯飞执行总裁兼消费者事业群总裁胡郁等嘉宾等做了精彩演讲,分享了机器学习领域的前沿研究和探索以有关人工智能产品、应用与投资的内容。
会上,俞凯教授发表了主题为《迈向智能认知型对话交互》的演讲,深度解读了目前语音领域的机遇和挑战,以及如何迈向智能认知型对话交互。
俞凯教授从物联网设备蓬勃爆发讲起,2017年全世界物联网设备的数量达到80多亿,首次超过了人类的数量。面对新兴物联网设备小屏甚至是无屏的发展趋势,智能语音在面对复杂的信息交互中显示出其独特优势,口语对话交互成为用户移动信息搜索的新习惯。
俞凯教授提出,在感知智能的语音识别发展中,噪声环境下的语音识别一直以来是一个难题。去年,微软在著名的对电话语音识别的任务上,机器的系统首次首次达到人类的水平,得到重大突破。思必驰提出的VDCNN算法模型结构相比于传统语音模型仅使用1至2层卷积层,通过堆叠较小的卷积层和池化层,将语音模型中的卷积层的深度提高到了10层以上,更好地在语音模型的内部实现了声学自动降噪的能力。
俞凯教授指出,近年来,连接时序模型(CTC)取代传统隐马尔科夫模型(HMM),被应用到语音识别中,其特点显著,能够针对识别序列进行整体建模,带来更好的前后文建模能力,使语音识别的建模单元显著减少,并使庞大搜索空间相应减小。另一方面,模型本身建模了多帧对一个音素的映射关系,使得模型输出的声学信息集中。根据模型输出特点,适宜采用更长的搜索步长,由逐帧同步解码,转变为音素同步解码,从而减少了搜索计算量。
俞凯教授表示,语音识别取得了巨大的进展,但目前仍然存在着非常多的问题,如噪声环境处理等。参会大咖们也纷纷就智能语音发展存在的一些问题提出了自己的看法。
腾讯 AI Lab 副主任、西雅图人工智能研究室负责人俞栋在主题为《语音识别领域的前沿研究》的演讲中,探讨分享了语音识别领域中的前沿问题。在著名的鸡尾酒会问题上,他表示麦克风阵列可以提供很多的信息,所以一个很重要的问题是如何有效地利用多麦克风信息来继续加强其能力。第二个就是有没有办法能够找到一个更好的分离模型。而俄亥俄州立大学终身教授汪德亮表示,鸡尾酒会问题本质是一个声源分离问题,并非不可解决。作为分类或模评估的鸡尾酒会问题的公式化使得监督学习的使用成为了可能。监督分离第一次证明了噪音中语音清晰度的提升;DNN 大规模训练是一个有希望的方向,可实现多种条件下的语音分离。
俞凯教授表示,「智能的感知+认知的进化」,是未来人机口语对话系统发展的重要方向。