新浪科技讯 北京时间4月18日消息,据国外媒体报道,请想象今年是2022年。你正坐在一辆自动驾驶汽车中,按照每日的常规路线行驶。你们来到了一处停车标志前,这个地方已走过了上百次。然而这一次,汽车竟直接开了过去。
在你看来,这块停车标志看上去别无二致。但对于汽车来说,它却和其它停车标志截然不同。你和汽车不知道的是,就在几分钟前,一名街头艺术家在这块标志上贴了一小张贴纸。人眼注意不到,却逃不过机器的“眼睛”。换句话说,这张小小的贴纸使汽车将停车标志“看”成了完全不同的标志。
这听上去离我们很遥远。但近期研究显示,人工智能很容易被类似的方法糊弄,“看见”的东西与人眼产生巨大偏差。随着机器学习算法在交通、金融和医疗体系中运用得愈加普遍,计算机科学家希望在不法分子真正动手之前、找到对抗这些攻击的方法。
“机器学习和人工智能领域对这一问题感到十分担忧,更何况这些算法被运用得越来越普遍。”俄勒冈大学计算机与信息科学助理教授丹尼尔·洛德(Daniel Lowd)指出,“如果只是漏标了一封垃圾邮件,没什么大不了的。但如果你坐在一辆自动驾驶汽车里,你就得确保汽车知道往哪儿走、且不会撞上什么东西,因此风险自然高得多。”
智能机器是否会失灵、或受到黑客控制,取决于机器学习算法“了解”世界的方法。若机器受到干扰,就可能将熊猫看成长臂猿,或是将校车看成鸵鸟。法国和瑞士研究人员开展的一项实验显示,这样的干扰可导致计算机将松鼠看成灰狐狸,或将咖啡壶看成鹦鹉。
这是如何实现的呢?思考一下儿童学习识数的过程:儿童观察数字时,会注意到不同数字的共同特征,如“1又细又高,6和9都有一个大圆环,8则有两个”等等。看过了足够多的数字之后,即使字体不同,儿童也能迅速认出4、8、3等新数字。
机器学习算法了解世界的过程其实与此类似。要使计算机探测到某种信息,科学家会先向计算机中输入成百上千条实例。机器筛查这些数据时(如:这是一个数字;这不是数字;这是一个数字;这不是数字),便可逐渐了解该信息的特征。很快,机器便能准确得出“图片上是数字5”这样的结论。
从数字到猫咪,从船只到人脸,儿童和计算机都利用了这一方法学习识别各种各样的物件。但和人类儿童不同,计算机不会对高级细节多加留意,如猫咪毛茸茸的耳朵、或数字4独特的三角形结构。机器“看见”的不是图片整体,而是图片中的单个像素。以数字1为例,如果大多数数字1都在某一位置上有黑像素、另一个位置上有几个白像素,那么机器只有在检查过这几个像素之后,才会做出决断。再说回停车标志。如果标志的某些像素出现了肉眼不易察觉的变化,即专家所说的“干扰”,机器就会将停车标志看成其它东西。
怀俄明大学与康奈尔大学的进化人工智能实验室开展了类似研究,使人工智能产生了一系列视觉幻觉。这些图片中的抽象图案和色彩在人眼看来毫无意义,计算机却能迅速将其识别为蛇或步枪。这说明人工智能“眼中”的物体可能与实际情况大相径庭。
各种机器学习算法都存在这一缺陷。“每种算法都存在其漏洞,”美国范德堡大学计算机科学与计算机工程助理教授叶夫提尼·沃罗贝琴科(Yevgeniy Vorobeychik)指出,“我们生活在一个极其复杂的多维世界中,而算法只能关注其中的一小部分。”沃罗贝琴科“坚信”,如果这些漏洞的确存在,迟早会有人研究出利用漏洞的方法。有些人可能已经这么做了。
以垃圾邮件过滤程序为例。垃圾邮件有时会改变单词拼写(如将Viagra写成Vi@gra),或是加上合法邮件中常见的“正面词汇”(如“高兴”,“我”或“好”),有时还会删除一些非法邮件的常见词汇,如“索赔”、“手机”、“赢取”等。
这些方法是否能让不法分子得逞呢?被停车标志上的贴纸糊弄的自动驾驶汽车就是该领域专家提出的典型情境。除此之外,非法数据可能使色情影片躲过过滤程序;不法之徒可能会篡改支票上的数字;黑客可能会修改恶意程序代码、以混过数字安保系统。
不法分子只需将相应的机器学习算法弄到手,便可编写出用来进攻的数据。但要想骗过算法,其实并不一定要这样做。黑客可以强行发起攻击,反复调整同一封邮件、或同一张图片,直到混过过滤系统。长此以往,黑客便掌握了过滤系统搜查的关键信息,然后编写出可蒙骗这些系统的数据。
“从机器学习系统问世以来,就有人试图对其进行操纵,”宾州大学计算机科学与工程教授帕特里克·麦克丹尼尔(Patrick McDaniel)表示,“如果有人私下里使用这些技术,我们也许毫不知情。”想利用该技术的人不只是犯罪分子,有些人只是想避开现代科技的“监视”。“如果你在一个专制国家持有不同政见,想在政府不知情的情况下开展政治活动,就需要在机器学习的基础上躲开自动监视系统。”洛德指出。
在去年十月开展的一项研究中,卡耐基梅隆大学的研究人员发明了一副眼镜,能够不知不觉地骗过面部识别系统,使计算机误将女演员瑞茜·威瑟斯彭(Reese Witherspoon)认作男演员罗素·克劳(Russell Crowe)。听上去很搞笑,但这一技术或许真能帮到那些必须躲开当权者视线的人。
与此同时,算法还有什么值得改进之处呢?“要想避免上述问题,唯一的方法便是打造一套完美的、永远正确的模型。”洛德指出。就算我们研发出了比人类更厉害的人工智能,世界仍然充斥着各种不确定性,答案不会立即浮出水面。
人们通常以准确度评价机器学习算法的好坏。正确识别物体的概率越高,程序就越出色。但一些专家认为,我们还应考察算法抵御攻击的能力,越不易被攻破就越出色。专家提前对程序进行考察也不失为一种解决方法。程序员可预先猜测攻击者的意图,在实验室中模拟攻击,然后将其展示给机器学习算法。这有助于算法逐渐增强抵抗能力,前提是模拟出的攻击符合现实情况。
麦克丹尼尔提出,我们可以让人类参与其中,为算法的猜测结果提供外部验证。Facebook的“M”等“智能助手”就有人类辅助,检查机器产生的答案。还有科学家指出,在法庭判决等敏感情境中,也应让人类进行验证。“机器学习系统只是一种推理工具。在处理我们输入的信息和机器提供的信息时,我们必须足够聪明和理智,”麦克丹尼尔说道,“我们不应将机器所言奉为真理。”