韩国人李世石是当今顶尖的职业围棋选手,3月9日至15日,他将和谷歌开发的人工智能AlphaGo进行奖金为100万美元的5场比赛。
今天中午的首轮比赛,李世石惨败,再次引发了社交媒体上对人类的未来的担忧。
人工智能威胁人类生存,在科幻电影上是很常见的情节。
因为人类认为智慧是区别人与动物的最重要特征,我们正是依靠智慧创造了人类文明。一旦人工智能开始接近人类的智慧水平,很可能意味着人类创造出了自身无法掌握的力量。
这种担心是否有道理呢?
其实真正意义上的人工智能还遥不可及,但大众消费级别的人工智能正在强烈改变你的生活。
长久以来,科幻小说和电影为我们预设了太多关于智能机器人的想象:《2012太空漫游》里阴郁的哈尔、《A.I.》里悲伤的大卫、《星际旅行》里可爱的数据先生、《银河系漫游指南》中神经质的马文等等,以至于我们看不到那些正在进入我们日常生活之中的“人工智能”。从我们最常用的谷歌搜索引擎、苹果的语音助理Siri,到科幻色彩更浓的谷歌眼镜、无人驾驶汽车……它们既非能力超凡的机器人,也非让未来学家心醉神迷的超人工智能,但它们能感知周围的环境,从经验中学习,并自动做出决定,而且其速度与准确率往往超出我们的理解能力。在背后支撑它们的“智能”的,并非人类思维层面的智慧,而是廉价、可靠、工业级的数字智慧。
随着物联网的兴起,这种智慧正在被赋予越来越多原本沉默的日常之物,一个叉子能计算你的吃饭速度,牙刷能监控你的刷牙时间,鞋子能纠正你的走路姿势……与此同时,随着人类把越来越多的智能设备穿戴到自己身上,甚至植入皮肤之下,我们似乎不可避免地在向半人半机器的物种进化。于是,一个很关键的问题就变成,未来人工智能的软件和硬件将以什么样的形式交汇与整合?人与机器之间的关系又会因此发生什么样的变化?
人工智能已经存在了吗
“这取决于你认为‘人工智能’指的是什么。”李志飞坐在一张沙发上,春寒料峭的北京,会客室里却出奇的闷热,机房里庞大的机群轰鸣着,不断地制造热量。
李志飞是“出门问问”—— 一款“移动语音搜索”的创始人之一,他是美国约翰霍普金斯大学的计算机科学博士,专攻自然语言处理,在谷歌研究院从事机器翻译的研究和开发,三年前辞职回国,加入中关村的创业大军。他认为,有两种“人工智能”,一种是学术界定义的“人工智能”,即造出一台机器,能像人一样思考,具有与人相似的智力水平。很显然,目前没有一个机器具有这样的“智能”。
去年6月,一个叫Eugene Goostman的聊天机器人号称成功骗过了图灵测试三分之一的评委。但Eugene Goostman之所以能通过图灵测试,并非它真的会“思考”,而是借助于一些聪明的花招和诡计—它假装自己是一个13岁的男孩,诡称英语是自己的第二语言,以此解释语言中的不一致;当无法给出直接答案时,就通过虚张声势或装疯卖傻来转换话题。事实上,这在图灵测试的历史上已经成了某种惯例:图灵测试所测的与其说是机器思考的能力,不如说是扯谎的能力。
作为自然语言处理领域达到最高水平的机器,IBM的沃森在2011年的Jeopardy游戏中击败了所有的人类对手(Jeopardy是美国出名的电视问答游戏,问的问题涉及大量比喻、笑话、谜语),而且它的知识不是工程师手动编程灌输给它,而是自己通过阅读获得的。沃森每秒可以处理500GB的数据,相当于1秒阅读100万本书,但很可惜的是,沃森并不理解它所阅读的内容的任何含义。
2012年,“谷歌大脑”—— 一个由1.6万台计算机组成的网络系统,在随机分析了1000万条YouTube视频之后,终于“认识”了猫是什么样的动物。这个机器被认为是当下人工智能领域(“深度学习”)一个里程碑式的进步,因为它是凭借自己的力量发现了猫的概念,没人告诉它猫是什么。据称他们是在控制论层面模拟了人类大脑视觉皮层的运作方式—神经学家认为,可能存在一种名为“祖母神经元”的细胞,当人被反复“训练”去识别某一张人脸时,这种细胞便会被激活。但这个网络与人类的视觉皮层相比仍然很渺小,后者的神经元和突触数量比该网络多100万倍。更重要的是,谷歌的这个“猫侦察机”虽然号称识别准确率达到81%,但“一旦将样本量扩大到2万个类别,得分瞬间会跌至15.8%”。
“深度学习的确是一个有效的方法,”李志飞说,“但统计数据无法推导出所有东西,我绝对不相信深度学习能实现科学家的目标。”但是,他认为还有一种工程师定义的“人工智能”,它不需要有什么独立意识,或者情感,更不是未来学家如雷·库兹韦尔所宣扬的“奇点”,相反,它的存在只是为了扩展人类的智能,扩展一些我们以前无法实现的能力,比如谷歌刚刚收购的机器人公司Boston Dynamics,他们生产的大狗机器人能翻山越岭,穿越冰雪,人用力踹它也踹不倒它。
李志飞毕业于普林斯顿大学,在创办
“出门问问”之前,他在谷歌翻译部门工作。与Siri相比,“出门问问”能理解更复杂,
更口语化的命令。
根据雷·库兹韦尔的预言,到2029年,机器将能做一切人类能做的事情,包括理解我们说什么,从经验中学习,听懂笑话,讲故事,调情等等,到了2035年,我们将迎来“奇点”:即人工智能超越人脑的时刻,届时人类,包括身体、头脑、文明在内,都将发生彻底且不可逆转的改变。
李志飞一听到库兹韦尔的名字,眉头就不由自主地打成了一个深V形,“库兹维尔是布道者,他会过度承诺,但不会给你一条路径。‘奇点’从来不告诉你先做什么后做什么以及怎么做,但作为工程师,我们需要一个实实在在的计划,一个可以着手迭代的产品,一点点发现问题,所有的工程都是围绕解决这些问题,而不是凭空想到某个东西,一下子就解决所有问题。”
作为科学家的李志飞很清楚,今天我们距离真正意义上的人工智能还有十万八千里。人类大脑是已知宇宙中最复杂的器官,我们甚至不知道它是如何工作的,更何况复制出人类大脑那种无穷威力?从某种角度来说,人工智能的确像是“一个想通过爬树爬到月亮上的人”;但作为工程师的他从一开始就没想去月亮,他想建造的是一个“大众消费级别的人工智能”。运气好的话,它也许会成为未来人类爬上月亮的一小节梯子。即使这节梯子最终被证明是指向错误的方向,至少我们知道了那是个错误的方向。
语音助理:当机器理解你的语言
在今年初极客公园创新大会的一次演讲中,李志飞清晰地提出了建造一个“大众消费级别”的人工智能的具体路径:首先,它必须是一个可交互的设备,要做自然语言的交互。第二,必须是随身携带的,每时每刻作为一个普通人都可以用得到的;第三,能够连接各种各样的传感器。
语言是人类认识世界最重要的手段之一,一个“聪明”的机器首先必须理解你的语言,可以与你做简单的对话。作为智能手机平台上的一个App,“出门问问”已经基本上可以实现这一点。
首先它能“听”,知道你到底说了什么,将声音转化为文字。“语音识别”作为人工智能一个重要分支经过多年的发展已经近乎完美(准确率可达90%多),但“听”的应用场景和如何优化却有很多变化,比如在地铁里和在一个安静的房间里听人说话是很不一样的。“这就是工程师做的事,每天都为具体问题做很多优化,慢慢去提升。”李志飞说。
然后是语义分析,即理解你话中的意思,这是目前人工智能领域最关键的技术之一。如果按照科学家的定义,机器理解人类语言,意味着机器必须对语言的产生有极为深入的了解:要理解语义、语法和构词法,要理解单词是怎么拼成句子、句子如何组成段落,还要理解词汇只是通往意义的载体而已。但事实上,过去60年来,计算机在自然语言处理领域取得的大部分进展都与这种层面的“理解”无关,而是基于一种“统计”的方法:庞大的数据加上精准的算法使得它们具备了惊人的模式识别能力(Pattern Recognition)。
人们经常拿“出门问问”与苹果的语音助理Siri相提并论,后者曾被认为是数十年来人工智能领域最重大的突破之一。但在李志飞看来,Siri真正的突破不在技术,而是从产品的角度把人工智能从一项冷冰冰的技术推广到普罗大众中,让人们有兴趣去使用,人性化、好玩。但一旦你问一些比较复杂的问题,比如条件更多(“帮我查一下明天下午3点到5点从北京去上海的飞机”),或者句式更复杂(辣的不要),或者语义比较复杂(下星期二是几号),甚至是口语化(“帮我查一下明天去魔都的飞机”),Siri就没法应付了。
“我们跟Google Now更相似。”李志飞说。GoogleNow是谷歌于2012年推出的一款智能语音助理,与Siri的娱乐化倾向不同,Google Now更关注解决实际问题。而与Google Now的大而全相比,“出门问问”又是在一个相对受限的场景之下,更专注于移动生活相关的衣食住行吃喝玩乐的信息,因此语义分析精确度也相对更高。
“图灵机器人”虽然可以和七八岁的孩子对话,
但没有思考,在人格、
情感方面远落后于人类。
从技术的角度来说,他认为Siri与“出门问问”的区别恰恰在于规则和统计的区别。Siri更多是基于规则的,它有很多模板,需要人工定义很多规则,但规则需要维护,或者前后出现冲突,而且一旦超出规则(比如用的词汇不一样或者顺序不一样),或者加了其他条件就不行了。相比之下,“出门问问”则是基于统计的,是从数据里面学习出来,你扔一堆数据给算法,让机器从数据中自动学习出新规则和新知识。
几年前,诺贝尔经济学奖获得者丹尼尔·卡尼曼教授写过一本书,《思考,快与慢》,提出我们的大脑有快与慢两套认知系统,前者依赖情绪、记忆和经验迅速作出判断,几乎不需要付出什么努力就能完成任务;后者则需要通过调动注意力来分析和解决问题,精确、理性,但比较慢,而且懒惰,经常走捷径,直接采纳前者的直觉型判断结果。我们每天都在两个系统间切换。今天的计算机如此擅长“模式识别”,在某种角度来说,它的确已经能够模拟人类的思考,只不过是“快思考”模式,而不是“慢思考”模式。
在分析了一大堆设备,包括手环、车载设备、谷歌眼镜之后,李志飞得出的结论是,人工智能技术若想产品化大众化,手表很可能是最好的硬件载体。“手表可以随身携带,它有屏幕,可以人机交互,还可以把你身上各种传感器都串起来。你可以认为它就是一个手腕上的计算机。为什么计算机、互联网经久不衰?因为有了基础之后,人类可以在上面架构整个虚拟社会,把线下的社会全部架构到线上。智能手表在未来有可能变成像手机一样大的平台,甚至更大。”
“我确实不愿描绘智能手表以后会怎么用,但我愿意描绘智能手表应该具备什么样的基本功能,比如通讯功能、传感器整合功能、简单交互功能,至于怎么应用,怎么改变人的生活,我觉得自然会有更有创意的人去想。”
与李志飞不同,智能手表似乎不足以承载俞志晨对于人工智能的梦想:1985年出生的他显然是一个还怀着某种科幻情结的男生,他借用爱因斯坦的“虫洞”理论为自己开发的语音助手命名,以喻示“用户与信息之间的瞬间连接”,但他在语音助手身上看到的真正价值不在于信息,而是娱乐、情感。“你对Siri说你滚蛋,Siri会说为什么让我滚蛋,主人我走了。但你去Google Now问你滚蛋的话,它会去网页上搜索。”
按照他的观察,成年人与Siri的交流总是带着一种挑战的心态,想看看它到底有多聪明,或者多愚蠢,所以交流必然是不畅的;但孩子与Siri的交流却要自然真诚得多,因为他们把它当成一个虚拟的伴侣。正因为如此,他才想到将“虫洞语音助手”(Siri的中文复制品)以一种“大脑”的形式插入真实的机器人身体,你可以给它写各种程序,让它做各种事情,让它成为保姆、陪护或者玩具。当然,他还给了他们一个很酷的名字—“图灵机器人”。
在他的办公室里,我见到两个版本的“图灵机器人”,一个时髦漂亮,会唱歌跳舞端茶送水拖地洗衣服,是一家国外公司生产的,造价10万多人民币;另外一个是一只造型土土的粉红猪,没手没脚,只能滚动前行,是他们自己开发的,成本大概1000元左右。“它们的‘大脑’是一模一样的,”俞志晨紧紧抱着那只粉红猪说,“未来五年内,我们的客厅里很可能都会有一个它。”
无人驾驶汽车:给机器一双慧眼?
几天前,何搏飞刚参加了沃尔沃在北京组织的一次自动驾驶汽车的试驾,汽车在六环上以70公里的时速脱手行驶,但不时还是需要人为地介入去刹车。“老实讲,我一点不觉得他们的技术牛,再有半年时间我们应该就可以超越他们——在车道上保持脱手行驶,自动跟车,防碰撞,司机大可以在一边睡觉。”
这次试驾真正让他感到振奋的是,汽车制造商属于很保守的一个群体,一般来说,他们正在用的技术都是5年到7年前就已经成熟的技术,既然连他们都在提“自动驾驶”,可见新的时代很快就要到来了。“我相信无人驾驶在五年之内一定会发生,到时候就像有个司机为你开车一样,而且比司机更准确,更稳定,更安全”。何搏飞喜欢这样介绍自己的工作:给机器一双慧眼,让它们能看懂这个世界。他的创业伙伴赵勇曾经供职于谷歌研究院,是谷歌眼镜的核心开发人员之一。他们共同创办的公司叫格灵深瞳。在他们公司,一个与颐和园仅一墙之隔的中式庭院里,古色古香的回廊上到处可见“机器之眼”:他们为银行系统特别开发的三维传感器(传统光学镜头所捕捉的世界是平面的,二维图像会形成偏差,但三维传感器能模仿人眼的三维视角,更真实地还原世界),与后台算法结合之后,能精确记录、分析和识别每个人的动作姿态(包括暴力、跌倒等危险行为)、运动轨迹(包括越界、逆行、徘徊等可疑轨迹),并随时监控人群的异常状态,比如突然聚集或散开,并在事件发生瞬间向监控人员报警。
何搏飞是格灵深瞳创始人,它们给深瞳无人监控安防系统观看大量真实视频,让机器分辨什么是正常、异常。
站在这些摄像头前面,盯着静静闪烁着的绿色小灯,我一下子想到了美剧《疑犯追踪》里那个全知全能的“机器上帝”:遍布全美国的摄像头连接在一个人工智能上,它通过分析各种各样的数据,包括电话、图像、信用卡消费记录等,发现其中的异常模式,从而推断出某个人会在未来48小时面临危险,要么伤害别人,或者被人伤害。在最新的剧情里,机器上帝已经从一个变成了两个,甚至有了人间的化身,并试图以他们的逻辑干涉和改变人类的行为。
何搏飞谈到这部美剧也很兴奋,他甚至想把片头的一些镜头放到公司的宣传片里去,因为他们研发的机器也是专注于寻找“异常”:在人的“行动”中寻找异常。
在过去,安防监控提供的只有一个时间维度,比如发生了一件抢劫案,你大概知道什么时间,就去找那个时间相关的录像带。某国有大型银行在全北京有2万多个摄像头,他们的监控室里就是个大屏幕,同时能看110到120个摄像头,就是说轮200次能把全北京的画面轮一遍。但一个人盯着这么多东西根本没有意义,因为大多数场景是没有用的,要么没人,要么正常在取钱。
格灵深瞳所做的,则是利用“深度学习”的机制,给机器输入海量数据,用惩罚奖励机制训练它形成一种算法模型,能够在彼此相关的信息之间建立关联,并主动识别“异常”模式。比如系统挂在某个ATM机场景中,绝大多数时候人们进来之后就是排队取钱,操作几分钟后就走人,当数据量足够大的时候,机器就知道这是正常情况,一旦有人的行为跟它采集到的信息不一致,比如有人来了之后在键盘的地方搞了半天,系统就会自动将这一行为“识别”为异常情况,并及时做出“反应”。当然,误判的情况在所难免,毕竟人的肢体语言、行为太过复杂,一个人的手搭在另一个人的肩膀上,有可能是朋友,也有可能是挟持他,很难界定。在这种情况下机器只能是少一事不如多一事。
“人工智能真正超过人类,一定是它有了新的学习、获取知识的方式。今天的大数据第一是历史数据,第二是人为生成的数据,但如果有一天,计算机能够像人一样,每天获取的数据不是历史数据,而是实时数据,不掺入任何主观情感,而且,全世界的机器之眼都是联系起来的,它不仅认识你的脸,还包括你的姿态、动作、手臂摆动幅度、迈步的频率和幅度,那一天可能就是真正意义上的天网,在天网里有无数天眼在看着我们,它什么都知道。”
“至少目前为止,我们只关注人的行动以及行动产生的意义、价值、问题。”何搏飞说。他特别提到“行动”与“行为”的区别,行动是物理性的动作,可以计算和编程,行为则包含大量非数学的因素,包括心理、情感、道德等。正因为如此,他认为无人驾驶是他们的技术最佳的用武之地。说到底,车就是人类行动最纯粹的延伸:车是刚性的东西,只有行动,没有行为。规则只限定行动,无法限定行为。人跟人之间勾肩搭背可能是朋友,也可能是挟持,但是车跟车之间就是不能撞到一起,高速公路上,车就是不能停在那里,也不能倒着开,这些规则非常容易界定。“北京每天可能发生几十起车祸,可能大多数时候都是出于同样的错误,但人并没有从中学习,吸取经验。如果有一天车不是人在开,而是由一台联网的电脑来控制,它每天以小时、分钟为单位,不断地去琢磨车和车之间什么距离是最好的,多长的刹车距离才能控制得住,而且车跟路之间是有信息交互的呢?”“假设你坐在自动驾驶汽车中通过一座窄桥,一辆满载小孩的失控校车朝你猛冲过来。桥上没有地方允许两辆车错车而过。自动驾驶汽车能否做出决定驶下窄桥,以你的死挽救孩子的生命?”这是纽约大学的心理学教授加里·马库斯两年前在《纽约客》上提出的一个思想实验,以此说明,开车不单单是技术操作,还包括道德抉择。
“我觉得计算机根本不需要判断这样的问题,”何搏飞很快反应过来,“当无人驾驶真正实现的那一天,人、车、路三者能够完美地结合起来,计算机就不会犯人的错误,到跟前才发现有车向你猛冲过来,它老早就知道,老早就刹车了。”
和许多硅谷文化里浸淫久了的人一样,何搏飞对技术的未来有一种近乎天真的乐观。他认为,虽然现在机器还不够聪明,但比人更稳定,看得更清楚,所以我们让它辅助我们做事情。当有一天它比我们更聪明的时候,我们大可以放手让它去代替我们做事情。到时候,人类就会从各种劳动,包括智力性的劳动中解放出来,从而倾注更多的精力从事艺术性创造和科学发明的工作。
我的脑子里浮现出另外一部美剧《硅谷》中魔笛手公司的商务拓展Jared阴差阳错被智能车绑架那一段,是让人心生恐怖的黑色幽默。机器虽然越来越聪明,但它们不会质疑自己的行动,也无法理解行为的后果,所以,伴随其强大力量的,或许是加诸于人类的巨大风险。正如美国学者尼古拉斯·卡尔所说:“今天我们面临的是一场控制危机,而且,危机不在某个反乌托邦的未来,而是现在。”
编辑/汪琳 摄影/巴馨迪、姜南