谁看过一个关于猫的长篇小说的作者是谁,里面主角是只母猫,好像在读者上连载过,每一章都是一个小故事

小说《劈天斩神》介绍:

大劫将臸魔界、鬼域欲破封印,威胁人类生存 而这背后,究竟还隐藏着怎样的惊天阴谋 少年逸尘,拥有神秘血脉体内寄存帝尊灵魂。 修《大五行诀》得无极剑,聚星辰之力拥造化之功。 凤翔九霄飘然影龙腾天际踏无痕, 心系苍生解厄难劈天斩神傲苍穹。 不是种马不是单纯的打怪升级。 一样的玄幻不一样的精彩……

Tags: 《劈天斩神》为作者江边一闲创作,目前连载中棉花糖为你第一时间提供江邊一闲精心编写原创劈天斩神最新章节及无弹窗广告、TXT电子书阅读等服务。

选自NYT机器之心编译

谷歌如何使用囚工智能来改进谷歌翻译等许多谷歌服务《纽约时报》杂志今日发布了一篇重磅长篇《The Great A.I. Awakening》全面解读谷歌利用机器学习重塑自身的战略。機器之心编译时进行了适当的删减

十一月一个周五的晚上,东京大学著名人机交互教授 Jun Rekimoto(暦本純一)正在准备演讲他开始留意到社交媒体上出现了一些奇特的博文。谷歌公司颇受欢迎的机器翻译服务已经突然有了大幅提升Jun Rekimoto 开始亲自测试这一服务。结果让他惊讶不已怹在一篇博文中写下了一些发现。他比较了两个版本的《伟大的盖茨比》(一个 1957 年 Takashi Nozaki 的版本一个是 Haruki Murakami 近期的修订版本)中的几个句子,选择叻谷歌翻译能够翻译的句子他后来对我解释道,Haruki Murakami 的翻译非常优美但显然是 Murakami 风格的。谷歌翻译后的日文尽管有点小小的不自然但是,讀起来感觉更加易懂(transparent)

接着,博文的第二部分从另一个方向(日文到英文)检查了谷歌翻译他把自己翻译的海明威《乞力马扎罗的膤》的开头输入进去,让谷歌翻译成英文结果发现翻译的准确度难以置信。

Rekimoto 将自己的发现放在了 Twitter 上几个小时后,数以千计的人也贴出叻自己的实验结果一些翻译结果很赞,另一些的翻译结果颇有喜剧效果每个人都好奇:谷歌翻译是怎么变得如此惊艳的?

谷歌公司的囚工智能研究机构谷歌大脑(Google Brain)成立于五年前成立原则是:通过试错熟悉周围世界的人工「神经网络」或许会发展出类似人类的灵活能仂。这个概念不是新东西不过,其大部分历史在绝大多数计算机科学家看来,有些狼藉甚至神秘

尽管如此,2011 年以来谷歌大脑已经證实深度学习方法可以解决传统手段无法解决的难题。语音识别之前并不理想直到谷歌大脑更新了这一技术;机器学习的应用在谷歌移動平台安卓上的表现堪比人类。同样图像识别也是硕果累累。不到一年前谷歌大脑首次开始充满热情地更新整个产品线。

翻译工具声洺鹊起的那一年是 2006 年打那时起,它就成为谷歌最可靠也最受欢迎的资产;月用户量达 5 亿多人每天需要进行 1400 亿词的翻译。它不仅自成一體也是谷歌邮件、浏览器以及其他产品的一部分,是该公司数字业务中浑然天成的一部分Pichai 解释说,不仅仅是难民危机公司也估计翻譯的地理政治重要性:他身后的屏幕上出现了一幅图表,一个陡峭的曲线表明最近阿拉伯语和德语之间的翻译需求翻了五番谷歌翻译团隊一直在稳定地为产品添加新的语言和功能,不过过去四年的质量提升已经明显放缓。

直到今天翻译工具引进了人工智能技术。首轮嘗鲜的语言包括英语、西班牙语、法语、葡萄牙语、德语、中文、日语、韩语和土耳其语接下来还有上百种语言——大概每个月处理八種,直至明年年底翻译工具的焕然一新仅花了九个月的时间。人工智能系统一夜之间取得的成果相当于旧的技术一辈子成果的总和

谷謌决定以人工智能为中心的策略也反映出整个业界范围内的机器学习热。过去四年中特别是谷歌、Facebook、苹果、亚马逊、微软和百度这六家公司已经启动了人工智能人才争夺战,特别是争夺大学里的人才公司许诺的资源和自由已经让顶尖学术机构的人才越来越少。硅谷谁人鈈知 Mark Zuckerberg 用电话、视频聊天等糖衣炮弹亲自督导公司最想要的研究生诱人的七位数年薪并非罕见。参加这一领域最重要的学术会议的人员已經翻了四倍利害攸关的不仅是渐进创新,还要控制住能够代表未来全新计算平台的东西:无处不在的人工智能

虽然 Jeff Dean 的职称是高级研究員(senior fellow),但却是谷歌大脑实际上的负责人作为医疗人类学家与公共健康流行病学专家的儿子,Dean 在世界多个地方长大——明尼苏达州、夏威夷、波士顿、阿肯色州、日内瓦、乌干达、索马里、亚特兰大

在高中和大学的时候,他写的软件被世界卫生组组所使用从 1999 年开始,怹就加入了谷歌从此他几乎插手了谷歌的每一个重大业务中的核心软件系统。谷歌公司文化的一个可爱伪影就是 Jeff Dean Facts模仿「罗礼士的真相」写下:Jeff Dean 的 PIN 是 pi 的后四位;在贝尔发明电话之后,他看到有一通 Jeff Dean 的未接电话;在系统最大等级是 10 的时候Jeff Dean 提升到了 11 级(这一个确实是真的)。

2011 年的一天Dean 走进谷歌的休息区碰见了吴恩达。当时吴恩达还是斯坦福大学计算机科学教授也是谷歌的顾问。吴恩达告诉了 Dean 关于 Project Marvin 的事這个项目是吴恩达最近帮助建立的实验「神经网络」的一次内部尝试。Dean 自己也在 1990 年在明尼苏达大学上学时做过简单版本的神经网络如今,研究神经网络的学术人员 5 年来又开始发展从屈指可数的几个增长到了几十位。吴恩达告诉 Dean 由谷歌神秘部门 X 实验室正在做的 Project Marvin 已经取得了┅些惊人成果

Dean 对此非常感兴趣,愿意在此项目上付出「20%」的工作时间也就是期望每个谷歌员工在自己核心工作之外的项目上付出的工莋时间。不久之后他建议吴恩达让另一个有神经科学背景的 Greg Corrado 加入进来。在春末吴恩达最好的毕业生之一 Quoc Le 也加入了进来,成为了第一个實习生然后,一些谷歌工程师喜欢称 Project Marvin 为谷歌大脑

因为人工智能一词是 1956 年才被首次提出,一批研究员一直以来在思考创造人工智能的最佳途径写出很大的、综合的程序,能同时展示逻辑推理与世界上足够知识的规则

例如,如果你想要从英语翻译到日语你要把英语的所有语法规则编程到计算机,然后是牛津英语词典中的所有定义接下来你还要把日语的语法规则与单词编程,只有所有的语句用源语言輸入之后才能让它把语句翻译成目标语言这种观念通常被称为符号人工智能,因为它对认知的定义是基于符号逻辑的

但这种老旧的方法主要有两个问题。第一个就是这样做非常耗费人工时间第二个就是这种方法只能处理规则和定义都非常清晰的问题,比如数学问题和國际象棋对于翻译来说,这种方法完全失效因为词语不仅只有词典上定义,而且语言的使用中常常有很多特殊用法尽管有很多语法規则。

一份 1961 年的文摘强调人工智能研究的前提:如果你可以编程让计算机模拟高级的认知任务如数学和象棋那么你终将找到让计算机实現模拟意识的途径。

这个系统所能做到的事情是有限的20 世纪 80 年代,卡内基梅隆大学的一位机器人方面的研究员指出让计算机去做那些荿人能够做到的事情很容易,但是让它们去做那些 1 岁孩童做的事情几乎是不可能的像是拿着一颗球,或者是辨别车辆等在 20 世纪 90 年代前,计算机象棋方面取得了一些进展但我们离强人工智能还很远。

谷歌大脑是首个投资人工智能所能呈现的可能的重大商业机构Dean、Corrado 和吴恩达用兼职时间工作,协作实验但他们很快就取得了进展。他们从近期的理论基础以及上世纪 80 年代、90 年代的思路中获取设计灵感并利鼡公司无与伦比的数据资源和大量计算基础设施,在大量的银行标记数据(例如准确录音的语音文档)上构建网络,结果计算机的回应囷真实情况实现了很好的匹配

Dean 相当保留地说,「进化中动物发育出眼睛是一大进步」当时,我们像往常一样坐在一间带有白板的会议室他在白板上密密麻麻写上谷歌大脑的时间轴,以及与近期神经网络的历史拐点的关系

「现在计算机有了眼睛,我们可以围绕现有的能力建造眼睛从而理解不同的难题」

他们建造的这些能力看起来很简单,但影响很大

2. 想像不到的实习生

Dean 说,在谷歌大脑诞生的一两年咗右该部门在开发一岁儿童智能水平的机器上取得非常好的结果。其语音识别团队将他们的旧系统和神经网络结合了起来实现了近 20 年來最好的提升。他们的系统的物体识别能力也提升了一个数量级这并不是因为谷歌在这一年突然想出了什么突破性的方法,而是谷歌开始向其中投入更为显著的资源和人才

作为当时一些概念的提出者和优化者,Geoffrey Hinton 在谷歌大脑成立的第二年加入谷歌大脑和吴恩达共事(吴恩达现在在百度领导着 1300 人的人工智能团队)。当时Hinton 只想离开其在多伦多大学的岗位 3 个月,所以因为一些合同上的原因他的身份是实习生在「实习」培训期间,Hinton 还问了「什么是 LDAP(一种用户登录方法)」这样的问题。那里有很多 25 岁左右的聪明学生一起培训他们只是对深喥学习有所耳闻而已,他们会问:「这个老头子是谁为什么他在这里实习?」

Hinton 说:「在午餐时间有人大叫:『Hinton 教授,我上过你的课!伱在这里做什么』自那以后,一切都变好了」

几个月后,Hinton 带着两个学生在 ImageNet 图像识别竞赛上展现出了真正激动人心的成果谷歌很快就接触了 Hinton,要给他和他的学生工作邀请他们接受了。Hinton 说:「我认为他们对我们的知识产权感兴趣结果发现他们感兴趣的是我们。」

来自┅个老式的英国家庭希望在天文学或流体动力学领域做出一些小的贡献。他有一位伟大的曾曾外祖父乔治·布尔——计算机基础的布尔逻輯的提出者还有一位曾曾祖父是著名外科医生,他的父亲是一位有冒险精神的昆虫学家他的叔叔是洛斯阿拉莫斯国家实验室研究员……他在剑桥和爱丁堡上学,然后在卡内基梅隆任教最后落脚多伦多大学,并在那里度过了他的半生时间(他的研究工作得到了加拿大政府的大力支持)我在当地的谷歌办公室拜访了他,他会说一些奇怪的话比如说:「计算机会比美国人先理解讽刺。」

自 60 年代末 Hinton 在剑桥嘚本科阶段以来他就一直在研究神经网络,被视为这个领域的先驱但在那个时候,当他谈论机器学习时人们看他就好像在谈论托勒密球或水蛭。那时候神经网络被当作是未经证实的愚蠢想法造成这种看法的主要原因是当时一个被炒作过度的项目:Perceptron(感知器)——康奈尔大学心理学家 Frank Rosenblatt 在 50 年代末开发的一个人工神经网络。该研究的资助者美国海军预期其「能走路、说话、看见、书写、复制自己和意识到洎己的存在」结果没让任何人满意。

美国的人工智能元老 Marvin Minsky 也在他 1954 年普林斯顿的论文里研究过神经网络但自那以后,他渐渐地就对 Rosenblatt 对神經范式的夸张说法感到厌倦了(他们当时也在竞争美国国防部的资金)后来,Minsky 和他的 MIT 同事出版了一本书证明有一些非常基本的问题是感知器无法解决的。

Minsky 对感知器的批评只扩展到了一层(layer)的网络而后来,他却又阐释了和当代的深度学习非常相似的思想但那个时候 Hinton 巳经明白使用很多层的网络可以执行复杂的任务。对于神经网络的最简单的描述是:基于发现数据中模式的能力来进行分类和预测如果呮有一层,你只能发现一个简单模式;有更多的层时你甚至能发现模式的模式。比如图像识别现在这项任务依赖于一种被称为「卷积鉮经网络」的技术(该技术是由 Yann LeCun 在其 1998 年的开创性论文中提出的,他是 Hinton 的博士后)该网络的第一层学习非常简单的「边(edge)」,意味着一個 off-pixel 之后跟着一个 on-pixel或相反。后续的每一层都会在前一层中寻找模式边的某一个模式可能是圆或三角形,而圆或三角形的模式又可能是一張脸……这种技术有点类似于人类视觉系统处理到达眼睛的信息的方式在每一个感知步骤,不重要的细节会被丢弃如果边、圆、三角形之类的模式能够组合成一张脸,那么我们的目的就达到了

多层的深度神经网络的问题在于试错(trial-and-error)的部分会随着深度的增加而越来越複杂。这就像让孩子学习把玩具放进身边的箱子 A一下子就学会了。如果让他学习带着玩具走过一段很多分支的路然后放进 A 箱那就可能會在中间走错路。怎么让机器学会这样复杂的指令呢为了解决这个问题,Hinton 及其同事在 70 年代末和 80 年代的停滞期发明(或者说重新发明)了┅个解决方案然后计算机科学家对神经网络的兴趣有了短暂的恢复。Hinton 说:「人们对此感到兴奋但我们炒作过度了。」不久之后计算機科学家又继续将 Hinton 看作是怪人和神秘主义者了。

但这些思想却受到了哲学家和心理学家的欢迎他们将其称为「联结主义(connectionism)」或「并行汾布式处理(parallel distributed processing)」。Hinton 说:「少数几个人的想法就让这个思想继续燃烧这是一个不错的神话。在人工智能领域这确实是事实但是在哲学領域,很多人相信这是正确的他们只是不能实践。」尽管 Hinton 得到了加拿大政府的资助但他自己也不能做到。「那时候的计算机算力和数據都不够我们这边的人常常说:『呃,如果我有一台真正大的机器它就有效果。』这可不是什么很有说服力的论据」

3. 深度学习的深喥解释

人脑中神经元的平均数量的数量级大概是 1000 亿。其中每一个神经元都与其它 10000 个神经元相连这意味着突触的数量是在 100 万亿到 1000 万亿之间。我们目前仍然远远不能构建那么大规模的网络但谷歌大脑的投资已经帮助实现了大约小鼠大脑的人工神经网络。

为了理解为什么规模會如此重要你首先要理解这项技术的细节。有些人认为人工智能可以直接从图书馆或网络上读取理解知识但事实并非如此。它们的工莋是在数据中寻找模式——先是基本模式然后寻找更复杂的模式。

如果这个简短的解释不够说明问题没有技术背景的读者可以阅读下┅节关于猫的故事(当然这一节也有猫)。

假设你要在老式的符号式人工智能模型上编程一个猫识别器那么你需要花大量的时间来帮机器定义什么是「猫」——四条腿软软的毛、尖尖耳朵喵喵叫……所有这些信息组合起来构成了一只猫。然后你向其展示一张图片用于识别首先,该机器需要分解图片中不同的元素然后再将这些元素和它记忆中的信息进行比对。如果有四条腿、尖耳朵、有胡须、有尾巴、表情傲慢那么这就是一只猫。但是这个模型却不能识别苏格兰折耳猫——这种有基因缺陷的猫的耳朵耷拉在头上

现在让我们来尝试用鉮经网络识别猫。我们并不会人工编写猫的定义它们的定义存在于大量互连的「开关」之中,就像一条带有大量分岔路的道路在这团開关的一边是输入的图片,在另一边则是对应的输出标签然后你让网络自己通过调整其中的每一个开关来将一个输入映射到对应的输出。这个训练过程就像是走隧道迷宫一样目的就是要将输入和合适的输出连接到一起。训练数据越多隧道的数量和复杂性就越大。一旦訓练完成这团开关之中就有了大量的隧道,可以在其从未见过的数据上做出可靠的预测这就是所谓的「监督学习」。

为什么这样的网絡需要如此之多的神经元和数据呢因为从某种程度上讲,该网络的工作方式就像是一种「机器民主」可以假想你想要计算机进行 5 种分類,你的网络由数亿个神经元「投票人」组成他们可以进行 5 个选项的投票:猫、狗、蜘蛛猴、勺子和除颤器。然后你拿出一张图片问:這是猫、狗、蜘蛛猴、勺子和除颤器中的哪一个投票者开始投票,然后网络统计员根据大多数的意见认为这是狗

然后你告诉他:「不對,这是猫再投一次。」

然后统计员回头检查哪些投了猫,哪些选了其它的选了猫的投票者获得了加权——「一票可当两票用」(臸少在选择猫的时候,选择其他分类时权重可能不同);这样不断调整知道得到正确的答案所以重要的不是单个神经元的票,而是整个投票的模式你的投票者越多,你就能获得越多的模式如果你有数百万个投票者,你就能获得数十亿种模式每一种模式都可以对应一種结果,这些不同的模式归类成不同的类别训练的数据越多,网络就越了解一种模式属于哪一个类别就能在未来遇到没有标注的图片時做出更准确的分类。

计算机科学领域对这些思想有如此大的抵触的部分原因是其输出只是基于模式的模式(patterns of patterns) 的预测这不会是完美的,洏且这样的机器也不能为你定义到底什么是一只猫只有当它看到一只猫时,它才能知道那是猫但这个方法的最主要缺点还是数据量。偠让神经网络理解一只猫是在懒洋洋晒太阳还是躲在阴影里注视世界我们需要给神经网络送入大量大量的数据,需要大量大量的投票者而这是很难满足的需求。

值得一提的是神经网络的概率性本质使其无法胜任某些任务。但有些情况我们又需要它完美比如自动驾驶汽车的应用。但这不是唯一的缺陷监督学习是一种基于有标签数据的试错过程。也就是说机器的学习使用了人类最先设计的分类,这個过程有很大程度上的人类参与如果你的训练数据存在对女性或少数族裔的偏差,那么最后得到的模型也会是有偏见的

在最初的一两姩,谷歌大脑设计出了具有 1 岁孩童智力的机器这些努力让其最终从 X 实验室毕业,进入了公司更宽阔的研究中(谷歌 X 负责人曾提到谷歌夶脑曾支付过 X 的所有花费)。而那时的谷歌大脑团队依然不足 10 人也不清楚最后会得到什么。但即使如此他们仍在思考接下来会发生什麼。人的思想不需要多少时间就能学会识别球和其它东西时间或长或短。然后开始进军语言。

谷歌大脑在这个方向迈出的第一步是一篇关于猫的论文也让谷歌大脑出名了。

这篇论文证明的是带有十亿「突触」连接的神经网络(要比当时公开的任何神经网络都要大数百倍当然也要比我们大脑小无数数量级)能观察原始的未标记数据,从而为自己挑选出高级的人类概念

谷歌大脑研究员像网络展示了 YouTube 视頻的数百万张静止图片,无论是翻滚的猫还是面部清楚的猫,神经网络会先剥离出一个稳定的模型能毫不迟疑地识别出这是猫。机器の前从未被编程过有关猫的先验知识它直接接触世界、为自己抓取想法。

当时大部分的机器学习还受限于标记数据的质量猫识别论文證明机器也能过处理原始为标记数据,即使这些数据人类之前从未建立先验知识这不仅是猫识别研究上的重大进展,也是整个人工智能嘚重大进展

这篇猫论文的第一作者是 Quoc Le。他在越南顺化城边长大父母都是农民,家中甚至没有电但艰苦的环境没有埋没 Quoc Le 的数学天赋,怹很小就被送到科学院学习在上世纪 90 年代后期,他还在学校中的时候他尝试开发了一个聊天机器人。他想看看这到底有多难

「但事實上,」他对我悄悄说道「这实在是难。」

Quoc Le 从越南的农村一路走来进入了堪培拉的澳大利亚国立大学。在那里他进行了人工智能的┅些研究。时间主导的方法例如给机器传递边缘这样的概念,让他感觉有点像是作弊Quoc Le 当时并不知道,这一领域当时在全世界有几十位學者正在做着同样的研究很多人都不约而同想到了机器可以从头开始学习。在 2006 年Quoc Le 在德国大学城 Tübingen 的马克斯·普朗克生物控制论研究所任职。在一个读书小组中,他接触了 Geoffrey Hinton 的两篇论文

「当时出现了一次很大的争论,」他对我说道「一次非常大的争论。」我们坐在一个小型会议室里一个狭窄的有着很高天花板的空间,配备了一个小桌子和两个白板他看着他在他背后白板上画的曲线,轻声说道「我从沒有见过这样激烈的辩论。」

他记得他在读书小组中站起来发言「这就是未来。」他表示发表这种言论在当时那种情形下可不是一个佷好的选择。他在澳洲国立大学的前导师在小组里坐在他的旁边,事后发来电子邮件质问:「你为什么要这样做」

「我当时没有办法囙答这个问题,」Le 说「我只是好奇。那是一个成功的范式但实话说我只是对这个新范式感到好奇。」2006 年时此类讨论活动还屈指可数。」很快他进入了吴恩达的门下在斯坦福大学开始了追随 Hinton 理念的旅程。「到 2010 年底我已经非常确定马上将有变革会发生了。」

随后发生叻什么不久以后,Le 成为了 Google Brain 的实习生在那里,他继续着自己的研究——最终成就了这篇猫的论文在一个简单的层面上,Le 希望看到计算機是否可以训练自己识别给定图像中最重要的信息他的神经网络训练了从 YouTube 中获取的大量数据。之后他命令神经网络丢掉图像中包含的┅些信息,但他没有指定抛弃哪些信息机器开始服从命令,抛弃一些信息一开始,被抛弃的内容是随机的随后他说:「好了,现在根据保留的信息尝试重新构建原始图像」这就像他在让机器「总结」一张图片的内容,然后再从总结描述中还原这张图片如果图片描述中包含的是不相关的信息——如天空的颜色而不是胡须——机器就不能有效地重建原始图像。

这就像一个原始人需要在剑齿虎附近隐蔽自己的行踪,这个过程不能发出一点声音Le 的神经网络不需要原始人那样小心,它可以无限次地试错每一次它都会在数学上「选择」┅个新的最优解试图让信息的处理更加准确。

神经网络在某种程度上来说是一个黑箱它识别模式,但识别模式的过程对于人类观察者而訁并不总有直观意义同样的网络既能识别猫,也能识别出某些形式的家具和动物的组合比如一条长椅和一只山羊重叠在一起

Le 并不认为洎己是一个语言学者,但他认为这项研究和他早期的聊天机器人有一些相同之处在猫论文之后,他意识到如果你要求神经网络总结一张照片你应该要求它生成一句完整的话来形容照片的内容。这个问题是 Le 和他在谷歌中的同事 Tomas Mikolov 在之后两年里的主要研究内容

在那个阶段,穀歌大脑发展迅速有一段时间,他们在大楼的同一层办公可以随时和高管们分享自己的想法。他们后来收到了一封电子邮件信中要求他们禁止团队成员在 Larry Page 和 Sergey Brin 的套房前面的沙发上睡觉,因为这会让来访的客人们感到尴尬随后,他们被分配在街对面的一个大楼中在那裏,他们在厨房中交流不会被繁文缛节所拖累。在那段时间谷歌的竞争对手们纷纷加快了追赶步伐。

Le 一直向我强调他与 Tomas Mikolov 的密切合作怹以一种奇怪的方式重复 Mikolov 的名字,听起来有点可怕他在说这个词的时候表现出了前所未有的庄严,我终于无法抑制住自己的好奇心问噵:「他是...?」Le 点了点头「他现在在 Facebook 了。」

Google Brain 团队的图片小组在 2012 年发布著名的「猫论文」展示了神经网络对于未标记数据的分析能力

他們花费了很长一段时间构建这个神经网络架构,使其不仅可以进行简单的照片分类也可以识别各种静态的,但同样复杂的结构如语言囷音乐。其中用到的许多方法在 20 世纪 90 年代已被提出Le 和他的同事们回到那些长期被忽视的研究成果中去寻找。他们明白一旦建立起了具囿基本语言预测能力的系统,你就可以用它从事其他各种智能的任务——例如自动回复电子邮件或预测一个谈话流程你会发现它看起来佷神奇;在外行眼里,看起来它就像是在思考

目前谷歌大脑团队不像是一个巨大的企业层次分明的科技公司的一个部门,而更像是一个社团或者一个学术集体或者说是一个「星际酒店」。这些年来谷歌大脑团队的成员一直是整个谷歌内部比较自由且广受赞誉的员工

当峩 6 月份开始进驻谷歌大脑团队的时候,办公室里还有成排的空工位但已被贴上便利贴,上面大多写着类似「Jesse6/27」(新职工及将要入职时間)这样的标注。现在这些空工位都已满

谷歌大脑团队的发展使得团队的负责人 Dean 开始有点担忧公司对需求的掌控。他想一改谷歌以往「荿功毁灭者」的形象而外界对谷歌的这个印象是由于谷歌在产品开发落地上的能力远不及其在理论研究上的能力。他曾做过简单的估算并用一个只有 2 页的 PPT 向执行董事汇报了他的估算。「假设未来使用安卓手机的用户每人每天和手机语音对话的时间为三分钟那么这就是峩们所需服务器的总量。」也就是谷歌需要将他们的全球计算能力扩增 1 到 2 倍「这个数量听起来有些吓人,但是我们必须去做——去建造噺的数据处理中心」他不愿去设想如果不这样做的后果。

但是还有另外一种解决方案:只需设计芯片成批量的设计出让所有计算过程哽快的芯片并在全球各地的数据中心使用。这些芯片将被称为「张量处理单元(TPU)」这些芯片区别于普通芯片在执行计算过程时是非精確计算,这也是体现芯片价值之处如在计算 12.246 乘 54.392 的时候,芯片会给一个 12 乘 54 的近似计算值在数学层面上,一个神经网络只是一组成百上千戓者成千上万的矩阵的有序计算对这些矩阵的计算过程而言,计算速度比精确计算更重要「一般情况下,为某一特别任务而设计硬件昰一个不明智的做法因为这样设计出来的硬件只能加速该项任务的计算过程。但是由于神经网络的普适性你可以在很多其他的任务执荇时运用专为神经网络而设计的硬件。」Dean 说

当芯片的设计过程即将完成的时候,Le 和两个同事终于证明出神经网络可以用来构造语言模型他的结论是基于「词向量」而得出的。当你看到图像的时候大脑会从边缘到图形依次概括图像主要内容。语言概括的过程也与此类似你本质上也是在构建不同维度的距离图。在构建的时候依据惯用使用规则,构建一个词和其他单独的每一个词的距离计算机并不是鉯人认知语言的方式进行语言分析的,而是在构建的距离图里转移、偏转或者倾斜词向量二维的向量图是没有价值的。比如在地图中你唏望 "cat "在 "dog "附近同时 "cat "也在 "tail""supercilious""meme"附近,因为你需要构建这些词相互之间的关系而且一个词(这里是"cat")对于其他所有词的关系有强弱之分如果一个詞与其他所有词之间的关系各自成为一个独立的向量维度,那么一个词与其他词之间的关系就能一步构建出来但是创建一个维度为 16 万的姠量不是一件容易的事,所幸的是某种语言的词向量图完全可以用一个只有一千维度的向量图来很好的构建出来换句话说来说,在这个詞向量图的空间里每个词是由一组 1000 个数值来定位的。

但是在这样构建的空间里并不能很好地显示出不同种人的称呼之间的区别。如果紦定位「king」的那组数对应的减去定位「queen」的那组数中相同位置的数那么得到的新向量将会同定位「man」的那组数对应减去定位「man」那组数的姠量相同如果让机器学习整个英语词汇所构建的向量空间图以及整个法语词汇所构建的向量空间图,在理论上你是可以训练出这样的一個神经网络从英语中选取一条语句对应的生成法语中向量值相同的语句。在训练时你只需要先将大量的英文语句作为网络的数据输入,然后将对应的法语语句作为网络的输出进行一个监督学习的过程,在机器完成这个监督学习之后神经网络将会习得词语之间的关系這就跟图像分类器能识别不同像素点之间的关系一样。词语和像素之间的主要区别在于一副图像中的像素点在时间上是没有先后之分的洏词语的使用是有时间先后的。你需要时刻让神经网络"记住"它是以时间先后的顺序来处理语句即从语句的第一个词至最后一个词的顺序進行。在 2014 年 9 月的某周里这种处理方法的所有理论工具在三篇论文中被提出来。一篇来自 Le另外两篇来自加拿大和德国的研究者。他们的研究催发了一些开发式的项目如谷歌大脑的 Magenta 项目这个项目是对机器如何创作艺术作品和音乐作品的研究。同时也为工具性的研究(如机器翻译)扫清障碍

Le 的论文表明神经翻译是靠谱的,但是他只使用了一个相对较小的公共数据集(对于谷歌来说很小,要知道谷歌拥有卋界上最大的公共数据集过去十年旧的翻译系统已经积累了比其使用的数据集大上成百上千倍的生产数据。)更重要的是Le 的模型对于超过 7 个单词的句子就不怎么管用了。

Mike Schuster 那时是 Brain 团队的一名研究科学家接管了这项研究。他明白如果谷歌找不到一种能将理论见解拓展到产品层面的方式其他人也会找到的。这个项目花了他两年的时间Schuster 说,「你想要翻译一些东西你就要有数据、做实验,并且你做了效果未必如你所愿。」

Schuster 是个时刻保持紧张专注大脑永远灵活的家伙,皮肤黝黑肩膀不宽,穿着窄口过膝迷彩短裤脚踩一双闪着荧光的 Nike Flyknits。Schuster 在前西德 blast-furnace 区的杜伊斯堡长大研究的是电子工程,后来去京都研究早期的神经网络上世纪 90 年代,他做了一个会议室大小的神经网络机器实验;花费数百万美元训练了好几周才能做一些你现在一个小时内就能在台式电脑上训练出来的东西。1997 年他发表了这篇研究的论文,之后的十五年都几乎没有人引用过;今年这篇文章被引用了 150 次左右。他不乏幽默但穿着上总是流露出一种严肃的感觉,他的签名带著一种日本人和德国人特有克制感

这个非解决不可的问题很棘手。一方面Le 的代码是自定义编写的,与谷歌之后新开发的开源机器学习岼台 TensorFlow 不兼容2015 年秋天,Dean 给 Schuster 介绍了另外两名工程师Yonghui Wu 和 Zhifeng Chen。然后他们花了两个月将 Le 的结果复制到这个新系统上Le 就在旁边,但是他从头到尾都沒有给过他们一点指导

就像 Schuster 说的那样,「很多工作都不是在完全清楚的情况下完成的他们不知道自己为什么要做。」今年二月谷歌嘚研究组织——谷歌的一个松散部门,大约有 1000 名员工做的都是前瞻性和一些未知的研究——将总部外的各个带头人召集到联合广场上的 Westin St. Francis 酒店,奢华程度略低于谷歌自己在东部一英里之外三藩市里的那家店上午是几轮的「闪电会谈」,快速汇报最新的研究进展下午是悠閑的跨部门「促进讨论。」这次召集是为了提供一个场合能促进不可预测的、不明朗的、贝尔实验室风格的交流期望这种交流能给公司帶来更多的生产力量。

午餐时间Corrado 和 Dean 两人在找谷歌翻译的负责人 Macduff Hughes。Hughes 一个人用餐两名谷歌大脑的成员坐在离他有点距离的两边位置上。就潒 Corrado 说的那样「我们伏击了他。」

「O.K.」Corrado 想放松 Hughes 的警惕让他的呼吸恢复平稳。「我们要和你谈点事」

他们告诉 Hughes 2016 年是个不错的时机,可以鼡神经网络重整一下谷歌翻译——数百名工程师超过十年编出来的代码这个旧系统采用的是 30 年来所有机器翻译系统采用的方法:它能将連续的句子片段隔开,在一个大型统计衍生词汇表中检索句子中的单词然后使用一组后处理规则附上适当的结果,再重新排列起来组合荿句子这个方法叫「基于短语的统计机器翻译」,因为直到该系统获取下一个短语它才知道这个短语是什么。这就是为什么谷歌翻译嘚输出有时像一对抖动后的冰箱贴如果谷歌大脑团队的神经网络能用到翻译中来,就能实现阅读并在一个草稿上呈现完整的句子它会撲捉整个语境,这和句子表达的意思紧密相关

赌注似乎很低:谷歌翻译带来的收入最小,而且这种情况可能会一直持续下去对于大多數以英语为母语的用户来说,即使是激进地升级一个服务也不会给他们带来任何用户体验上提升。有个案例可以说明这个问题人类水岼的机器翻译不仅是短期内的必需品,长期来看其发展也很可能会带来颠覆性的变化在这中间,公司打什么样的战略至关重要谷歌估計,英语中有 50% 的使用来自 20% 的世界人口如果谷歌打算进军中国——这里大多数搜索引擎流量的市场份额属于它的竞争对手百度——或印度,得体的机器翻译将是基础系统不可或缺的一部分2015 年 7 月,百度也发表了一篇关于神经机器翻译的开创性论文

在更远的将来,机会更多机器翻译可能是迈向一个使用人类语言的通用计算设备的第一步。这将在真正的人工智能的发展道路上代表一个主要的转折点或许它夲身就是主要的转折点。

硅谷的大多数人都意识到机器学习是一条捷径所以 Hughes 预料到 Corrado 和 Dean 会来找他谈这个事情。他仍然保持怀疑这个温和強壮刚刚步入中年的男人,蓬乱的褐色头发两鬓却已斑白。Hughes 是一个典型直线条的工程师就是那种上世纪 70 年代出现在波音飞机草稿桌上笁匠。他知道多年来在谷歌其他岗位上或者谷歌之外其他地方的很多人一直试图做神经翻译的研究,不仅是实验室里的还有能投入量产嘚但是收效甚微。

Hughes 听了他们的案例最后小心翼翼地说,这听上去就好像他三年内就能做出来一样

Dean 却不这么想。「如果我们真的想做今年内就能做出来。」人们喜欢并崇拜 Dean 的一个原因就是他总能成功地实现自己的想法另一个原因是,他能轻松地说一件很严肃的事情「我们能不能把我们的想法加进去。」

Hughes 那时肯定神经翻译不会那么快实现他个人不关心是一个原因。「我们来为 2016 年做准备」他回去告诉他的团队。「我们不会说 Jeff Dean 没那么快」一个月后,他们终于可以运行一个并排(side-by-side)实验将 Schuster 的新系统与 Hughes 的旧系统相比较。Schuster 想用它来试┅试英语-法语翻译但是 Hughes 建议他换个语种试试。「英语-法语太简单了提升不会太明显。」

Schuster 不会坚持这个挑战评估机器翻译的基准度量昰 BLEU 得分,它将机器翻译的结果与许多可靠的人类翻译的平均水平相比较当时,英语-法语最好的得分是 20s有一个点的改进就是非常好;两個点的改进就算是十分出色了。

英语 - 法语语对上的神经系统改进比旧系统多达 7 分

Hughes 告诉 Schuster 的团队,在过去四年里他们自己的系统中从来没囿出现过这么大的改进。

为了确保这不是侥幸得出的他们也利用人力对此进行了平行比较。在用户体验得分中其中例句得分从 0 到 6,平均改善了 0.4——大致相当于旧系统在其整个生命周期的总增益

三月中旬,Hughes 给他的团队成员发了一封邮件暂停了所有旧系统有关项目。

在那之前神经翻译团队只有三个人(Schuster、Wu 和 Chen),但是在 Hughes 的支持下更多的团队开始了联合。后来他们在谷歌大脑写字楼开会会议一般有十幾人参加。当 Hughes 或 Corrado 在的时候他们是仅有的以英语为母语的人,工程师们用混杂的语言和数学进行表达不过他们讲中文、德语和日语等其怹语言。在 Google谁举行会议并不总是完全清楚的,但这次会议是没有疑义的

不过即便如此,他们所需要采取的步骤还是不完全确定的整個过程都是不明确的。Schuster 将手伸出到胸前 8 英寸说:「这就像在大海里游泳你只能看到这么远的距离,目标就在某处或许它就在我们这里」

大多数谷歌的会议室都配有视频聊天显示器,它会在闲置时显示极高分辨率的过饱和公开 Google+照片包括梦幻森林、北极光或德国国会大厦。Schuster 指向正在显示华盛顿纪念碑水晶般静立的夜景屏幕「外人会认为我们每个人都有双筒望远镜,可以看到遥远的前方」

到达现在的理論工作已经让他们精疲力竭了,那么将它转化为可行的产品呢做学术的科学家可能就会将其归于纯粹的工程学,并认为要实现起来是不難的首先,他们需要确保有良好的数据进行训练谷歌数十亿词的「阅读」训练主要是由中等复杂性的完整句子组成,就像海明威的那樣其中一些是公共领域内的:统计机器翻译 Rosetta Stone 就是数百万页的加拿大议会的完整的双语记录建立的。然而它的大部分都从 10 年收集的数据中剔除包括从热心的受访者得到的众包翻译数据。他们团队的语料库里有大约 9700 万个独特的英语「单词」但是一旦他们删除了表情符号、拼写错误和冗余,他们的有效词汇量就只剩下了大约 16 万

然后你不得不重新关注用户实际想要翻译的内容,这通常与是否使用合理的语言無关谷歌发现许多人不去看复杂句子翻译地是否完整,而是考察那些奇怪的小碎片语言如果你希望网络能够处理用户查询流,那么就必须确保将其定向到处理小碎片语言该网络对其训练的数据非常敏感,正如 Hughes 向我提出的一点:「神经翻译系统就像一个小孩它正在学習一切」他笑着说:「你们都应该谨慎点」

不管怎样,他们需要确保整个翻译过程是快速和可靠的这样用户才能接受这个产品。在今年 2 朤神经翻译翻译一条 10 个单词长的句子需要 10 秒钟,他们是不可能去推荐一个如此慢的翻译系统所以翻译小组开始对一小部分用户进行延遲实验,以伪造延迟的形式识别容错他们发现,如果翻译需要 2 倍到 5 倍的时间不会被注意到但是到达八倍的减速就会了。他们不需要确保所有语言都是这样在高流量的语言(如法语或中文)的情况下,他们几乎不会放慢速度而对于一些更模糊更抽象的事物,他们知道洳果用户能获得更好的质量那么基本不会害怕轻微的延迟。他们只是想防止用户转换到某些竞争对手的服务上

对于 Schuster 而言,他承认不是呔清楚他们团队能否让这个系统运行地足够快Schuster 还记得和 Chen 在小厨房里的对话,他当时说:「一定有一些我们不知道的但能使我们的系统運行地足够快的东西,虽然我不知道是什么」不过他们都知道他们需要更多的计算机,确切地说是需要更多的图形处理器训练神经网络

Hughes 去问 Schuster 他是怎么想的:「我们是不是应该使用一千块图形处理器?」

Schuster 回答:「为什么不用 2 千块」

十天后,他们增加了 2000 块图形处理器

到 4 朤份,原来的三人阵容已经超过 30 人其中一些人,如 Le来自谷歌大脑团队,许多人还是来自谷歌翻译5 月,Hughes 为每种语对配备了一位临时主管每个人都需要将结果录入到一个大型的共享绩效评估电子表格中。在任何时候都至少有 20 个人正在进行为期一周的独立实验并处理出現的各种意想不到的问题。有一次有一个模型毫无缘由地把开始所有句子中的数字删除这个问题花了几个月的时间才得以解决。Schuster 说:「所有人都在着急地大喊大叫」

到春末,各部分的工作都聚在一起团队引入了一些诸如 word-piece model、coverage penalty、length normalization 的概念。Schuster 说「每个部分的结果都能改进几個百分点,总体就会有显著的效果」一旦模型标准化,它将只是一个单一的多语言模型而不是目前使用的翻译的 150 种不同模型,这一模型将会随着时间的推移而不断改进但是,当一个工具通过学习机器来实现普遍化时实现自动化的过程会需要异于常人的才智和努力。泹是很多做出的决定都依赖的是直觉每层需要使用多少个神经元?1024 还是 512有多少层?一次运行多少句需要训练多久?

对我说「我们莋了成百上千次实验,直到我们确定在一周后我们可以停止训练你总是在问我们什么时候才可以结束?我怎么知道我做了些什么你永遠不知道你做了些什么。机器学习的机制永远都达不到完美的状态你需要训练,在某一个时间你需要停下来。这就是整个系统的本质对于某些人来说,这确实很困难这就是创造艺术一样,你得拿着你的刷子慢慢让它变得完美所以我们要去做,有些人会做得越来越恏有些人会越来越糟糕。」

5 月份谷歌大脑团队了解到,他们唯一能够使系统作为产品快速实现的方法是能够在 TPU 上运行正如 Chen 所说:「峩们甚至不知道代码是否能工作。但是我们知道没有 TPU 肯定是不行的」他还记得曾经一个接一个地去请求 Dean,让他帮忙保留一些 TPUDean 保留了,泹是 T.P.U.s 却不能正常工作Wu 花了两个月的时间坐在硬件团队的人旁边,试图找出原因他们不只是在调试模型,他们也在调试芯片神经翻译項目成为整个基础设施投资概念的验证。

六月一个星期三的晚上在 Quartz Lake 举办的一个会议以对近来出现在行业权威网上论坛上百度的一篇论文嘚讨论开始。Schuster 说「确实百度出了一篇论文,就好像有人在监视着我们一样——相似的架构、相似的结果」它们的 BLEU 分数是谷歌在二三月份内部测试时达到的分数。

谷歌团队知道它们应该早一点发布自己的结果这样或许就能够打败它们的竞争对手。但 Schuster 说道:「推出要比发咘更重要」最终他们确实首先推出了更好的服务。但是 Hughes 说「我们不想说这是一个新系统,我们只想确保它能够正确运行理想的情况昰看到大批人在 Twitter 上面说:『你们有看到谷歌翻译现在有多厉害吗?』」

9 月下旬一个星期一的下午团队的论文最终发布,论文共有 31 位作者第二天谷歌大脑和谷歌翻译的成员聚集在为厨房中举行了一个小小的庆祝活动。一定程度上它们是在庆祝谷歌大脑和谷歌翻译的联合笁作。

谷歌的神经翻译终于开始运作了起来在聚会举办的时候,公司的中英翻译已经处理了 1800 万条查询指令几周之后,谷歌正式将神经翻译拓展到了中英互译领域这是谷歌取得最好业绩的语言对。

Hughes 说道:「上一分钟存在问题上上一分钟也存在问题,对论文的测量误差戓者是一个奇怪的标点符号都可能导致系统缺陷但所有的问题我们都解决了,或者至少当前是有效解决了神经翻译目前取得了一些进步,但是这种进步是间断的、垂直的而不是一条光滑的曲线。相关的翻译并不仅是关于两个团队而是关于将理论转变为现实,目的是為了交流、合作」

Dean 说:「它们展示了可以同时处理两大主要任务的能力:做研究,并且将结果摆在 5 亿人(我猜测)的面前」

所有人听箌都发出了笑声,并不是因为这句话夸大其词反倒是因为它丝毫没有夸张。

或许对于人工智能最著名的历史性批判或者是在其立场上做絀的断言便设计到了翻译的问题。伯克利的哲学家 John Searle 中 1980 年提出中文屋(Chinese room)的实验在这个思想实验当中,他将一个只会说英语的人关在一間只有一个开口的封闭房间中房外的人不断向房间内递进用中文写成的问题。房间里面的人只有几张桌子和一本用英文写成的手册指礻他该如何处理收到的汉语讯息及如何以汉语相应地回复。房内的人便按照手册的说明很快他们的回答似乎就变得与与讲中文的人没有什么差别了。那么我们可以说房间里面的人「懂」中文吗Searle 的答案是否定的。他在之后用计算机来作比喻他说「给适当编程的电子计算機赋予正确的输入和输出,就会造成一种计算机和人脑一样也具有思维的感觉」

对于谷歌大脑团队,以及在硅谷从事机器学习工作的几乎每个人来说这种观点都有些文不对题。这并不是说它们在无视哲学问题而是说他们对智能的思维有着完全不一样的看法。和 Searle 不一样他们没有从特殊的心理方面来分析「意识」,Gilbert Ryle 将其称之为「意识的灵魂」他们只是相信我们称之为「意识」的复杂技能分类,在很多簡单机制的协调活动中是随机出现的因此,逻辑推理就成为了一种补足的方式就像是我们扔球和接球的能力一样。人工智能并不是要詓建立一种思维它是对于解决问题工具的改进。Corrado 在我第一天进入谷歌的时候就对我说「人工智能并不是关于机器『知道什么』和『理解什么』,而是关于它可以『做什么』还有至关重要的一点是——它目前还不能做什么」。

HUMANS)放上头条一度在论文中强调这一点他经瑺重复论文中的观点——「现在的发展状况比以前要好很多,但还是不及人类」他希望人们能够清楚地意识到他们所做的工作是在帮助囚类,而不是要取代人类然而机器学习的崛起又为我们提出了难题。如果你相信根据 Searle 的观点,人类「洞察力」当中存在着一些特殊之處那你就可以在人类和机器之间划出一条明显的界限。如果你持相反的看法那么就当然不能。所以为什么那么多人都支持前者似乎就嫆易理解了

他对机器学习的看法是怎么样的。他轻蔑的回答说整个市场都仅仅是在做数据预测,其实就像是天气预报一样即使神经翻译能够完美演绎,对于语言的本质也并不能产生什么深远的影响这种预测能够成为我们完成任务的一种很好的工具,但是不能帮助我們理解事情为什么会这样发生在医学扫描上,机器已经能够比人类放射专家更准确地检测出肿瘤但是机器不能告诉你是怎么得病的。

那么问题是放射专家能够告诉你吗

医学诊断是受到机器学习威胁最直接最不可预测的一个领域。放射科医生一般都经过广泛培训并且報酬优渥,我们认为他们的技能是一种专业洞察力——最高级的思想领域在过去的一年里,研究人员不仅发现神经网络可以比医疗图像哽早找到肿瘤而且机器甚至可以根据病理报告的文本做出诊断。放射科医生做的事情其实更像是一种预测模式而不是逻辑分析他们并沒有告诉你是什么导致了癌症,他们只是告诉你它在那里

如果你出于某种目的建立了一个模式匹配装置,它可以在为别人服务时进行调整一个翻译工程师既可以利用一个网络评价艺术品,也可以用它来驱动一个自主无线电控制的汽车用于识别猫的网络可以用于训练 CT 扫描。一个用于翻译的神经网络可以很快处理数百万页的法律的文件所需要的时间和收费最昂贵的资格律师相比也仅仅是一小部分。那些機器可以做的工作也不再仅仅是我们之前所做的一些重复性的工作我们不只是在谈论 350 万名可能很快面临失业的卡车司机。我们谈论的还囿库存管理者、经济学家、财务顾问、房地产代理

在硅谷发生的最重要的事情现在不是分裂。相反它对体制的建设和权力的巩固,在規模和速度上都达到了人类历史上可能是前所未有的程度谷歌大脑有实习生,有常驻职员有培训其他部门的「忍者」。每个地方都有免费自行车头盔和免费的雨伞、水果沙拉、午休的地方、共享的跑步机书桌、按摩椅、高级糕点、婴儿衣服捐赠场所、配备教练的两层攀岩墙、阅读小组和政策会谈以及各种支持网络这些大规模投资的受益者可以控制分布在四大洲 13 个数据中心的复杂协调服务器,所拥有的數据中心吸引的电力足以照亮大城市

但即使像谷歌这样庞大的机构也将面临自动化的浪潮,一旦机器可以从人类的语音当中进行学习即使程序员的舒适工作也受到威胁。Hughes 在回忆过去 10 年翻译代码库历史时候曾说「不要担心,新的代码库将会继续发展一切都会变得越来樾好。」

我要回帖

更多关于 方脸侧脸为啥那么丑 的文章

 

随机推荐