资讯专栏INFORMATION COLUMN

与百度首席科学家吴恩达对话中文背景下的神经网络

canopus4u / 404人阅读

摘要:等一下,什么样的神经网络才算是小型的哈哈这不一定,会随着时间改变。我们一般是依照神经网络之间的连接数划分。训练的神经网络的连接数量一般可以达到几百亿。许多语言学家对此表示强烈的不满,甚至公开地向我表示反对。

在原文作者Caleb Garling对话吴恩达时,他刚结束在旧金山的深度学习大会,这名斯坦福深度学习教授,前Google Brain负责人,Coursera的创始人和现任百度首席科学家在大会上受到了一大群仰慕他的计算机科学家的访问。

吴恩达和我谈论了他带领“中国的 Google”(百度)在深度学习中面临的挑战,他强调,百度只对可以影响 1 亿用户的技术有兴趣。其本人十分友好温和,是那种说起话来你不好意思打断他的人。

以下内容节选自访问:

中文和英文,无论从哪个方面来说都是两种完全不同的语言,所以对于理解这两种语言的机器框架来说,究竟会有多不同呢?

嗯,现有科技理论还没有成熟到让我可以言简意赅地给出答案的地步。对英语来说我们已经有很好的框架了,现在我们想对中文进行尝试。

英语有 26 个字母,然而中文大约有 5000 个字符。如果你看一篇中等长度英文的语料库,出现的总是那么 26 个字母,而中文的语料库中会有一些你只会见到一次的生僻字。所以你要如何学会认识这些中文字符?

相较而言,罗曼斯语言更加简单。从法语转到英语比从中文转到英语要容易得多。

所以如果你有一张英文标签的图片,你如何把这些标签转换成中文?

我认为我很多值得尝试的方法,并且这些方法都还没有探索过。我们一般用的是多任务学习的方法。假设说你有一个识别英语标签图像的网络,现在你要训练一个网络可以识别中文标签,如果你训练一个网络同时完成这两件事,很有可能这个网络会比多带带两个网络分别识别英语和中文要好得多。

这么做是有优势的,但是优势并不明显。原因是这样,机器可能会学习识别图像中的边,然后又学会了辨别图像中的角。对于两种语言来说,这种知识都是通用的。一旦你学会了识别英语中的物体,这事实上对于你学习中文中的物体也有帮助,因为你可以辨别这些边和物体。

那么,那些只存在于一种语言之中的词又该怎么办呢?

在英语里,姐妹只有一个单词“sister”,但是在中文中,“姐”和“妹”是两个不同意思的词。事实上,当你想要翻译“sister”这个词的时候,就会遇到问题,因为你不知道应该把它翻译成姐姐还是妹妹。不过我认为如果机器知道你的 sister 和屋子里其他的物体是有区别的话,那再区别是姐姐或者是妹妹并不困难。如果你不知道“sister”的概念,就要从零学习“姐妹”的概念了。

随着不断地训练,投入会越来越昂贵,当然,除非你的神经网络规模比较小了。

等一下,什么样的神经网络才算是小型的?

【哈哈】这不一定,会随着时间改变。我们一般是依照神经网络之间的连接数划分。Baidu 训练的神经网络的连接数量一般可以达到几百亿。

那我们来聊聊语言识别,百度会不会从一些特殊的音节或是字母组合入手,比如像“th”这样的组合?

过去的语音识别是这么做的。过去的语音识别都有一个标准管道,你输入音频,预计这些音节到底是什么。然后你再用另一套系统,把这些音节转化成文字。不过近来人们一直在争论,到底音节是语言的一个基本组成部分,还是语言学家臆想出来的?我花了很多年试图向人们解释,音节其实是人为划分的,它不是语言的一个基本事实,只是人类发明出来,对语言的一种描述方式。许多语言学家对此表示强烈的不满,甚至公开地向我表示反对。

我们在百度语音系统中做事并没有用到音节的概念,这个过程更像是小孩学习语言的过程:我们给电脑听一段音频,告诉它文字的内容,然后让它自己建立对应,而不是人工的构建所谓“音节”的概念。在我还不知道音节是什么之前,我就已经会说英语了。

那么电影呢?百度有关注这方面吗?

深度学习在视频方面有很多的成果,但是考虑到机器对于时间这个基本维度的认识,我并不认为它们很成功。所以深度学习的研究者们常常会争论,时间的概念对于我们的智能发展到底有多重要。

你能详细阐述一下机器如何学习“时间”这个概念吗?

当你的头移动的时候,你看到的物体都是有视差的(这意味着你可以辨别不同时间下你所看到物体的差别)。有的在前景中移动,有的在后景中移动。我们不知道小孩子到底是不是先学会区分这些物体,再根据视察学会分辨它们之间的距离。反正我是不知道,我也不认为有人知道。也有一些围绕视频的其他特性的(关于时间的)想法,但是关于应该怎么处理时间,目前也没有很好的结果。

动物们看到的世界就是一个视频,那如果动物只能看到静态的图像呢,它们的视觉系统会怎么发展。神经科学家们在猫身上做过一个实验,它们把猫放在黑暗的环境中,利用频闪闪光灯使猫只能看到不动的图像,结果这些猫的视觉都没有发育完全,所以看到动态的世界是很重要的,但是算法又该怎么写?机器的“视觉系统”又该怎么利用它?

我认为解决这个问题的关键还是时间,只是我们现在还没有开发出好的算法。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/4296.html

相关文章

  • 深度学习前瞻:恩达百度 > 谷歌吗?

    摘要:百度北京深度学习实验室主任余凯和吴是朋友,就是他力劝吴恩达加入百度的,余凯说实验室确实以基础技术为目标。实验结果证实,深度学习是开发机器学习软件的切实可行的办法。 百度是中国网民上网时的常用工具,它致力于成为影响全球的力量。作为世界上人工智能领域的顶尖研究员,吴恩达先生能否助其成功挑战硅谷较大的互联网公司?百老汇音乐厅位于旧金山北海岸,是新古典主义建筑,已拥有95年历史,历经岁月磨蚀,四周环...

    dreamGong 评论0 收藏0
  • 恩达 NIPS 2016唯一的中文版PPT

    摘要:今日,在第届神经信息处理系统大会中,百度首席科学家吴恩达教授发表演讲利用深度学习开发人工智能应用的基本要点。为了方便读者学习和收藏,雷锋网特地把吴恩达教授的做为中文版。吴恩达先讲述了常见的深度学习模型,然后再着分析端到端学习的具体应用。 今日,在第 30 届神经信息处理系统大会(NIPS 2016)中,百度首席科学家吴恩达教授发表演讲:《利用深度学习开发人工智能应用的基本要点(Nuts an...

    yunhao 评论0 收藏0
  • 【专访恩达百度人工智能杀毒,探索深度神经网络查杀技术

    摘要:根据百度的说法,这是全球首次将深度学习领域技术应用在客户端,独创了深度神经网络查杀技术。在过去,吴恩达说,百度用神经网络来帮助侦测广告。 吴恩达拿起他的手机,打开了脸优 app。他现在正位于硅谷公司的研究室。在办公桌边吃饭,谈话内容很自然地也涉及到人工智能。他是百度的首席科学家,同时也是斯坦福大学计算机系的教授。在其他搜索引擎仍在发展时,他就曾帮助谷歌启动了脑计划,现在他在百度从事相似的人工...

    whlong 评论0 收藏0
  • 恩达眼中的深度学习七雄

    摘要:的研究兴趣涵盖大多数深度学习主题,特别是生成模型以及机器学习的安全和隐私。与以及教授一起造就了年始的深度学习复兴。目前他是仅存的几个仍然全身心投入在学术界的深度学习教授之一。 Andrej Karpathy特斯拉 AI 主管Andrej Karpathy 拥有斯坦福大学计算机视觉博士学位,读博期间师从现任 Google AI 首席科学家李飞飞,研究卷积神经网络在计算机视觉、自然语言处理上的应...

    MingjunYang 评论0 收藏0
  • 人工智能热潮涌动,这些AI大牛帮助企业抢占制高点!

    摘要:腾讯张潼在吴恩达宣布从百度离职后,行业内另一劲爆消息令人惊震,即张潼出任腾讯腾讯人工智能实验室负责人。在人工智能浪潮下,每个企业都在谈,各种产品和服务都将嵌入技术,赋予设备各种交互及感知能力。 人工智能热潮,你家有AI大牛吗? 人工智能的异常火热,有望成为未来10年乃至更长时间内科技产业发展焦点,但推动该技术的发展关键因素是人才和数据,下面就来看看科举巨头和初创企业都有哪些人工智能技术...

    Vicky 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<