资讯专栏INFORMATION COLUMN

找到人类杠杆的重点

xcc3641 / 828人阅读

摘要:即使不考虑故意滥用,使用人类活动分析人类活动也存在固有的其他问题。

当今互联网平台的一个悖论是它们具有极大的自动化程度,并且没有人类控制或与任何特定人看到的交互,但它们也完全依赖于人类行为,因为他们真正在做的是观察,提取并从数亿或数十亿人所做的事情中推断出事物。

这是PageRank的起源。PageRank不是依靠手工制作的规则来理解每个页面可能涉及的内容,也不是索引原始文本,而是查看人们对该页面所做的或已经说过的内容。谁与之相关联,他们使用了什么文本,以及谁与链接的人联系在一起?在管道的另一端,谷歌让每个用户手动策划每一组搜索结果:它给你10个蓝色链接,你告诉谷歌哪一个是正确的。Facebook也是如此:Facebook不知道真的知道 你是谁,或者你感兴趣的是什么,或者那段内容是什么。它知道你跟谁,你按什么“喜欢”,还有谁喜欢它以及他们喜欢和遵循的其他内容。Facebook是人们的PageRank。这一点同样适用于YouTube:它从不知道视频是什么,只知道人们在其旁边键入的内容以及他们观看和喜欢的内容。

实际上,这些系统是巨大的机械土耳其人。他们不知道自己有什么东西 - 相反,他们试图围绕这些东西创造,捕捉和引导人类注释。它们是庞大的分布式计算系统,其中CPU是人,平台是路由器和互连。(这让我想起了“银河系漫游指南”中的一个想法,即整个地球实际上是一台巨大的专用计算机,我们的日常生活是计算的一部分。)

这意味着很多系统设计都是围绕找到适当的杠杆点来将人员应用到自动化系统中。你捕捉到已经发生的活动吗?谷歌开始使用已经存在的链接。你是否必须刺激活动以捕捉其中的价值?Facebook必须先创建行为才能使用它们。您是否可以将自己的员工应用于某种极端杠杆?这是Apple Music的方法,手动策划的播放列表自动匹配数千万用户。或者你必须付钱给别人做“全部”吗?

最初的雅虎互联网目录试图“让人们付出所有这些”的方法 - 雅虎付钱让人们对整个网络进行编目。首先看起来可行,但随着网络的迅速发展,它很快成为一个不可思议的大问题,当雅虎放弃目录时已经超过了300万页。答案是PageRank。相反,谷歌地图有人(现在)几乎在地球上的每一条街道和其他人看着图片驾驶带摄像头的汽车,这不是一个不可能的大问题 - 它只是一个昂贵的问题。谷歌地图是一个私人机械土耳其人。我们现在正在通过人类社交内容的审核来探索同样的问题 - 您需要查看每个帖子的成千上万人,以及您可以自动化多少人?这是一个不可能的大问题还是只是一个昂贵的问题?

如果你看这些平台使用数十亿人来进行实际计算,就会提出两个有趣的问题:这告诉我们有关滥用平台的信息,以及机器学习有多少可以改变这一切?

在过去,当我们考虑滥用计算机系统时,我们考虑了各种技术漏洞 - 被盗或弱密码,未打补丁的系统,错误,缓冲区溢出和SQL注入。我们考虑过"黑客"在软件工程中找到差距。但是,如果YouTube或Facebook是分布式计算机系统,其中路由器是老式软件但CPU是人,那么一个坏人就会想到在人和软件中找到漏洞。常见的认知偏差变得与常见的编程错误同样重要。 

也就是说,有两种方法可以抢劫银行 - 您可以绕过警报并选择锁定保险柜,或者您可以与经理联系。这些都是处理系统失败的方式,但现在其中一个处理系统就是我们。因此,正如我在这里看到Facebook最近对隐私和安全的战略转向一样,这些平台上数据的人为调节在概念上非常类似于二十年前响应恶意软件而蓬勃发展的软件病毒扫描程序。计算机的一部分监视另一部分,看它是否正在做它不应该做的事情。

即使不考虑故意滥用,使用人类活动分析人类活动也存在固有的其他问题。一旦开始使用计算机分析计算机,就有可能产生反馈周期。你可以在过滤泡泡,或“YouTube激进化”,甚至SEO垃圾邮件的想法中看到这一点。与此同时,Facebook面临的一个问题是,有时拥有或生成更多数据会降低数据的价值。这是新闻源过载问题:你添加50或150个朋友,你每天分享5或10个东西,但所有这些都是如此,所以你每天在你的Feed中有1,500个项目。Dunbar的数字+扎克伯格定律=超载......这让我们得到了Goodhart定律。

“任何观察到的统计规律都会因为控制目的而施加压力而崩溃。” - 查尔斯古德哈特

那么,机器学习怎么会改变这个呢?我之前说过,挑战在于找出如何将人员添加到计算机中正确的杠杆点,但当然还有另一种选择 - 让计算机完成所有这些工作。直到最近,挑战以及这些系统首先存在的原因是计算机无法解决的大类问题,但任何人都可以轻松完成。我们过去称之为“对人而言很容易但对计算机来说很难”的东西,但实际上,人们很容易做到但很难让人们向计算机描述。机器学习的突破在于它为计算机提供了一种计算描述的方法。

下面的动画片(从2014年开始,就在机器学习计算机视觉系统开始起飞之后),很好地说明了这一变化。第一个问题很容易,但第二个问题不是 - 直到机器学习。

解决这个问题的旧方法就是找到让人们标记图片的方法 - 以某种方式众包。换句话说,一个机械土耳其人。但是现在,我们可能不需要任何人看这张照片 - 通过机器学习我们经常可以自动完成这个请求。 

那么:如果您应用数百万或数亿人的聚合行为,您现在可以解决多少问题,现在您可以通过机器学习解决这些问题,而无需拥有自己的用户? 

当然,这里的矛盾在于机器学习就是拥有大量数据。显然,有人可能会建议拥有一个大平台意味着您拥有大量数据,因此您的机器学习也会更好。这当然是正确的,至少从一开始就是这样,但我认为有趣的是,有多少事情只能由所有这些用户完成。在过去,如果您有一张猫的照片,如果您有足够的用户可以看到并标记该特定图像,那么它只会标记为“猫”。今天,你不需要任何用户就可以看到特定的猫图片 - 你只需要其他一些用户,在其他地方,在过去的某个时刻,已经标记了足够的其他猫图片以生成一个不错的识别模型。

这只是利用人的另一种形式:您需要人们进行标记(并编写人们如何进行标记的规则)。但是我们提出了杠杆作用,并且可能从根本上改变了我们需要的人数,因此我们改变了一些“赢家全部”效应。毕竟,这些巨大的社交平台是手工标记数据的大量集合,那么玻璃半空或半满?玻璃半满:他们拥有世界上最大的手动标签数据集(在他们选择的领域)。玻璃半空:它是手动标记的。

即使这些数据可能集中在一个大平台上(并且通常不会 - 根本不是 - 正如我在这里写的那样),这就成了一个平台。正如AWS成为初创公司的推动者一样,不再需要数百万用户才能在基础设施中实现规模经济,许多同等工具意味着您不再需要数百万或数十亿用户来识别猫。你可以自动化土耳其人。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/7266.html

相关文章

  • 【董天一】一场IPFS引领下共享之风正在走向区块链

    摘要:网络启动开启了一个共享的新时代,与实体经济的结合让项目变得更加有意义,区块链已经走向了我们。直到年,互联网和区块链终于从概念上走到了一起,就是这场流行起来的共享之风。风险当然,伴随着区块链项目的毫无疑问是高风险如影随形。 作者简介:董天一 ,IPFS/Filecoin中国区技术布道人 ,《IPFS指南》作者。毕业于北京大学软件与微电子学院曾担任甲骨文亚洲研发中心(中国)数据库开发工程师...

    褰辩话 评论0 收藏0
  • 论文解读:华盛顿大学教授Pedro Domingos技术论文:机器学习中一些有用知识(一)

    摘要:机器学习初学者最常犯的错误是测试训练数据,并有成功的幻觉。机器学习中的每个人都知道过度拟合,但它有很多形式,并不是很明显。事实上,理论与实践的密切相互作用是机器学习多年来取得如此巨大进步的主要原因之一。 摘要: 这是机器学习研究人员和从业人员所学到的12个关键经验教训的总结,包括避免陷阱,重点问题以及常见问题的答案。 showImg(https://segmentfault.com/i...

    wqj97 评论0 收藏0
  • 论文解读:华盛顿大学教授Pedro Domingos技术论文:机器学习中一些有用知识(一)

    摘要:机器学习初学者最常犯的错误是测试训练数据,并有成功的幻觉。机器学习中的每个人都知道过度拟合,但它有很多形式,并不是很明显。事实上,理论与实践的密切相互作用是机器学习多年来取得如此巨大进步的主要原因之一。 摘要: 这是机器学习研究人员和从业人员所学到的12个关键经验教训的总结,包括避免陷阱,重点问题以及常见问题的答案。 showImg(https://segmentfault.com/i...

    用户84 评论0 收藏0
  • 资讯 | 滴滴CTO张博:让AI像电力一样服务大众

    摘要:出品滴滴技术前言月日,知名华裔科学家李飞飞在斯坦福发起成立以人为本研究院,在成立大会上,滴滴张博作为唯一产业界代表发言表示让像电力一样服务大众。滴滴张博表示相关的学界需要了解社会公众的需求参加讨论的世界顶尖学者对的前景继续表示出极大的乐观。 出品 | 滴滴技术showImg(https://segmentfault.com/img/bVbsWAB?w=2350&h=1000); 前言:...

    ShevaKuilin 评论0 收藏0
  • 【译文】驱动系统方法:四步设计出好数据产品

    摘要:有人使用谷歌的自驾汽车完全意识不到之所以车辆开行都是上百个如果不是上千种的话的模型和级的数据发挥作用的结果。这是驱动系统方法的目标。建模器的第二个组成部分与保险公司的利润有关条件是客户接受这个价格。 翻译:克迪 欢迎访问网易云社区,了解更多网易技术产品运营经验。 在过去几年中, 我们看到了许多基于预测建模的数据产品。这些产品的范围从天气预报到推荐引擎, 再到比航空公司本身更准确地预测航...

    Null 评论0 收藏0

发表评论

0条评论

xcc3641

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<