机器学习其实比你想的更简单

fengxiuping 发布于2019-06-26 15:25 / 2023人阅读

摘要：很多人觉得机器学习高不可攀，认为这是一门只有少数专业学者才了解的神秘技术。可惜的是，绝大多数关于机器学习的文献都充斥着复杂难懂的符号艰涩晦暗的数学公式和不必要的废话。正是这给机器学习简单基础的思想围上了一堵厚厚的墙。

很多人觉得机器学习高不可攀，认为这是一门只有少数专业学者才了解的神秘技术。

毕竟，你是在让运行在二进制世界里的机器得出它自己对现实世界的认识。你正在教它们如何思考。然而，本文几乎不是你所认为的晦涩难懂、复杂而充满数学公式的文章。正如所有帮助我们认识世界的基本常识一样（例如：牛顿运动定律、工作需要去完成、供需关系等等），机器学习最佳的方法和概念也应该是简洁明了的。可惜的是，绝大多数关于机器学习的文献都充斥着复杂难懂的符号、艰涩晦暗的数学公式和不必要的废话。正是这给机器学习简单基础的思想围上了一堵厚厚的墙。

现在看一个实际的例子，我们需要在一篇文章的末尾增加一个“你可能喜欢”的推荐功能，那么我们该如何实现呢？

为了实现这个想法，我们有一个简单的解决方案：

获得当前文章的标题并将其分割成独立的单词（译者注：原文是英文，只需要依据空格分割即可，中文分词需要用到分词器）

获取除当前文章以外的所有文章

将这些文章依据其内容与当前文章标题的重合程度进行排序

def similar_posts(post)
  title_keywords = post.title.split(" ")
  Post.all.to_a.sort |post1, post2|
    post1_title_intersection = post1.body.split(" ") & title_keywords
    post2_title_intersection = post2.body.split(" ") & title_keywords

    post2_title_intersection.length <=> post1_title_intersection.length
  end[0..9]
end

采用这种方法去找出与博文“支持团队如何提高产品质量”相似的文章，我们由此得到下列相关度前十的文章：

如何着手实施一个经过验证的方案

了解你的客户是如何做决策的

设计首次运行界面以取悦你的用户

如何招聘设计师

图标设计的探讨

对歌手Ryan的采访

通过内部交流对客户进行积极支持

为什么成为第一并不重要

对Joshua Porter的采访

客户留存、群组分析与可视化

正如你所看到的，标杆文章是关于如何有效率地进行团队支持，而这与客户群组分析、讨论设计的优点都没有太大的关系，其实我们还可以采取更好的方法。

现在，我们尝试用一种真正意义上的机器学习方法来解决这个问题。分两步进行：

将文章用数学的形式表示；

用K均值(K-means)聚类算法对上述数据点进行聚类分析。

1.将文章用数学的形式表示

如果我们可以将文章以数学的形式展示，那么可以根据文章之前的相似程度作图，并识别出不同簇群：

如上图所示，将每篇文章映射成坐标系上的一个坐标点并不难，可以通过如下两步实现：
1. 找出每篇文章中的所有单词；
2. 为每篇文章建立一个数组，数组中的元素为0或者1，用于表示某单词在该文章中是否出现了，每篇文章数组元素的顺序都是一样的，只是其值有差异。

Ruby代码如下：

@posts = Post.all

@words = @posts.map do |p| 
  p.body.split(" ")
end.flatten.uniq

@vectors = @posts.map do |p|
  @words.map do |w| 
    p.body.include?(w) ? 1 : 0
  end
end

假设@words 的值为：

[“你好”,”内部”,”内部交流”,”读者”,”博客”,”发布”]

如果某篇文章的内容是“你好博客发布读者”，那么其对应的数组即为：

[1,0,0,1,1,1]

当然，我们现在没法使用简单的工具像二维坐标系一样展示这个六维度的坐标点，但是这其中涉及的基本概念，例如两点之间的距离都是互通的，可以通过二维推广到更高维度(因此使用二维的例子来说明问题还是行得通的)。

2.用K均值(K-means)聚类算法对数据点进行聚类分析

现在我们得到了一系列文章的坐标，可以尝试找出相似文章的群簇。这里我们采用使用一个相当简单聚类算法-K均值算法，概括起来有五个步骤：
1. 设定一个数K，它表示群簇中对象的数目；
2. 从所有数据对象中随机选择K个对象作为初始的K个群簇中心；
3. 遍历所有对象，分别将它们指派到离自己最近的一个群簇中；
4. 更新群簇中心，即计算每个群簇中对象的均值，并将均值作为该群簇的新中心；
5. 重复3、4步骤，直到每个群簇中心不再变化。

我们接下来用图的形式形象化地展示这些步骤。首先我们从一系列文章坐标中随机选择两个点（K=2）：

我们将每篇文章指派到离它最近的群簇中：

我们计算各个群簇中所有对象的坐标均值，作为该群簇新的中心。

这样我们就完成了第一次的数据迭代，现在我们将文章根据新的群簇中心重新指派到对应的群簇中去。

至此，我们找到了每篇文章对应的群簇！很明显，即使继续进行迭代群簇中心不会改变，每篇文章对应的群簇也不会改变了。

上述过程的Ruby代码如下：

@cluster_centers = [rand_point(), rand_point()]

15.times do
  @clusters = [[], []]

  @posts.each do |post|
    min_distance, min_point = nil, nil

    @cluster_centers.each.with_index do |center, i|
      if distance(center, post) < min_distance
        min_distance = distance(center, post)
        min_point = i
      end
    end

    @clusters[min_point] << post
  end

  @cluster_centers = @clusters.map do |post| 
    average(posts)
  end
end

下面是由这个方法得到的与博文“支持团队如何提高产品质量”相似性排在前十位的文章：

你对此更了解了还是你更聪明了

客户反馈的三个准则

从客户获取你所要的信息

产品交付只是一个开始

你觉得功能扩展看起来像什么

了解你的用户群

在正确的信息和正确的时间下转换客户

与你的客户沟通

你的应用有消息推送安排吗

你有试着与客户沟通吗

结果不言自明。

我们仅仅用了不到40行的代码以及简单的算法介绍就实现了这个想法，然而如果你看学术论文你永远不会知道这本该有多简单。下面是一篇介绍K均值算法论文的摘要（并不知道K均值算法是谁提出的，但这是首次提出“K均值”这个术语的文章）。

如果你喜欢以数学符号去表达思想，毫无疑问学术论文是很有用处的。然而，其实有更多优质的资源可以替换掉这些繁杂数学公式，它们更实际、更平易近人。
* Wiki百科（例如：潜在语义索引，聚类分析）
* 开源机器学习库的源代码（例如： Scipy’s K-Means，Scikit’s DBSCAN）
* 以程序员的角度编写的书籍（例如：集体智慧编程，黑客机器学习）
* 可汗学院

试一试

如何为你的项目管理应用推荐标签？如何设计你的客户支持工具？或者是社交网络中用户如何分组？这些都可以通过简答的代码、简单的算法来实现，是练习的好机会！所以，如果你认为项目中面临的问题可以通过机器学习来解决，那为什么还要犹豫呢？

机器学习其实比你想象得更简单！

原文：Machine learning is way easier than it looks
转载自: 伯乐在线 - zhibinzeng

idc机房托管混合云 c语言其实很简单简单机器学习难道想的比你

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/18059.html

你需要知道的软件工程师和码农的区别

摘要：解决问题的心态软件工程师不认为编程是他们事业的全部。好的软件工程师以经验和直觉判定。环境与测试软件工程师写的程序要保证在不同环境，不同时区正常工作。软件缺陷是不可见的，我们预测和避免缺陷的能力也是有限的，所以软件工程师懂得利用工具矫正代码。原文 Software Engineering is different from Programming 一些人因为工程这个词而不喜欢软件工程...

jubincn 2019-08-21 17:11 评论0 收藏0
深度学习的天赐和诅咒：最大的优势也是最大的缺陷

摘要：深度学习的天赐和诅咒上面那个新学生的例子，其实很形象的表述了深度学习的特性。自动创建无人能想到的功能，是深度学习的较大优势，同时也是它的较大弱点因为大多数时候，至少在语义上是存疑的。还有人对深度学习应用在医学和诊断中寄予厚望。我们对深度网络的黑盒效应都很熟悉了。虽然没有人知道黑盒子里到底经历了什么，然而深度学习的成功以及一系列惊人的失败模式，提供了如何处理的数据的宝贵教训。本文作者Piek...

young.li 2019-04-25 18:32 评论0 收藏0
学习容易找工作难？？应不应该转行软件测试！！！

摘要：专业专业这一块肯定是计算机专业最好，计算机专业其实也包括很多，包括计算机科学网络工程，包括我看到现在还有专门的软件测试专业，我们以前那一会都没有。次优势是什么呢就是说你虽然不是计算机专业，但是你学过一些计算机相关的一些内容。 ...

NicolasHe 2021-10-14 09:43 评论0 收藏0
【译】 WebP 支持：超出你想象

摘要：的支持程度实际上比你想的可能要好得多。的安卓浏览器从版本起开始官方支持最初发布于年月，版本起开始部分支持。安卓版从起开始支持。而且目前并无添加支持的任何打算。浏览器市场份额截至年月的数据显示，占有约的市场份额，以约位居第二。本文转载自：众成翻译译者：文蔺链接：http://www.zcfy.cc/article/862原文：https://optimus.keycdn.com/sup...

Steven 2019-08-01 15:27 评论0 收藏0
Linus Trovalds谈Linux内核开发管理风格

摘要：管理风格其实是因人而异的，而且很难像编码风格一样，单纯用数量来衡量。这种行为可以表明一种对所谓成功学的蔑视态度。很显然，得罪人容易道歉难。译者注：本文号称是Linux它爹Linus Trovalds亲笔写的关于项目管理的文章。Linus Trovalds在业界素以脾气火爆，语出惊人而闻名，谁要是让他不爽，他就直接伸出中指来F**k（参见），本文也秉承了他这一贯的风格。尽管没有中国人推崇的谦虚...

Shisui 2019-05-23 19:44 评论0 收藏0