资讯专栏INFORMATION COLUMN

手把手教你用python制作属于你的第一个词云

happyfish / 3363人阅读

摘要:利用强大的语言制作属于自己的第一张词云。还有一件很有意思的事情,和的中文意思,都是蟒蛇。好,接下来进入正题,一步一步实现我们的第一张词云。但是我们如果要对中文进行分析,还必须要借助中文分词技术。

相信很多人在网上,或者是在一些报告或者ppt上,都看到过类似这种图片

你可能会好奇它是怎么做出来的,如果你会ps,你可能会觉得,这是用ps一步一步制作出来的。是的没错,一开始我也是坚定不移的这么认为。直到后面我遇到了python。

上网搜索“如何制作词云”,你会得到很多教程。但是这些教程都是利用了一些制作工具,它们功能都太过专一,适用范围有限。而且它们背后的原理,无非也就是利用了python。今天,我们就抛开表面直击本质。利用强大的python语言制作属于自己的第一张词云。(快放开我,我要装逼)

众所周知,python是目前大数据和人工智能领域最流行的语言,这其中很大一部分都要归功于它强大的社区和数不清的第三方类库,那有没有一个集成环境同时集成了python语言的开发环境和常用的类库呢,答案是肯定的,那就是Anaconda,它集成了大部分科学计算,数据处理,计算机绘图等领域所用到的库。

还有一件很有意思的事情,Anaconda和python的中文意思,都是蟒蛇。

好,接下来进入正题,一步一步实现我们的第一张词云。

第一步:下载并安装Anaconda

首先,进入官网,选择适合你电脑的版本,

注意,无论你的电脑是什么系统,在右边都会有两个选项: Python 2.7 version和Python 3.6 version
我推荐下载使用python3.6版本,因为在这个最新的版本中,很多python语言的缺陷都得到了很好的解决(比如长期困扰python程序员的编码问题),这样在日后的学习中,我们都会进行的比较顺利。

下载完成后得到一个exe格式的安装文件,和正常软件的安装一样,一直下一步下一步就行了,但是在这一步要注意,

一定要记得把第一个选项勾上,如果不勾上,在后续的环境变量配置问题上会比较麻烦。虽然它不建议这么做(说实话我也不知道为什么),安装时间会比较久,耐心等待就行了。
安装好了以后,先新建一个demo目录,为了方便起见,我们直接在桌面新建。按住Shift键同时点击鼠标右键,再点击在此处打开命令窗口(win10较新的版本里cmd被powershell取代了,所以出现的会是在此处打开powershell窗口,别担心,它们的功能是一样的),然后输入mkdir demo

然后在桌面上就会出现一个demo文件夹

然后在这里下载wordcloud工具包,

之前我们下的是python3.6的版本,如果你的电脑是32位的,就选中倒数第二个,如果是64位的,就选择最后一个。
下载后将这个.whl文件拖拽到你的demo文件夹里。然后在命令行下,先执行

pip install wheel

再执行

pip install wordcloud-1.3.1-cp36-cp36m-win_amd64.whl

wordcloud-1.3.1-cp36-cp36m-win_amd64.whl就是你的下载下来的文件名,
这些步骤做完,我们就完成了运行环境配置。

第二步:开始分析

先找到你要分析的文章,将其保存为txt文件,比如我在网上摘取了一篇关于anaconda的介绍,将其保存为anaconda.txt文件,

然后在demo目录下运行命令行jupyter notebook,打开jupyter编辑器。

很快浏览器就会被打开,跳转到这个界面

点击右上方的New,新建一个python3,然后浏览器就会打开一个新的页面,用于输入python代码。


输入

filename = "anaconda.txt"
with open(filename) as f:
 mytext = f.read()

按Shift+Enter 执行,注意:第三行mytext前面一定要有空格。

再输入mytext,按Shift+Enter运行,就会看到txt里的文本已经被保存到这个变量里面来了。

然后调用我们的wordcloud包,对mytext里面存储的文本进行词云分析。

from wordcloud import WordCloud
wordcloud = WordCloud().generate(mytext)

程序可能会报警,但是不会影响正常运行,直接忽略它就是了。

此时词云分析已经完成了,最后一步对分析结果进行可视化处理。

%pylab inline
import matplotlib.pyplot as plt
plt.imshow(wordcloud, interpolation="bilinear")
plt.axis("off"

奇迹发生了

我们可以在图片上右键将其保存到本地。

到这里,一张词云就做好了。

wordcloud最核心的功能是对关键词进行分析,出现频率大的词会用更大的字体对其进行显示,除此之外,我们还可以自定义字体的颜色和词云的形状,图片的分辨率等等等等。但是我们如果要对中文进行分析,还必须要借助中文分词技术。这里就不再赘述。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/40617.html

相关文章

  • 首次公开,整理12年积累的博客收藏夹,零距离展示《收藏夹吃灰》系列博客

    摘要:时间永远都过得那么快,一晃从年注册,到现在已经过去了年那些被我藏在收藏夹吃灰的文章,已经太多了,是时候把他们整理一下了。那是因为收藏夹太乱,橡皮擦给设置私密了,不收拾不好看呀。 ...

    Harriet666 评论0 收藏0
  • 把手你用Python爬虫煎蛋妹纸海量图片

    摘要:我们的目标是用爬虫来干一件略污事情最近听说煎蛋上有好多可爱的妹子,而且爬虫从妹子图抓起练手最好,毕竟动力大嘛。服务器超载尤其是对给定服务器的访问过高时。个人爬虫,如果过多的人使用,可能导致网络或者服务器阻塞。 我们的目标是用爬虫来干一件略污事情 最近听说煎蛋上有好多可爱的妹子,而且爬虫从妹子图抓起练手最好,毕竟动力大嘛。而且现在网络上的妹子很黄很暴力,一下接受太多容易营养不量,但是本着...

    tuantuan 评论0 收藏0
  • Python纪念册】哪些浪漫至极的表白程序—“你做我的男孩,我做你的宇宙”

    摘要:完整的资料源码都打包等你来取哈免费滴直接视频效果展示如下纪念册哪些浪漫至极的表白程序截图展示如下界面漫天花瓣飞舞。  导语 大家好,我是木木子!​​ 今日的表白案例上线啦~有没有期待?安排安排!源码基地见免费源码哈! 贴心的木子君也给你们好多爱心花瓣、以及表白的小程序!在主页的左侧哦! 这款...

    aisuhua 评论0 收藏0
  • Python十分钟制作属于你自己的个性logo

    摘要:最近正好想做一个人的,于是乎决定使用词云来制作完成。如果非空,设置的宽高值将被忽略,形状被取代。除白色的部分将不会绘制,其余部分会用于绘制词云。显示的最大的字体大小当参数为并且不为空时,背景为透明。效果展示使用的照片是博主自己的照片。 作者:xiaoyu微信公众号:Python数据科学知乎:python数据分析师 词云的使用相信大家已经不陌生了,使用很简单,直接调用wordcloud...

    Markxu 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<