资讯专栏INFORMATION COLUMN

Python - jieba分词

haobowd / 3036人阅读

摘要:需要分词的字符串控制是否使用模型这种分词方法粒度比较细,成为搜索引擎模式返回的结构是一个可迭代的。以及用法和上述一致,最终返回的结构是一个列表。

1.分词 1.1主要分词函数

jieba.cut(sentence, cut_all, HMM):sentence-需要分词的字符串;cut_all-控制是否采用全模式;HMM-控制是否使用HMM模型;jieba.cut()返回的结构是一个可迭代的 generator。

jieba.cut_for_search(sentence, HMM):sentence-需要分词的字符串;HMM-控制是否使用HMM模型;这种分词方法粒度比较细,成为搜索引擎模式;jieba.cut_for_search()返回的结构是一个可迭代的 generator。

jieba.lcut()以及jieba.lcut_for_search用法和上述一致,最终返回的结构是一个列表list。

1.2示例
import jieba as jb

seg_list = jb.cut("我来到北京清华大学", cut_all=True)
print("全模式: " + "/ ".join(seg_list))  # 全模式

seg_list = jb.cut("我来到北京清华大学", cut_all=False)
print("精确模式: " + "/ ".join(seg_list))  # 精确模式

seg_list = jb.cut("他来到了网易杭研大厦")  
print("默认模式: " + "/ ".join(seg_list)) # 默认是精确模式

seg_list = jb.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造")  
print("搜索引擎模式: " + "/ ".join(seg_list)) # 搜索引擎模式

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/38470.html

相关文章

  • 分词,难在哪里?科普+解决方案!

    摘要:分词的算法中文分词有难度,不过也有成熟的解决方案。例如通过人民日报训练的分词系统,在网络玄幻小说上,分词的效果就不会好。三的优点是开源的,号称是中,最好的中文分词组件。 showImg(https://segmentfault.com/img/remote/1460000016359704?w=1350&h=900); 题图:by Lucas Davies 一、前言 分词,我想是大多数...

    shevy 评论0 收藏0
  • 分词,难在哪里?科普+解决方案!

    摘要:分词的算法中文分词有难度,不过也有成熟的解决方案。例如通过人民日报训练的分词系统,在网络玄幻小说上,分词的效果就不会好。三的优点是开源的,号称是中,最好的中文分词组件。 showImg(https://segmentfault.com/img/remote/1460000016359704?w=1350&h=900); 题图:by Lucas Davies 一、前言 分词,我想是大多数...

    Steven 评论0 收藏0
  • Python第三方库jieba库与中文分词全面详解

      Python在工作中的应用还是比较的广泛的,市场上面对于这类人才开出的薪资还是比较的高的。那么,如何使用第三方库jieba库与中文分词进行一个分解呢?下面小编就给大家详细的做出一个解答。  一、什么是jieba库  jieba是优秀的中文分词第三方库,由于中文文本之间每个汉字都是连续书写的,我们需要通过特定的手段来获得其中的每个词组,这种手段叫做分词,我们可以通过jieba库来完成这个过程。 ...

    89542767 评论0 收藏0
  • python使用jieba进行中文分词wordcloud制作词云

    摘要:准备工作抓取数据存到文档中,了解问题分词分的不太准确,比如机器学习会被切成机器和学习两个词,使用自定义词典,原本的想法是只切出自定义词典里的词,但实际上不行,所以首先根据分词结果提取出高频词并自行添加部分词作为词典,切词完毕只统计自定义词典 准备工作 抓取数据存到txt文档中,了解jieba 问题 jieba分词分的不太准确,比如机器学习会被切成机器和学习两个词,使用自定义词典,原本...

    yvonne 评论0 收藏0
  • python 实现中文分词统计

    摘要:利用我们集成的目前世界上规模最大的人工分词和词性标注中文语料库约含万字训练而成,模型标注能力强大。据说是最好的中文分词组件,支持等多种语言。 总是看到别人用Python搞各种统计,前端菜鸟的我也来尝试了一把。有各种语义分析库在,一切好像并不是很复杂。不过Python刚开始看,估计代码有点丑。 一、两种中文分词开发包 thulac (http://thulac.thunlp.org/)...

    Honwhy 评论0 收藏0

发表评论

0条评论

haobowd

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<