资讯专栏INFORMATION COLUMN

使用cjieba(结巴分词库)实现php扩展中文分词

ethernet / 2914人阅读

摘要:编译安装配置指向库目录使用小明硕士毕业于中国科学院计算所,后在日本京都大学深造小明硕士毕业于中国科学院计算所,后在日本京都大学深造效果小明硕士毕业于中国科学学院科学院中国科学院计算计算所,后在日本京都大学日本京都大学深造计算所小明京都

编译安装
git clone https://github.com/jonnywang/jz.git
cd jz/cjieba
make
cd ..
phpize
./configure --enable-jieba
make
make install
配置php.ini
extension=jz.so 
jz.enable_jieba=1
jz.dict_path=/Users/xingqiba/data/softs/jz/cjieba/dict    #指向jz库dict目录
使用

效果
Array
(
    [0] => 小明
    [1] => 硕士
    [2] => 毕业
    [3] => 于
    [4] => 中国
    [5] => 科学
    [6] => 学院
    [7] => 科学院
    [8] => 中国科学院
    [9] => 计算
    [10] => 计算所
    [11] => ,
    [12] => 后
    [13] => 在
    [14] => 日本
    [15] => 京都
    [16] => 大学
    [17] => 日本京都大学
    [18] => 深造
)

Array
(
    [0] => 计算所
    [1] => 小明
    [2] => 京都大学
    [3] => 深造
    [4] => 硕士
    [5] => 中国科学院
)

欢迎您加入我们的专属QQ讨论群组① 233415606 ② 233415756

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/22399.html

相关文章

  • 使用cjieba(结巴分词)实现php扩展中文分词-支持php5, php7

    摘要:作者地址编译安装配置指向库目录使用小明硕士毕业于中国科学院计算所,后在日本京都大学深造小明硕士毕业于中国科学院计算所,后在日本京都大学深造效果小明硕士毕业于中国科学学院科学院中国科学院计算计算所,后在日本京都大学日本京都大学深造计算所 作者git地址:https://github.com/jonnywang/... 编译安装 git clone https://github.com/j...

    fevin 评论0 收藏0
  • 结巴中文分词PHP扩展

    摘要:指向库目录小明硕士毕业于中国科学院计算所,后在日本京都大学深造小明硕士毕业于中国科学学院科学院中国科学院计算计算所,后在日本京都大学京都大学深造小明硕士毕业于中国科学院计算所,后在日本京都大学深造计算所小明京都大学深造硕士中国科学院他心理健 https://github.com/jonnywang/... functions array jieba(string $text, bool...

    _Zhao 评论0 收藏0
  • 推荐十款java开源中文分词组件

    摘要:最初,它是以开源项目为应用主体的,结合词典分词和文法分析算法的中文分词组件。填补了国内中文分词方面开源组件的空白,致力于此并希翼成为互联网网站首选的中文分词开源组件。中文分词追求分词的高效率和用户良好体验。 1:Elasticsearch的开源中文分词器 IK Analysis(Star:2471) IK中文分词器在Elasticsearch上的使用。原生IK中文分词是从文件系统中读取...

    masturbator 评论0 收藏0
  • python 实现中文分词统计

    摘要:利用我们集成的目前世界上规模最大的人工分词和词性标注中文语料库约含万字训练而成,模型标注能力强大。据说是最好的中文分词组件,支持等多种语言。 总是看到别人用Python搞各种统计,前端菜鸟的我也来尝试了一把。有各种语义分析库在,一切好像并不是很复杂。不过Python刚开始看,估计代码有点丑。 一、两种中文分词开发包 thulac (http://thulac.thunlp.org/)...

    Honwhy 评论0 收藏0
  • LSTM分类相关

    摘要:而检验模型用到的原材料,包括薛云老师提供的蒙牛牛奶的评论,以及从网络购买的某款手机的评论数据见附件。不同行业某些词语的词频会有比较大的差别,而这些词有可能是情感分类的关键词之一。这是由于文本情感分类的本质复杂性所致的。 文本情感分类--传统模型(转) showImg(https://segmentfault.com/img/bVKjWF?w=2192&h=534); 传统的基于情感词典...

    MartinHan 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<