资讯专栏INFORMATION COLUMN

结巴中文分词之PHP扩展

_Zhao / 950人阅读

摘要:指向库目录小明硕士毕业于中国科学院计算所,后在日本京都大学深造小明硕士毕业于中国科学学院科学院中国科学院计算计算所,后在日本京都大学京都大学深造小明硕士毕业于中国科学院计算所,后在日本京都大学深造计算所小明京都大学深造硕士中国科学院他心理健

https://github.com/jonnywang/...

functions
array jieba(string $text, bool use_extract = false, long extract_limit = 10)
install
git clone https://github.com/jonnywang/phpjieba.git
cd phpjieba/cjieba
make

cd ..
phpize
./configure
make
make install

jieba more detail please visit https://github.com/yanyiwu/cp...

php.ini
extension=jieba.so
jieba.enable=1 
jieba.dict_path=/Users/xingqiba/data/softs/jz/cjieba/dict    #指向jieba库dict目录
example
$result = jieba("小明硕士毕业于中国科学院计算所,后在日本京都大学深造");
echo implode("/", $result) . PHP_EOL;
//小明/硕士/毕业/于/中国/科学/学院/科学院/中国科学院/计算/计算所/,/后/在/日本/京都/大学/京都大学/深造

$result = jieba("小明硕士毕业于中国科学院计算所,后在日本京都大学深造", true, 6);
echo implode("/", $result) . PHP_EOL;
//计算所/小明/京都大学/深造/硕士/中国科学院

$result = jieba("他心理健康");
echo implode("/", $result) . PHP_EOL;
//他/心理/健康/心理健康

$result = jieba("this is a demo, my name is jony", true, 10);
echo implode("/", $result) . PHP_EOL;
//demo/jony

$result = jieba("this is a demo, my name is jony");
echo implode("/", $result) . PHP_EOL;
//this/ /is/ /a/ /demo/,/ /my/ /name/ /is/ /jony

欢迎您加入我们的专属QQ讨论群组① 233415606 ② 233415756

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/22565.html

相关文章

  • 使用cjieba(结巴分词库)实现php扩展中文分词-支持php5, php7

    摘要:作者地址编译安装配置指向库目录使用小明硕士毕业于中国科学院计算所,后在日本京都大学深造小明硕士毕业于中国科学院计算所,后在日本京都大学深造效果小明硕士毕业于中国科学学院科学院中国科学院计算计算所,后在日本京都大学日本京都大学深造计算所 作者git地址:https://github.com/jonnywang/... 编译安装 git clone https://github.com/j...

    fevin 评论0 收藏0
  • 使用cjieba(结巴分词库)实现php扩展中文分词

    摘要:编译安装配置指向库目录使用小明硕士毕业于中国科学院计算所,后在日本京都大学深造小明硕士毕业于中国科学院计算所,后在日本京都大学深造效果小明硕士毕业于中国科学学院科学院中国科学院计算计算所,后在日本京都大学日本京都大学深造计算所小明京都 编译安装 git clone https://github.com/jonnywang/jz.git cd jz/cjieba make cd .. p...

    ethernet 评论0 收藏0
  • B 站直播间数据爬虫

    摘要:站的弹幕服务器也有类似的机制,随便打开一个未开播的直播间,抓包将看到每隔左右会给服务端发送一个心跳包,协议头第四部分的值从修改为即可。 原文:B 站直播间数据爬虫, 欢迎转载项目地址:bilibili-live-crawler 前言 起因 去年在 B 站发现一个后期超强的 UP 主:修仙不倒大小眼,专出 PDD 这样知名主播的吃鸡精彩集锦,涨粉超快。于是想怎么做这样的 UP,遇到的第一...

    xuweijian 评论0 收藏0
  • LSTM分类相关

    摘要:而检验模型用到的原材料,包括薛云老师提供的蒙牛牛奶的评论,以及从网络购买的某款手机的评论数据见附件。不同行业某些词语的词频会有比较大的差别,而这些词有可能是情感分类的关键词之一。这是由于文本情感分类的本质复杂性所致的。 文本情感分类--传统模型(转) showImg(https://segmentfault.com/img/bVKjWF?w=2192&h=534); 传统的基于情感词典...

    MartinHan 评论0 收藏0
  • python 实现中文分词统计

    摘要:利用我们集成的目前世界上规模最大的人工分词和词性标注中文语料库约含万字训练而成,模型标注能力强大。据说是最好的中文分词组件,支持等多种语言。 总是看到别人用Python搞各种统计,前端菜鸟的我也来尝试了一把。有各种语义分析库在,一切好像并不是很复杂。不过Python刚开始看,估计代码有点丑。 一、两种中文分词开发包 thulac (http://thulac.thunlp.org/)...

    Honwhy 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<