资讯专栏INFORMATION COLUMN

简单快速的 PHP 词库工具

ISherry / 3373人阅读

摘要:在上找了半天也没找到我需要的轮子,只好自己撸了一个词库工具简单。支持大词库,我自己的词库跑起来轻轻松松。还支持回调式替换哦快速。使用了高大上的树进行匹配,查找耗时跟文本长度相关,跟词库大小关系不大,速度杠杠的。

这么说吧,假如你有一段文本,还有一个巨大的关键词库(几十万起步),现在需要从文本中找出这些关键词,甚至要基于关键词对应的值做一些替换,怎么弄?

在这个简单又常见的需求面前,strtr str_replace preg_replace 什么的集体歇菜了,因为词库太大。

scws?一开始我也这么弄的,可惜它只能帮你把词库中的词找出来,不能基于关键词对应的值进行处理。虽然可以利用词库的属性字段,但它只支持两个字节,显然不能满足需求。

在 Google 上找了半天也没找到我需要的轮子,只好自己撸了一个词库工具:SimpleDict

简单。纯 PHP 实现,不用安装扩展,也不依赖 xcache memcache redis 之类的缓存。

实用。支持大词库,我自己 40W 的词库跑起来轻轻松松。还支持回调式替换哦!

快速。使用了高大上的 trie 树进行匹配,查找耗时跟文本长度相关,跟词库大小关系不大,速度杠杠的。词典保存成二进制文件,使用时只维持一个文件句柄,避免了传统 trie 树内存开销巨大的弊端。

欢迎有需要的朋友试用 :P

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/20798.html

相关文章

  • 详细说明Python中信息清洁工具flashtext

      FlashText是GitHub上的另一个开源系统Python库,如同以前提到的,他在获得关键字和更换关键字每日任务上具有非常高的特性。本文详细说明一下下flashtext的应用,所需要的可以了解一下  在平时的些的较小规模的信息的过虑、清理环节中应用比较多的是正则匹配,但随着数据量级的扩大,正则匹配也显得有一些力不从心了。  正则匹配在这个10k的词库文件中检索15k个关键字的时长大概是0....

    89542767 评论0 收藏0
  • VicWord 一个纯php分词

    摘要:安装分词说明含有种切分方法长度优先切分。效果最好可自定义词典,自己添加词语到词库,词库支持文本格式和二级制格式二进制格式词典小,加载快含有个词,欢迎大家补充词语到,格式词语词性获取方法百度搜索这个词语结果数量,如果你有更好的方法欢迎补充。 安装 composer require lizhichao/word github: https://github.com/lizhichao/.....

    yangrd 评论0 收藏0
  • Trie树 php 实现敏感词过滤

    摘要:在树中,每个节点表示一个状态,每条边表示一个字符,从根节点到叶子节点经过的边即表示一个词条。查找一个词条最多耗费的时间只受词条长度影响,因此的查找性能是很高的,跟哈希算法的性能相当。 Last-Modified: 2019年5月10日15:25:35 参考文章 c++ 使用map实现Trie树 关键词过滤扩展,用于检查一段文本中是否出现敏感词,基于Double-Array Trie...

    王笑朝 评论0 收藏0
  • 推荐两个实用技术

    摘要:今天这篇文章给大家推荐两个实用的技术。比如关键词过滤,我们经常用的方案是自己维护一个敏感关键词库,然后对用户提交上来的数据进行分析。 今天这篇文章给大家推荐两个实用的技术。 极速智能的反垃圾云服务 - 网易易盾 基于二进制高效的对象序列化类库 - MessagePack 极速智能的反垃圾云服务。 首先解释一个互联网术语 - UGC。 UGC 全称 User Generated Co...

    gself 评论0 收藏0
  • 详细说明Python中信息清洁工具flashtext

      FlashText是GitHub上的另一个开源系统Python库,如同以前提到的,他在获得关键字和更换关键字每日任务上具有非常高的特性。本文详细说明一下下flashtext的应用,所需要的可以了解一下  在平时的些的较小规模的信息的过虑、清理环节中应用最多的是正则匹配,但随着数据量级的扩大,正则匹配也显得有一些力不从心了。  正则匹配在这个10k的词典中查寻15k个关键字的时长大概是0.165...

    89542767 评论0 收藏0

发表评论

0条评论

ISherry

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<