6.3排序式检索 tf-idf权重计算

不知名网友发布于2021-11-29 10:50 / 3779人阅读

摘要：提示信息检索文档评分词项权重计算向量空间模型第三部分权重计算文章目录权重计算权重文档频率计算举例权重权重计算在进行排序时，除了词项频率之外，我们通常还需要词项在整个文档集中的频率和评分。那么我们就希望给它更高的权重。

提示：
信息检索：文档评分-词项权重计算-向量空间模型
第三部分：tf-idf权重计算

文章目录

tf-idf权重计算

tf-idf权重计算

在进行排序时，除了词项频率tf之外，我们通常还需要词项在整个文档集中的频率和评分。
原因，当词项A和词项B在文档1中tf相同时，但词项B在文档集中每个文档中都有，而词项A只存在于文档1中，那么A和B需要有一个重要性的排序。

权重

罕见词项要比常见词项蕴含的信息要多很多，它出现的频率越低，那么出现它的文档就显得相关性更高。那么我们就希望给它更高的权重。
那么对于常见词而言，相对蕴含信息就相对偏少，给一个低的权重即可。

文档频率df

出现词项的文档数目

idf_t是反映信息量的一个指标。
用log₁₀(N/df_t)来限制N/df_t的作用

idf计算举例

N=1000000

cf VS df

vs
文档集频率cf	t在整个文档集中出现的次数
文档频率df	包含t的文档数目

哪一个更适合查询？即赋予更高的权重？
通过上图，df(idf)的更适合做查询

※tf-idf权重

GPU云服务器云服务器 tf-idf 菜单式云计算权重域名低权重

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/125634.html

自然语言处理真实项目实战

摘要：在自然语言处理中，一个很重要的技术手段就是将文档转换为一个矢量，这个过程一般是使用这个库进行处理的。自然语言处理中，一般来说，代表词。自然语言预处理中，一个很重要的步骤就是将你收集的句子进行分词，将一个句子分解成词的列表。前言本文根据实际项目撰写，由于项目保密要求，源代码将进行一定程度的删减。本文撰写的目的是进行公司培训，请勿以任何形式进行转载。由于是日语项目，用到的分词软件等，在...

王岩威 2019-07-30 17:03 评论0 收藏0

发表评论

登陆后可评论

0条评论

不知名网友

男|高级讲师

我要关注我要私信

TA的文章

Oracle数据库4031故障分析

阅读 4076·2023-01-11 11:02
Oceanbase新版本复合分区添加分区操作

阅读 4605·2023-01-11 11:02
VRRP高可用

阅读 3477·2023-01-11 11:02
Docker技术之构建镜像和网络模式解析

阅读 5477·2023-01-11 11:02
CISCO 4500 主引擎版故障处理

阅读 5032·2023-01-11 11:02
大数据开发系列五：kafka& zookeeper 配置kerberos认证

阅读 6017·2023-01-11 11:02
自研实时计算模块介绍及运维数据应用场景实施

阅读 5671·2023-01-11 11:02
DataX的限速与调优

阅读 4511·2023-01-11 11:02

资讯专栏INFORMATION COLUMN

上云采购季！| 2核2G4M爆款云服务器低至59元/年，更有多台、长期优惠，快来选购！

6.3排序式检索 tf-idf权重计算

文章目录

tf-idf权重计算

权重

文档频率df

idf计算举例

cf VS df

※tf-idf权重

相关文章

自然语言处理真实项目实战

发表评论

0条评论

不知名网友

男|高级讲师

TA的文章

Oracle数据库4031故障分析

Oceanbase新版本复合分区添加分区操作

VRRP高可用

Docker技术之构建镜像和网络模式解析

CISCO 4500 主引擎版故障处理

大数据开发系列五：kafka& zookeeper 配置kerberos认证

自研实时计算模块介绍及运维数据应用场景实施

DataX的限速与调优

最新活动