资讯专栏INFORMATION COLUMN

文本相似度的计算

shleyZ / 3523人阅读

摘要:文本相似度的计算方法有很多,这里简单记录一下传统的模型计算文本相似度的时候主要是使用来协助生成文档向量整个文档集合有多少词,就是多少维度每个文档中的词用来生成权重,用权重来表示文档的向量生成向量后,就可以计算相似度了,用夹角余弦当然这里词的

文本相似度的计算方法有很多,这里简单记录一下

传统的VSM模型:

计算文本相似度的时候主要是使用tfidf来协助生成文档向量
整个文档集合有多少词,就是多少维度
每个文档中的词用tfidf来生成权重,用权重来表示文档的向量
生成向量后,就可以计算相似度了,用夹角余弦
当然这里词的权重的生成方式还有很多,也可以用其他的

LSI(Latent semantic indexing) 的方式

这个的方式也比较简单,主要是先生成文档 - 词矩阵
矩阵中的内容就是文档中出现该词的频数
然后用svd分解矩阵得到三个矩阵
C = USV
然后每个文档向量分别和USV相乘得到向量
文本相似度计算还是夹角余弦
至于降低维度,就要对S进行奇异值削减了

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/37891.html

相关文章

  • 推荐系统01--余弦相似

    摘要:在近邻推荐中,最常用的相似度是余弦相似度。这就是由于余弦相似度被向量长度归一化后的结果。用余弦相似度计算出来,两个用户的相似度达到。余弦相似度适用于评分数据,杰卡德相似度适合用于隐式反馈数据。 今天,我们来聊聊协同过滤中的相似度计算方法有哪些。相似度的本质推荐系统中,推荐算法分为两个门派,一个是机器学习派,另一个就是相似度门派。机器学习派是后起之秀,而相似度派则是泰山北斗,以致撑起来推...

    cncoder 评论0 收藏0
  • simhash+汉明距离计算文本相似

    摘要:由于最近需要做大规模的文本相似度的计算,所以用到了汉明距离来快速计算文本的相似度。的原理如下图其中的采用的是的的结果。附上的源代码对列表进行降维海明距离判定距离是否相似 ****由于最近需要做大规模的文本相似度的计算,所以用到了simhash+汉明距离来快速计算文本的相似度。** **simhash的原理如下图:其中的weight采用的是jieba的tf-idf的结果。**** sh...

    lx1036 评论0 收藏0
  • 敏捷AI | NLP技术在宜信业务中的实践【智能聊天机器人篇】

    摘要:本篇为场景中的智能聊天机器人篇,敬请收看作者井玉欣。今天要介绍的是如何利用技术以及智能聊天机器人来解决组织内部面临的大量的每日业务咨询问题。图对于现代企业来说,智能聊天机器人有着非常广泛的业务需求。 写在前面:在背景篇《敏捷AI | NLP技术在宜信业务中的实践【背景篇】》中,我们大概了解了NLP技术的发展情况,接下来,我们会向大家介绍NLP技术在宜信应用的高级场景。本篇为场景中的智能...

    jeffrey_up 评论0 收藏0

发表评论

0条评论

shleyZ

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<