资讯专栏INFORMATION COLUMN

[论文简读] Web Content Extraction Using Clustering

levinit / 1488人阅读

摘要:实验结果实验数据集数据集都是新闻类网页,从五个中文新闻网站中收集一百个页面这最多也就五类吧,而且也就五百个,好像有点少了吧结果与验证性能指标这这这比较文本长度就了那不是只要包含新闻正文不就好了。

《Web Content Extraction Using Clustering with Web Structure》
引用 Huang X, Gao Y, Huang L, et al. Web Content Extraction Using Clustering with Web Structure[C]// International Symposium on Neural Networks. Springer, Cham, 2017:95-103.
华中科技大学 2017年 ISNN会议论文
简介

该文章中文简称为基于WEB结构的聚类Web内容提取,我在通读全文后发现,作者给聚类这件事的笔墨并不多,占文章篇幅更多的是如何比较网页之间的相似性,聚类只是之后处理的一种手段。
该文章提出了一种内容提取算法,如下

从不同网站中收集网页进行聚类

将网页解析成DOM树

根据节点的位置和相同深度的节点数量以及DOM树的深度分配权重

根据给定的公式计算两个页面之间的相似度

从聚类得到的同一组页面中,删除相同的页面部分,剩余的便是WEB内容。

聚类算法

K-means 需要在一开始时便分配聚簇数量,因此不适用
Canopy 聚类算法(一个快速,简单,但没有那么精确的算法,算法简介参考这篇文章)

作者最终选择了Canopy算法,因为该算法逻辑简单,易于收敛,不过作者没有给出Canopy算法中的T1和T2是如何取的,应该也知道这一块会被编辑诟病吧。

网页结构相似度量方法

这一块就是全文的重点了,聚类只是用来获得与目标页面相似的一些页面,便于第二步删除相似部分(如顶栏/侧栏/广告)。

首先来看一下最简单的一个分配权重和比较相似度的方法:

假设整个DOM树的权重为1,深度为1的节点数量为N,因此,每个节点得到的权重为1 / N;

将节点获得的权重平均分配给他的子节点。

迭代地分配权重到达叶节点。

对于叶节点x和y,如果x等于y,则x和y的相似度是它们得到的权重,否则,相似性为0.对于非叶节点x和y,如果x等于y,相似度是其子节点相似度的总和,如果不相似,则相似度为0。
定义:对于非叶节点x和y,如果标记名,元素集值和两个节点的子节点数相同,则 x = y

两个DOM树的相似性等于其根节点的相似性。

这个算法会遇到一种情况,就是在两个比较的dom树中,当b和c分支都被判定相同,而a分支被判定不同(也就是说两个网页除了顶部栏之外其他都一样),两个网页的相似度就会足够的大,而被判定为相似的页面(嗯?难道不是吗?)

于是,作者提出了基于权重动态规划的结构相似性测量方法(SMDPW)

作者发现静态区域始终位于页面的顶部和底部,而内容区域始终位于中心。换句话说,区域越靠近页面的末端,它就越可能是静态区域。因此,权重通过动态编程分配,越接近区域所在页面的末端,权重越大。此分布策略仅适用于深度为1的节点。其他节点获得的权重是通过平均分配其父节点的权重来计算的。(蛤?这不合理吧,那a的权重不就偏大了,你把b的权重调大我都能接受啊)

提取内容

emmm,作者只用了一小段文字描述,反正就是在找到相似的页面的基础上,沿着DOM树进行对比,删除相同的或者相似度高的内容,剩下的就是data了。

实验结果 实验数据集

数据集都是新闻类网页,从五个中文新闻网站中收集一百个页面(???这最多也就五类吧,而且也就五百个,好像有点少了吧)
结果与验证

性能指标

what? 这?这?这? 比较文本长度就OK了? 那不是只要包含新闻正文不就好了。

算法对比

说好的中文网页呢……难道是CNN中文网?

总结

实在有好多槽点想吐一吐,算了,人家毕竟是985发表的ISNN会议文章,尊重作者吧。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/96723.html

相关文章

  • [论文简读] Web Content Extraction Through Machine Lear

    摘要:分块效果如图所示聚类由于不同网页之间设计和布局存在较大差异,作者选择了作为聚类算法来解决簇数目未知簇形状未知噪声等问题未给出距离函数。 《Web Content Extraction Through Machine Learning》 通过机器学习来提取网页内容 2014年,未见期刊会议上登载,作者 Ziyan Zhou @stanford.edu 简介 数据集 以新闻文章网站为主数...

    leonardofed 评论0 收藏0
  • 论文简读】 Deep web data extraction based on visual

    摘要:第一阶段设置卷积层和汇集层以学习图像的特征。除了为输出设置最后一个完全连接之外,第三阶段设置多个连接层以过滤先前层学习的特征。据区域检测的标准,如果,则数据区域被视为正样本。 《Deep web data extraction based on visual information processing》作者 J Liu 上海海事大学 2017 AIHC会议登载引用 Liu J, Li...

    shiguibiao 评论0 收藏0
  • [论文简读] Deep Neural Networks for Web Page Informati

    摘要:将候选框的坐标投影到最终的特征张量,并使用提取结果向量。最后,使用的线性模型将向量分类为预定义的类。 [论文简读] Deep Neural Networks for Web Page Information Extraction 基于深层神经网络进行网页信息提取 简单介绍 本文主要介绍了一种基于神经网络并结合视觉信息、文本信息的多网站通用包装器(wrapper) 本文的几个贡献o 提出...

    kel 评论0 收藏0
  • [论文简读] Deep Neural Networks for Web Page Informati

    摘要:将候选框的坐标投影到最终的特征张量,并使用提取结果向量。最后,使用的线性模型将向量分类为预定义的类。 [论文简读] Deep Neural Networks for Web Page Information Extraction 基于深层神经网络进行网页信息提取 简单介绍 本文主要介绍了一种基于神经网络并结合视觉信息、文本信息的多网站通用包装器(wrapper) 本文的几个贡献o 提出...

    xiangzhihong 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<