资讯专栏INFORMATION COLUMN

twitter-LDA研究

ls0609 / 950人阅读

摘要:我认为港科大的论文没有去考虑稀疏性的问题,很难有什么好的效果。这篇文章只发布在,也就是他们新加坡管理大学的学报上,引用量就不看了。但是弹幕有个特点就是时间影响,前面的弹幕对后面的弹幕影响很大,这个问题在港科大中是用指数衰减来体现。

开始扯淡

需要有LDA研究基础的人看

前面一部分有的是我写论文的思路,可以掠过。

第一部分。
看了几篇论文,本来想研究一下陈恩红团队所写的和深度学习模型DSSM有关的那篇论文(Reading the Videos: Temporal Labeling for Crowdsourced
Time-Sync Videos Based on Semantic Embedding),但是后来宣一鸣指出文中一个很大的漏洞,询问了作者,作者没理解我的问题,仍在讨论,暂时不再研究。(询问后已经证实想法,论文写的有问题,但是总的思路没错)

后来是明白了,T-DSSM(也就是陈恩红团队的那篇论文)的思路没有问题,而且还有点道理,下周准备实现一下。
大致的思路是通过T-DSSM将每个tweet转化成vector,然后通过DBSCAN聚类成26类(文章中做实验得出26类比i较好),然后SVM分类(总的10类)。

第二部分我先来阐述一下为什么我不去在港科大的那篇文章上修改模型,其实我仔细想想是可以改的。

首先,港科大的关键公式是根据别人的公式修改来的。

原公式,(原来的模型叫做DMR,是Andrew McCallum发明的)

可以发现这个公式其实和西塔矩阵是无关的,所以如果我需要加入JST的情感的l矩阵进来,最后的生成公式应该是可以修改的。只是我仍然不太清楚是不是需要这样去修改,是不是用户评论都有情感极性,以及每条评论是不是有个情感极性?反正这个问题我想先放着,我再多看看别人的论文找找思路。

我认为港科大的论文没有去考虑稀疏性的问题,很难有什么好的效果。

我根据Twitter-LDA出发,找了好几篇论文来拓展思路。其实Twitter和我们的弹幕还不一样,虽然都是短文本,但是他们更长而且在同一个时间段里他们可以是很多很多话题,因为量很大。

一开始直接找到了 Twitter-LDA在github上的项目:

项目中推荐了T-LDA的原创文章和使用其模型的几篇文章:

[1] Aspect-Based Helpfulness Prediction for Online Product Reviews. Y Yang, C Chen, FS Bao, 2016 IEEE 28th International Conference on Tools with Artificial Intelligence (ICTAI), 2016. (http://ieeexplore.ieee.org/abstract/document/7814690/)

[2] It"s Not What We Say But How We Say Them: LDA-based Behavior-Topic Model. Minghui Qiu, Feida Zhu and Jing Jiang. SDM"13.

[3] Finding bursty topics from microblogs. Qiming Diao, Jing Jiang, Feida Zhu and Ee-Peng Lim In Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics, ACL"12.

[4] Topical keyphrase extraction from Twitter. [bib] Wayne Xin Zhao, Jing Jiang, Jing He, Yang Song, Palakorn Achanauparp, Ee-Peng Lim and Xiaoming Li In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics, ACL"11.

Twitter-LDA的原始论文是:

Comparing Twitter and Traditional Media Using
Topic Models

北京大学和新加坡管理大学联合写的,发表于ECIR,C类会议(欧洲的新成果的主要会议)

twitters紧凑,更新很快。twitter常用与传播分享爆炸新闻,个人更新以及自发的想法。就我们弹幕而言,一般来讲我们的片段集中讨论一个话题,并且这个话题大概率与当前视频段的发生的事或是人物有关。

文中分析twitter的一些问题(我想这个分析可能对我们的弹幕分析也是有点借鉴):

Twitter 是否覆盖和传统的新闻媒体一样的话题分类和种类。

Twitter 中是否会有特殊存在的话题而新闻媒体中没有,反之亦然。

twitter 中是不是有某些特定的话题会吸引更多的见解(相较于传统新闻)

在 twitter 中是否有特定的话题会出发更多的信息传播。

    发现:
    (1)Twitter中的话题种类的个数和传统新闻媒体差不多(不知道怎么统计的),但是这些话题的分布不同。
    (2)twitter用户更加关注个人生活以及流行文化(相较于传统新闻)
    (3)尽管twitter用户很少发世界新闻,但是他们转发。

这篇文章有个特别的地方,它定义 topic categories 和 topic types 是不同的东西。

文中定义了一个 topic categories 的集,说是在Fig3,但是我没找到Fig3(无语),然后 topic types 定义了三种:event-oriented topics,entity-oriented
topics,long-standing topics

文中一个topic属于一个 topic category 并且有个 topic type。

Twitter-LDA的大致思想其实很简单,他从每个用户的角度上考虑,每个用户有个topic分布矩阵,然后每一个tweet的生成是根据这个矩阵选出来的topic再去选单词,但是这里有两个矩阵,一个是背景单词矩阵,一个是普通的,所以,形成了以下的生成模型。

文章实验:

设置topic个数110个,然后分别在 standard-LDA,Author-topic,Twitter-LDA上实验,最后结果让人工(只叫了两个人评分。。。)进行评判,有三个评分段位:1 (meaningful and coherent), 0.5 (con-taining multiple topics or noisy words), 0 (making no sense).

结果可想而知,TwitterLDA自然比较好,但是我觉得没必要去纠结这个结果,以为我认为模型中心思想可以借鉴。

以下花了大量的篇幅在对比传统新闻媒体和Twitter在各种方面的区别,当然不是简单的统计分析而是较为高级的基于LDA的比较,这里要提到文中收集了两种数据集

给了个假设:如果一个topic在许多的文章中都是在一个category里,那么这个topic大概率就是在这个category里,于是设计了一个公式

这就是为了找出这个topic属于哪一个category的概率大。
然后,根据这个继续想,一个有意义的topic最好是属于一个category,如果出现一个topic属于好几个category的情况,就应该是一个噪声。于是设计了下面这个公式。

这样下来,最后在NTY数据集上使用110个topic的LDA最终剩下83个。

和NTY不一样,Twitter没有category的label。所以,文章中这样处理,找出这个topic和NTY得到的topic中相近的,就认为这个topic的category是NTY中相近的那个topic的category。否则,创建一个新的category或是认为是噪音去除掉。怎么比较相近,文章设计了一个公式。

最终收集到81个topic。

接下来还要给每个topic分配一个属于它的type。最终结果如下。

因为上面都整理完了,所以下面进行了一些数据上的分析,通过分析回答之前提出的问题,虽然和我们不一样,但是我觉得还是挺有意思而且搞不好能有借鉴意义,还是稍微讲一下。

首先是category分布上比较差不多,但是每个category的比例很不一样,这个其实很容易理解,twitter这种地方更喜欢一些爆炸性新闻以及个人有关的事情。而在NTY这种传统正经的新闻集就不一样了。

另外的别的分析略过。

后看了 [3] Finding bursty topics from microblogs

新加坡管理大学的文章,和上一篇文章都是Ee-Peng Lim这个教授带的学生写的,这个教授是新加坡管理大学的信息系统学院教授。

这篇在模型上较之上一篇稍有改动,分析的是微博数据,然后12年发表在ACL上,A类会议。

题目说是找bursty topic,在不要紧,前面还是用的LDA改进模型先计算,然后根据算出来后的结果再去找bursty topic,所以还是有借鉴意义,并不是仅仅是突发话题检测。

修改模型的想法很奇特,也加入了时间和用户的影响,他认为生成模型是这样的。

每个时间段都有一个xita矩阵,然后每个用户都有属于自己的一个长期不变的topic分布矩阵,这个时候在这个片段里这个用户想要说topic的内容是可能从xita矩阵中选也可能是自己的矩阵中选,文章用伯努力二项分布选择。然后topic对应单词的phi矩阵也有两个,一个是和原来的lda一样的phi,另一个是背景词(文章中说common words,我也不太懂)分布。也是一样,有一个二项分布,看使用哪一个矩阵

后面接下来有个设计了一个公式来突发话题检测这里就不聊了。其实这篇看来我就有个疑问就是这个二项分布来选择是否合适?

下面是个实验结果,效果不错,好几个时间段的突出话题都检测出来了。

其实微博和twitter还是比较接近了,所以这篇论文在原始的Twitter-LDA上基本没什么改变,居然发的会议还比较好。

It Is Not Just What We Say, But How We Say Them: LDA-based Behavior-Topic Model

这篇文章只发布在 Research Collection School of Information Systems ,也就是他们新加坡管理大学的学报上,引用量1,就不看了。

总结

上面设计了很多公式,其实这是一种科研的手段在我看来,根据不同的情景设计不同的公式(当然这些公式也是参考别人的论文得出的),我认为这是一种合理的研究方式。

其实twitter-lda也没有去考虑稀疏性的问题,但是从用户的角度去解决问题,就好象author-topic model一样,在此之上又有别的改进。但是弹幕有个特点就是时间影响,前面的弹幕对后面的弹幕影响很大,这个问题在港科大中是用指数衰减来体现。不知道能不能结合一下,但是这样结合在公式上的修改很大。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/18267.html

相关文章

  • 华为诺亚方舟实验室主任李航:用漂亮的方式解决"污浊"的问题

    摘要:年月来到香港,至今在华为诺亚方舟实验室工作。我们机器学习小组以研究机器学习理论为主,考虑两个应用领域生物信息与自然语言处理。 非商业转载请注明作译者、出处,并保留本文的原始链接:http://www.ituring.com.cn/article/196610 李航,华为技术有限公司诺亚方舟实验室主任,北京大学、南京大学兼职教授。他日本京都大学电气电子工程系毕业,日本东京大学获...

    BigTomato 评论0 收藏0
  • 这家民办研究院太年轻,竟敢跟世界级选手“叫板”

    摘要:不仅如此,与它同台竞技的,还都是世界级选手等等。为此,智源研究院在年月便推出了智源学者计划。同时,智源研究院重视重大科研任务的沿途下蛋,截至年月,其已经申请中国专利件,获得发明专利授权件,登记软件著作权项。 金磊 发自 宇宙中心量子位 报道 | 公众号 QbitAI 一家AI研究院的打开...

    Lavender 评论0 收藏0
  • 智能科学与技术 毕业设计怎么做 - 选题推荐 - 疑问解答

    摘要:选题推荐持续性更新中以下为学长精选整理的智能科相关的毕设选题,供大家参考。最后毕设帮助毕设帮助,开题指导,技术解答 文章目录 1 前言2 选题注意事项2.1 选择...

    scq000 评论0 收藏0
  • 汽车专题研究报告(合集)

    摘要:查看行业专题分析报告就上参一江湖,更多专题报告持续更新中。参一江湖只作为内容整理方,仅供学习用。 查看行业专题分析报告就上参一江湖,更多专题报告持续更新中。每项专题报告都是从2019开始更新到至今,后续将持续更新... 今天为大家分享汽车专题研究报告的部分目录如下 : ———————公众号...

    xiao7cn 评论0 收藏0
  • 行业报告 | 2021.09.06 | 研报目录更新

    摘要:参一江湖只作为内容整理方,仅供学习使用。更多相关报告请查看参一江湖星球。 大家好,我们每天全网搜集各行各业的研究报告,了解一个行业从阅读这个行业的研报开始,今日分享目录如下: 20210906分享目录: 2021中国车险科技创新服务研究报告-45页.pdf 2021年中国家装行业数字化研...

    junfeng777 评论0 收藏0

发表评论

0条评论

ls0609

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<