社交媒体衍生话题的发现

(整期优先)网络出版时间:2021-05-06
/ 2

社交媒体衍生话题的发现

周乔羽

西华大学计算机与软件工程学院 四川省成都市 610000


摘要

随着Twitter、微博等社交媒体的发展,信息在社交网络中快速传播,一个话题可能更多新话题。本文提出衍生话题的概念来描述信息传播过程中话题变化的趋势。我们将文章聚合成长文档,并以单词作为节点构造长文档子图并形成可视化的衍生关系图。

1 引言

对用户生成短文本的研究有利于发现和控制舆论。对大量短文本的主题进行建模可以用于主题检测和跟踪[1]、用户分析[2]等。

Li等人[3]提出了一种针对短文本的潜在主题模型(LTM),该模型将短文本聚合成长文档进行建模。Zuo等人[4]提出了一种新的用于短文本主题建模的概率模型伪文档主题模型(PTM),根据数据稀疏性隐式聚合短文本。

由于微博话题会随时间变化而变化,Ma等人[5]通过时间切片对微博数据集进行分组,使用基于段落向量的相似度算法聚合成几个较长的伪文档,有利于发现微博中的潜在话题。在本文中,我们提出一种简单而有效的方法来表达话题之间的衍生关系。

2 衍生话题

定义:在6093662607ad6_html_65e723d5093f8533.gif 时刻有话题6093662607ad6_html_e220410307313807.gif ,在时间6093662607ad6_html_4e038d836367dec9.gif 时,话题6093662607ad6_html_e220410307313807.gif 演变成话题6093662607ad6_html_a73c7890477e8052.gif6093662607ad6_html_a73c7890477e8052.gif 这样的话题我们定义为衍生话题。

本文按照一定的时间片6093662607ad6_html_6c810b1183d764b0.gif 对帖子进行分组并将其聚合成一个长文档。将每篇帖子映射到一个唯一的段落向量。我们定义了相似度阈值6093662607ad6_html_ef1a1a00b8b2d6ab.gif 将高相似度的帖子聚合成相同主题的文档。相似度计算如下:

6093662607ad6_html_3f3b17831f11dce2.gif (1)

文档6093662607ad6_html_7fcbe4cebd3aac6a.gif 的初始为空,如果6093662607ad6_html_f21402fa23594949.gif6093662607ad6_html_e220410307313807.gif6093662607ad6_html_3e081712abb49b76.gif 标记为相同的文档标记6093662607ad6_html_7fcbe4cebd3aac6a.gif ,带标记的帖子将不参与接下来的遍历。重复此过程,直到所有贴子都被标记组成一个文档语料库6093662607ad6_html_ba3a82b480577757.gif

然后根据[6]计算文档的词频6093662607ad6_html_ecf43986f1faf973.gif 和词共现率6093662607ad6_html_372ec8cef1c8f05f.gif ,提取文档的主题词。对于文档6093662607ad6_html_7fcbe4cebd3aac6a.gif ,我们提取其主题词构建文档子图6093662607ad6_html_8e3e465ecb43c765.gif ,每个单词作为其节点,词之间的共现关系构成边。以前6093662607ad6_html_dacbc5c1cbb7e783.gif 个单词作为主题词,形成主题词集合6093662607ad6_html_e9fa0f6f5afac7f3.gif 。最后,比较时间片6093662607ad6_html_65e723d5093f8533.gif6093662607ad6_html_4e038d836367dec9.gif 的主题词集6093662607ad6_html_ee36c1399a4ef719.gif6093662607ad6_html_ec76bb5b8f203b07.gif ,相同主题词合并,并保留节点关系形成衍生关系图6093662607ad6_html_9548c973aea5b83d.gif

3 实验结果

本文使用的数据集2017年8月期间的微博。利用复杂度[7]评价模型,确定文本集的时间片和最优阈值。从我们的实验中得到无论6093662607ad6_html_6c810b1183d764b0.gif 值为多少,当6093662607ad6_html_ef1a1a00b8b2d6ab.gif 为0.5时,模型的复杂度最低。同时尝试了不同的时间片基准。时间片的下降导致了聚合容量的下降和文本聚合效果的下降。随着时间片的增加,每个伪文档包含更多的段落。当时间片过小时,会导致伪文档数据稀疏。6093662607ad6_html_8b40d2c587cabdf3.gif 是提取数据集连贯主题的最佳时间片基准。

我们从微博数据集中选取一个连续时间内的小数据集作为样例来展示衍生话题。如图2所示。

6093662607ad6_html_a6143b20bc9df606.png

图2:衍生关系图的例子

衍生关系图的网络结构趋向于三个方向,一个方向代表一个衍生话题。在图8中用黄色节点表示。它们将两个不同的文档连接起来,形成话题之间的衍生关系。衍生词的度往往大于其他词的度。在一个衍生关系中,衍生词的词频和词共现频率都远远大于其他词。

5 总结

本文提出了衍生话题的概念来描述社交媒体中话题间的衍生。对数据集按时间分组并构建子图。通过计算词频提取主题词。通过比较相邻时间片中的文档主题词,构建一个导数关系图。

参考文献

[1] Garg, Muskan & Kumar, Mukesh. 2018. Identifying Influential Segments from Word Co-occurrence Networks using AHP. Cognitive Systems Research. 28-41.

[2] B. Liu et al., Context-aware social media user sentiment analysis, in Tsinghua Science and Technology, vol. 25, no. 4, 528-541, Aug. 2020, DOI: 10.26599/TST.2019.9010021

[3] Li, X., Li, C., Chi, J., Ouyang, J., 2018, Short text topic modeling by exploring original documents. Knowledge and Information Systems 56, 443-462

[4] Y. Zuo, J. Wu, H. Zhang, H. Lin, F. Wang, K. Xu, H. Xiong, 2016, Topic modeling of short texts: A pseudo-document view, Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2105 – 2114

[5] Li, J., Liang, X., Tian, Y., Al-Dhelaan, A., Al-Dhelaan, M. 2019, A time-series based aggregation scheme for topic detection in weibo short texts. Physica A: Statistical Mechanics and its Applications 536, 120972.

[6] S. Yang, G. Huang, B. Cai, 2019, Discovering topic representative terms for short text clustering, IEEE Access 92037–92047.


作者简介:周乔羽(1995.11—),女,四川自贡,汉,硕士,西华大学计算机与软件工程学院,610000,研究方向:自然语言。