社交媒体衍生话题的发现-中国期刊网

首页 > 《科学与技术》 > 2021年3期 > 社交媒体衍生话题的发现

（整期优先）网络出版时间：2021-05-06

作者: 周乔羽

建筑科学 >建筑技术科学

打印

同系列资源

/ 2

社交媒体衍生话题的发现

周乔羽

西华大学计算机与软件工程学院四川省成都市 610000

摘要

随着Twitter、微博等社交媒体的发展，信息在社交网络中快速传播，一个话题可能更多新话题。本文提出衍生话题的概念来描述信息传播过程中话题变化的趋势。我们将文章聚合成长文档，并以单词作为节点构造长文档子图并形成可视化的衍生关系图。

1 引言

对用户生成短文本的研究有利于发现和控制舆论。对大量短文本的主题进行建模可以用于主题检测和跟踪[1]、用户分析[2]等。

Li等人[3]提出了一种针对短文本的潜在主题模型(LTM)，该模型将短文本聚合成长文档进行建模。Zuo等人[4]提出了一种新的用于短文本主题建模的概率模型伪文档主题模型(PTM)，根据数据稀疏性隐式聚合短文本。

由于微博话题会随时间变化而变化，Ma等人[5]通过时间切片对微博数据集进行分组，使用基于段落向量的相似度算法聚合成几个较长的伪文档，有利于发现微博中的潜在话题。在本文中，我们提出一种简单而有效的方法来表达话题之间的衍生关系。

2 衍生话题

定义：在时刻有话题，在时间时，话题演变成话题，这样的话题我们定义为衍生话题。

本文按照一定的时间片对帖子进行分组并将其聚合成一个长文档。将每篇帖子映射到一个唯一的段落向量。我们定义了相似度阈值将高相似度的帖子聚合成相同主题的文档。相似度计算如下：

(1)

文档的初始为空，如果，和标记为相同的文档标记，带标记的帖子将不参与接下来的遍历。重复此过程，直到所有贴子都被标记组成一个文档语料库。

然后根据[6]计算文档的词频和词共现率，提取文档的主题词。对于文档，我们提取其主题词构建文档子图 ,每个单词作为其节点，词之间的共现关系构成边。以前个单词作为主题词，形成主题词集合。最后，比较时间片和的主题词集和 ,相同主题词合并，并保留节点关系形成衍生关系图。

3 实验结果

本文使用的数据集2017年8月期间的微博。利用复杂度[7]评价模型，确定文本集的时间片和最优阈值。从我们的实验中得到无论值为多少，当为0.5时，模型的复杂度最低。同时尝试了不同的时间片基准。时间片的下降导致了聚合容量的下降和文本聚合效果的下降。随着时间片的增加，每个伪文档包含更多的段落。当时间片过小时，会导致伪文档数据稀疏。是提取数据集连贯主题的最佳时间片基准。

我们从微博数据集中选取一个连续时间内的小数据集作为样例来展示衍生话题。如图2所示。

图2：衍生关系图的例子

衍生关系图的网络结构趋向于三个方向，一个方向代表一个衍生话题。在图8中用黄色节点表示。它们将两个不同的文档连接起来，形成话题之间的衍生关系。衍生词的度往往大于其他词的度。在一个衍生关系中，衍生词的词频和词共现频率都远远大于其他词。

5 总结

本文提出了衍生话题的概念来描述社交媒体中话题间的衍生。对数据集按时间分组并构建子图。通过计算词频提取主题词。通过比较相邻时间片中的文档主题词，构建一个导数关系图。

参考文献

[1] Garg, Muskan & Kumar, Mukesh. 2018. Identifying Influential Segments from Word Co-occurrence Networks using AHP. Cognitive Systems Research. 28-41.

[2] B. Liu et al., Context-aware social media user sentiment analysis, in Tsinghua Science and Technology, vol. 25, no. 4, 528-541, Aug. 2020, DOI: 10.26599/TST.2019.9010021

[3] Li, X., Li, C., Chi, J., Ouyang, J., 2018, Short text topic modeling by exploring original documents. Knowledge and Information Systems 56, 443-462

[4] Y. Zuo, J. Wu, H. Zhang, H. Lin, F. Wang, K. Xu, H. Xiong, 2016, Topic modeling of short texts: A pseudo-document view, Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2105 – 2114

[5] Li, J., Liang, X., Tian, Y., Al-Dhelaan, A., Al-Dhelaan, M. 2019, A time-series based aggregation scheme for topic detection in weibo short texts. Physica A: Statistical Mechanics and its Applications 536, 120972.

[6] S. Yang, G. Huang, B. Cai, 2019, Discovering topic representative terms for short text clustering, IEEE Access 92037–92047.

作者简介：周乔羽（1995.11—），女，四川自贡，汉，硕士，西华大学计算机与软件工程学院，610000，研究方向：自然语言。

同系列内容

查看全部

来源期刊

科学与技术

2021年3期

社交媒体衍生话题的发现

社交媒体衍生话题的发现

来源期刊

相关推荐

同分类资源更多

相关关键词

社交媒体衍生话题的发现

社交媒体衍生话题的发现

来源期刊

相关推荐

同分类资源 更多

相关关键词

同分类资源更多