9+

您当前的位置:首页 >> 基于 BERTopic 与 GPT 模型的社交媒体虚假信息文本主题内容研究

基于 BERTopic 与 GPT 模型的社交媒体虚假信息文本主题内容研究

查看全文 下载全文

摘要:

[目的 / 意义]从不同主题维度对社交媒体虚假信息文本进行内容分析,有利于揭示社交媒体虚假信息传播特点与规律,针对性提升社交媒体的信息质量,进一步推动社交媒体健康发展。[方法 / 过程]基于 BERTopic 主题模型,从公开数据集 MCFEND 及 CHEF 中提取共 26 478 条虚假信息相关主题,并使用 GPT4.0 模型进行主题标签凝练,实现对社交媒体虚假信息主题内容特征的深入分析。首先,利用 BERTopic 模型对预处理后的社交媒体虚假信息文本数据进行 SBERT 文本向量化、UMAP 降维、HDBSCAN 聚类与 MMR 主题优化,并从中自动提取 30 个核心主题。其次,引入 GPT 模型,提供 prompt(提示词)凝练主题标签,提升主题标签的准确性和可解释性。最后,进一步归纳主题词,分析主题提取结果、主题内容强度及主题时间演化特征。[结果 / 结论]研究发现,社交媒体虚假信息传播具有如下特点与规律:社交媒体虚假信息主题内容泛化且跨国传播较为明显;特定虚假信息主题具有较高关注度并关联热点话题;地域差异或文化背景驱动社交媒体虚假信息主题内容出现分化。

作者: 万宏静 崔琦 程谦
作者单位: (1. 华北电力大学人文与社会科学学院,北京 102206;2. 北京航空航天大学计算机学院,北京 100191)
期刊: 文献与数据学报
年.(期):页码 2025.(3):34-48
中图分类号: G206 TP181
DOI: 10.31193/SSAP.J.ISSN.2096-6695.2025.03.03
关键词: BERTopic 模型 GPT 模型 社交媒体 虚假信息 主题模型

欢迎阅读《文献与数据学报》!您是该文第118位读者!