

关于本刊
-
主管单位:中国社会科学院
主办单位:中国社会科学院图书馆
社会科学文献出版社
出版单位:社会科学文献出版社
主 编:王 岚
常务副主编:巩文
副主编: 初景利(执行)王继民
ISSN:2096-6695
CN:10-1611/G2
您当前的位置:首页 >> 基于 BERTopic 与 GPT 模型的社交媒体虚假信息文本主题内容研究



摘要: | [目的 / 意义]从不同主题维度对社交媒体虚假信息文本进行内容分析,有利于揭示社交媒体虚假信息传播特点与规律,针对性提升社交媒体的信息质量,进一步推动社交媒体健康发展。[方法 / 过程]基于 BERTopic 主题模型,从公开数据集 MCFEND 及 CHEF 中提取共 26 478 条虚假信息相关主题,并使用 GPT4.0 模型进行主题标签凝练,实现对社交媒体虚假信息主题内容特征的深入分析。首先,利用 BERTopic 模型对预处理后的社交媒体虚假信息文本数据进行 SBERT 文本向量化、UMAP 降维、HDBSCAN 聚类与 MMR 主题优化,并从中自动提取 30 个核心主题。其次,引入 GPT 模型,提供 prompt(提示词)凝练主题标签,提升主题标签的准确性和可解释性。最后,进一步归纳主题词,分析主题提取结果、主题内容强度及主题时间演化特征。[结果 / 结论]研究发现,社交媒体虚假信息传播具有如下特点与规律:社交媒体虚假信息主题内容泛化且跨国传播较为明显;特定虚假信息主题具有较高关注度并关联热点话题;地域差异或文化背景驱动社交媒体虚假信息主题内容出现分化。 |
作者: | 万宏静 崔琦 程谦 |
作者单位: | (1. 华北电力大学人文与社会科学学院,北京 102206;2. 北京航空航天大学计算机学院,北京 100191) |
期刊: | 文献与数据学报 |
年.(期):页码 | 2025.(3):34-48 |
中图分类号: | G206 TP181 |
DOI: | 10.31193/SSAP.J.ISSN.2096-6695.2025.03.03 |
关键词: | BERTopic 模型 GPT 模型 社交媒体 虚假信息 主题模型 |
欢迎阅读《文献与数据学报》!您是该文第118位读者! |
版权所有 © 中国社会科学院图书馆 《文献与数据学报》编辑部
地址:北京市东城区建国门内大街5号 邮编:100732 技术支持电话:010-85195283、010-85195300、010-65276340
本系统由北京博渊星辰网络科技有限公司设计开发 技术支持电话:010-63269626