关于本刊
-
主管单位:中国社会科学院
主办单位:中国社会科学院图书馆
社会科学文献出版社
出版单位:社会科学文献出版社
主 编:王 岚
常务副主编:巩文
副主编: 初景利(执行)王继民
ISSN:2096-6695
CN:10-1611/G2
您当前的位置:首页 >> 新时代人民日报分词语料库下关键词抽取及分析研究
新时代人民日报分词语料库下关键词抽取及分析研究
摘要: | [目的/意义]面对海量的新闻文本,通过提取少量能表征其内容的关键词,来帮助用户快速掌握新闻内容,是关键词提取的首要任务。[方法/过程]本文以新时代人民日报分词语料库中部分语料作为研究对象,主要对比TF-IDF、TextRank、LDA、LSI、Rake、Yake六种无监督关键词抽取方法的抽取效果,并对抽取结果进行分析。[结果/结论]结果显示:在Pooling 评价方法下,TF-IDF 算法以及Yake 算法在大规模人民日报关键词提取任务中表现优,TextRank 算法性能尚可。另外,通过对政治、经济、社会类别下的关键词进行分析,可快速发现、梳理当月的重要事件。本文的研究可为新闻报刊语料的关键词提取分析提供参考。 |
作者: | 周好 王东波 黄水清 |
作者单位: | 南京农业大学信息管理学院,南京农业大学人文与社会计算研究中心 |
期刊: | 文献与数据学报 |
年.(期):页码 | 2022.(1):21-34 |
中图分类号: | G255 |
DOI: | 10.31193/SSAPJ.ISSN.2096-6695.2022.01.02 |
关键词: | 关键词抽取 新时代人民日报分词语料 无监督抽取方法 |
欢迎阅读《文献与数据学报》!您是该文第3502位读者! |
版权所有 © 中国社会科学院图书馆 《文献与数据学报》编辑部
地址:北京市东城区建国门内大街5号 邮编:100732 技术支持电话:010-85195283、010-85195300、010-65276340
本系统由北京博渊星辰网络科技有限公司设计开发 技术支持电话:010-63361626