当前位置:巨优公文网>范文大全 > 公文范文 > 基于Pajek的档案学研究状况可视化知识图谱分析

基于Pajek的档案学研究状况可视化知识图谱分析

时间:2022-12-05 09:15:57 公文范文 来源:网友投稿

摘要:利用中国知网(CNKI),从年度分布、期刊分布、作者共现分析、机构共现分析、关键词共现分析等方面对我国档案学领域1979年至2015年的论文进行了知识图谱分析。研究发现,档案学领域的研究集中在档案信息、档案管理方面,数字化建设成为研究热点。

关键词:档案学 Pajek CNKI 知识图谱

档案是再现历史真实面貌的原始文献,是我国文化遗产的重要组成部分。近期,中共中央办公厅、国务院办公厅《关于加强和改进新形势下档案工作意见》提出,要深入贯彻落实党的十八大精神、邓小平理论、“三个代表”重要思想,以科学发展观为指导,建立健全资源体系、利用体系、安全体系,完善工作机制,推动档案事业科学发展。随着国家对档案工作的重视,管理系统研发[1]、数字档案[2]、档案知情权[3]、利用模式[4]、安全管理[5]等方面的研究日益增多。国内学者从文献计量学角度对档案数字化[6]、管理信息系统、服务评价模型、信息公开制度进行了统计分析,但未对我国36年来档案学研究的整体状况进行分析。文章采用信息计量学分析方法,对我国档案学领域进行可视化分析,以揭示我国档案学领域的研究状况,为档案事业发展提供参考。

一、数据来源

中国知网(China National Knowledge Infrastructure,中国国家知识基础设施,简称CNKI),是我国三大中文数据库系统之一。作为知识资源传播共享平台,收录了各学科近8000种期刊,面向海内外读者提供中国学术文献、外文文献、学位论文、报纸、会议、年鉴、工具书等各类资源统一检索、统一导航、在线阅读和下载服务。涵盖基础科学、文史哲、工程科技、社会科学、农业、经济与管理科学、医药卫生、信息科技等十大领域。其核心期刊、重要评价性数据库来源期刊授权率达到99%。文章采用CNKI作为数据源,检索1979年至2015年数据,在“学科领域”中选择“档案学”,其他条件选择默认,于2015年4月22日检索到档案学领域的相关文献22300篇。

二、数据处理

从CNKI下载Refworks格式的文献题录,用文本整理器和Editplus进行去噪处理,整理为BibExcel可以识别处理的文本格式,导入BibExcel进行词频统计,构建共现矩阵,形成相关Excel文件,导入Excel2Pajek生成Pajek可以识别的net格式文件,利用Pajek绘制可视化知识图谱。Pajek,是集网络绘制与网络分析为一体的社会网络分析软件,极大便利了我们获取网络结构图,进行网络分析。

三、检索结果分析

(一)年度分析

某学科在一定时间内发表论文的多少,是该学科科研工作取得成果多寡的反映。对论文进行年度分析,可以反映出科研领域成果的变化情况。表1为档案学领域论文的年度分布情况,2015年度情况因未到年底暂未收入。

文总体呈上升趋势。2004年前后、2010年前后分别出现了“V”形波动,说明档案学科研成果的取得具有缓慢性和长期性的特点,论文数量的波动在很大程度上受科研工作积累的影响。

(二)期刊分布

期刊是科研人员发表论文的主要载体,尽管期刊的分级在国内还没有统一的标准,但从各个部门和机构制定的分级标准来看,期刊评价的好坏从侧面也可以反映出论文质量的高低。在Bibexcel中以SO为统计标签,对1979年至2014年我国档案学领域论文刊载期刊进行统计,共得到1789种期刊,平均每种刊载期刊论文12篇。表2是收录1979年至2015年我国档案学领域论文数量100篇以上的期刊列表。

(三)作者分析

在Bibexcel中以AU为统计标签,对22300篇论文的所有署名作者进行统计,共得到作者16033人,累计出现频次27455次,平均每位作者发表论文1.39篇,出现频次为1.71次。论文作者与其发表论文数量的关系见表3。档案学领域论文作者中仅发表1篇论文的人数点总人数的71.71%,总发文数量在20篇以上的作者共计51人,仅占总人数的为0.14%。

作者共现知识图谱是作者间合作关系的一种表现形式,如果两位作者之间进行过合作,则图谱中代表两位作者的节点就会被连接起来,连线的粗细代表两者合作次数的多少。在绘制档案学领域作者共现知识图谱的过程中,发现该领域的作者合作次数较多。在频次20以上的51位作者中,26位作者存在过44次合作。频次15以上的88位作者中,39位作者存在67次合作。运用Pajek绘制作者共现知识图谱,如图1所示,周林兴和苏君华之间以合作8次居首位。频次10以上的191位作者中,有99位作者存在189次合作。图2所示,迈克尔.库克和耿立大以合作8次居首位。

注:图中“$ + 数字”表示节点的频次,连线中的数字表示共现的次数,下同。

(四)机构分析

机构是论文所属项目的主要管理者,为科研工作的开展提供物质基础和经费支持,论文数量的多少是机构科研实力的证明。我们首先对题录中所有的机构信息进行了调整,高等院校及其附属机构统一按校名进行统计,同一论文中多次出现的单位只计算一次。

在Bibexcel中以C1为统计标签,对1979年至2015年发表的论文数量进行统计。从表4中可以看出,发表论文数量前18的机构全部为高等院校。这说明我国在档案学领域研究体系中,高等院校在发展中处于领先主导地位。

选择频次100以上的机构,构建高频机构共现矩阵并运用Pajek绘制共现知识图谱,如图3所示。机构的共现关系体现了机构之间研究的相关性,共现次数的多少是机构之间学术合作和交流的体现。

(五)关键词分析

关键词是作者选出可以代表论文主要内容的词或词组,通过关键词可以了解论文的基本内容。某一个关键词在期刊中出现的次数越多,说明相关领域的研究越多。在Bibexcel中以DE为统计标签,统计得到档案学领域论文关键词共计28455个,关键词累计出现频次为151822 次,平均频次为5.34次/个。可以看出,由于分类标准不统一,有关数字化的关键词,如档案数字化(1591频次)、数字档案馆(1507)、数字档案(670)、数字化(661)、数字化档案(623)、档案数据库(599)、数字档案馆(346)、数字化工作(331)、数字化档案馆(309)等,皆可归类于“数字化建设”,总计为6637频次。

选择频次大于200的关键词运用Pajek绘制共现知识图谱,如图4所示。在存在共现关系的关键词组中,“档案工作”和“档案信息”共现897次,“档案数字化”与“档案信息”共现620次,“档案信息”同“数字档案馆”共现463次。

四、结论

通过定量分析,可以发现我国档案学领域的论文在数量上出现上升趋势。通过对期刊的分析可以发现,档案学领域的论文主要发表在社会科学类期刊上。档案学领域的研究热点主要集中在档案信息和档案管理的数字化建设方面。虽高频作者人数所占比重较少,但论文作者之间的合作次数较多。高等院校在档案学领域的研究中处于领先地位,高校之间虽然存在合作关系,但合作强度不大。

参考文献:

[1] 李美玲.对档案管理系统的设计与实现研究[J].企业改革与管理,2015(9):26.

[2] 石峻峰,周俐霞,樊泽恒,王丽.大数据时代高校数字档案资源管理研究[J].现代教育技术,2015(1):19-24.

[3] 慕容慧.人事档案知情权研究文献计量分析[J].黑龙江史志,2013(13):73+75.

[4] 王顺新.基于分级存储的数字化档案利用模式研究[J].科技创业家,2013(9):249.

[5] 章笑梅,莫列义,陈一谦.构建三维档案安全管理体系的实践[J].中国档案,2010(6):22-24.

[6] 屠跃明,翟瑶.档案数字化的元数据研究[J].兰台世界,2012(14):60-61.

推荐访问:可视化 图谱 状况 知识 分析

版权所有:巨优公文网 2018-2024 未经授权禁止复制或建立镜像[巨优公文网]所有资源完全免费共享

Powered by 巨优公文网 © All Rights Reserved.。备案号:沪ICP备18054162号-1