您好,欢迎来到吉趣旅游网。
搜索
您的当前位置:首页基于时间加权关键词词频分析的学科热点研究

基于时间加权关键词词频分析的学科热点研究

来源:吉趣旅游网
情报学报2020年1月第39卷第1期JournaloftheChinaSocietyforScientificandTechnicalInformation,Jan.2020,39(1):100-110DOI:10.3772/j.issn.1000-0135.2020.01.010

基于时间加权关键词词频分析的学科热点研究

奉国和,孔泳欣

(华南师范大学经济与管理学院信息管理系,广州

510006)

摘要基于生命周期理论和词频分析方法,对学科领域发展过程进行客观合理的动态跟踪与分析。构建时间—关

键词频次矩阵,结合相对词频、词频变化率,引入逻辑斯谛(Logistic)函数赋予词频按时间递减的权重,设计时间加权关键词词频分析模型,计算关键词综合值,揭示学科研究热点及变化趋势;并以CNKI和CSSCI收录的18种图情领域核心期刊2013—2017年所刊载的文献关键词作为实验对象,从高频词、中频词、低频词三个方面验证模型的有效性和准确性。模型计算结果显示,上升型高频词排名上浮,下降型高频词排名下沉,可快速识别上升型高频词;同时排名靠前的低频词具有发展潜能,为学者把握未来研究趋势提供科学判断依据。

关键词词频分析;时间加权;逻辑斯谛函数;研究热点;趋势分析

SubjectHotspotResearchBasedonWordFrequency

AnalysisofTime-WeightedKeywords

FengGuoheandKongYongxin

(TheDepartmentofInformationManagement,SchoolofEconomics&Management,

SouthChinaNormalUniversity,Guangzhou510006)

Abstract:Basedonlifecycletheoryandwordfrequencyanalysis,thedevelopmentofaresearchfieldcanbeobjectivelytrackedandanalyzed.Thisstudyconstructedatime-keywordfrequencymatrix,combiningrelativewordfrequencyandwordfrequencychangerate;proposedalogisticfunctiongivingkeywordtime-descendingweights;anddesignedatime-weightedkeywordwordfrequencyanalysismodelthatcalculatescomprehensivevaluesofkeywordstorevealresearchhot‐spotsandtrendsinaresearchfield.Thekeywordsofpaperspublishedin18corelibraryandinformationscienceperiodi‐calsinCNKIandCSSCIfrom2013to2017wereanalyzedandcategorizedashigh-frequency,intermediate-frequency,orlow-frequencytoexaminethemodel􀆳seffectivenessandaccuracy.Themodel’scalculationsrankrisinghigh-frequencywordshigherthandeclininghigh-frequencywords,enablingquickidentificationofrisinghigh-frequencywords.Similarly,themodel’srankingsalsoallowscholarstoidentifylow-rankinglow-frequencywordswiththepotentialforgreaterdevel‐opment.Thisprovidesabasisforscientificjudgmentregardingfutureresearchtrends.

Keywords:wordfrequencyanalysis;timeweighting;logisticfunction;researchhotspot;trendanalysis

短时段内学科领域的关键词处于动态变化,不会凭空产生或消失,且多数学者的研究是基于前人研究成果的,关键词具有继承性和延展性[1]。为此,基于关键词可以进行学科研究热点识别和趋势

收稿日期:2018-04-17;修回日期:2019-06-25

分析。学界运用多种方法探究关键词的学科领域研究热点,取得众多成果。随着时间的推移,词频不断发生变化,词频分析应考虑“时间”因素的影响。关于学科领域发展过程动态跟踪与分析的相关

基金项目:国家社会科学基金项目“基于文本挖掘的科技文献知识发现研究”(16BTQ071)。

作者简介:奉国和,男,1971年生,博士,教授,硕士生导师,主要研究领域为数据挖掘、数字图书馆/数字档案馆,E-mail:ghfeng@163.com;

孔泳欣,女,1995年生,在读本科生。

第1期奉国和等:基于时间加权关键词词频分析的学科热点研究101

研究,主要采取时间分段分析法,并主观对比各段关键词情况,缺乏客观性和简捷性。本文引入逻辑斯谛(Logistic)函数,提出时间加权关键词词频分析模型,以期提高热点研究和趋势分析的科学性。此外,通过对关键词综合得分排序,基于排名分析对比以识别研究热点,简化过程结果,增强实用性。同时,关注高中低频词,全方位利用数据,发现有价值规律。最后,本文以我国图书情报学研究领域为例,验证该方法的科学性与有效性。

1相关研究

从时间序列角度出发,目前学界基于关键词对

学科领域的研究类别主要有:研究热点分析、发展趋势分析、主题演化分析及其他相关研究。

研究热点分析方面,多数学者[2-4]通过高频词的绝对词频、篇均词频、词频变化率进行逐年及分时段分析,进而探讨学科领域热点。Zhao等[5]运用VOSviewer软件进行关键词聚类研究,并根据不同的平均出现年份进行热点分析;谢靖等[6]分年段构建中国文学关键词共现图谱并分析研究热点;郑彦宁等[7]基于滑动窗口构建共词网络,识别研究前沿;为消除样本中随机干扰成分的影响,周鑫等[8]提出基于移动平均法的词频变化率识别热点,揭示研究热点,并运用共词网络分析和多维尺度分析探究重点研究主题及其演化趋势;Atlam等[9]提出基于词频变化和机器学习自动估算关键词时域内研究热度的变化情况;Li等[10]基于演化共词网络和聚类分析生命能源领域研究热点;Luo等[11]基于动态共词网络探究土壤重金属污染生物修复的研究热点和发展趋势。

发展趋势分析方面,李长玲等[12]分别对时序高频词和时序低频词聚类,以区分主题类型和预测潜在主题;蒋永新等[13]分年度统计高频词对关键词的相对频次并共现分析,以揭示变化情况,提高趋势直观性和横向可比性;李树青等[14]提出基于加权关键词共现时间元的个性化学术研究时序路径发现方法,以掌握学术演化规律和发展趋势;张一楠等[15]采用网络密度、聚类系数、特征路径长度、点度中心势、中介中心势等多种分析方法,基于关键词共现关系构建领域知识网络,对发展态势进行跟踪与分析;刘自强等[1]运用关键词群分析、社会网络分析和时间序列模型分析预测其研究热点的发展趋势;Choi等[16]构建关键词网络,分析核心关键词及时序变化,预测关键词的研究热度,并提出幂次分布定律;安宁等[17]基于关键词复杂网络的邻接关系

和Hub涌现,分析领域知识网络的知识涌现,以揭示知识发展的内在机制。

主题演化分析方面,张敏等[18]基于共引时序网络和关键词聚类网络,运用CiteSpace、UCINET、NetDraw软件分析研究热点主题及其演化网络;刘自强等[19]以主题强度、结构和内容展开多维度主题演化,以揭示学科主题的生命周期动态演化全过程及识别研究前沿;滕广青等[20]运用复杂网络分析中的中心性分析技术研究主题演化,揭示领域知识发展过程的规律与模式。

其他相关研究主要有,Alvarez等[21]构建关键词—年份矩阵,使用Rasch模型作为测量仪器来测量关键词的信息量,以分析研究趋势;牟冬梅等[22]构建时间—关键词二维矩阵,结合聚类分析、社会网络分析、时序词频统计和主题分类四种方法,并利用gCLUTO划分时间窗,划分为三个阶段并结合时间段高被引论文的关键词对领域学科动态知识结构进行多维度分析;滕广青等[23]以复杂网络理论为基础,基于领域关键词共现和派系分析法,对领域知识群落从时间序列上进行识别与跟踪,对其生长模式与机制进行分析。

总之,以上不同研究类别,其目的均为揭示学科领域的研究热点和发展趋势。目前多数研究基于时间序列对高频关键词的共词聚类分析、主题演化、社会网络分析以探究研究热点和发展趋势。以上方法具有深入探究但计算复杂的特征,且目前均关注高频词的发展情况,缺乏对中低频词的探究和分析,对关键词的动态演化分析是基于作者的主观判断。因此本文基于词频分析法对关键词赋予时间权值,简化探究学科研究热点的计算过程,提高应用性,并通过计算综合得分及排序分析,使分析结果更为全面、准确、客观。

2模型构建

本文结合知识生命周期和词频分析法,构建时

间—关键词词频矩阵,计算相对词频、词频变化率,引入“时间”因素加权,得出关键词综合值,以客观合理地揭示学科领域动态发展情况,探究研究热点及变化趋势。

2.1时间赋权

基于时间序列的动态综合评价,其评价要素具

备随时间变化的动态特征。考虑到权重的动态性,根据“厚今薄古”思想为不同时间节点关键词赋予不同权重。马费成等[24]指出,关键词及关键词个数

102情报学报j=m

第39卷

的离散分布均符合Logistic模型,即Logistic模型函数准确地揭示了知识单元的离散分布规律。因此,本文采取改进的Logistic模型给相对词频赋予时间权值,使得相对词频距今越近则权值越大,以此模拟关键词频次随着时间而不断变化。改进的Logis‐tic函数为

f(tij)=1/1+e

其中,α为相对词频总变化量α=∑R(i,j)-R(i,j-1)。

2

易得,D的取值范围为(0,+∞)。当α∈(-∞,0)时,变化率D<1,且综合值因而降低。当α∈(0,+∞)时,变化率D>1,且综合值因而增加。此算法保证综合值为正数,使关键词统一进行比较,并随着词频增长趋势的增大,变化率也增大。

(-tij

)(1)

其中,tij表示关键词i年份j与初始年份的时间差,tij=j-1。易得,f(tij)的取值范围为(0,1),并且随

2.4模型设计

基于时间赋权关键词词频分析模型流程如图1

着时间的增大,函数值也增大。越新的词频信息对研究热点和趋势预测的贡献越大,该时间函数符合实际需求。

所示。

第一步:采集、清洗数据,统计关键词逐年出现的词频数,构建时间—关键词矩阵C(n,m),n为关键词总量,m为采集的关键词年份总数。

第二步:利用公式(2)计算各关键词的相对词频R(i,j),并构建相对词频矩阵R(n,m)。

2.2相对词频

基于研究领域文献中关键词出现频次的词频分

析法,是热点分析常用的文献计量方法。关键词的绝对词频分析法具有局限性,在改进方法上,邱均平等和巩永强等

[3]

[25]

第三步:运用Logistic函数(公式(1))进行时间加权,计算时间权重系数f(tij)。

第四步:利用公式(3)计算变化率D(i)。第五步:计算综合值,s(i)=D(i)×∑R(i,j)×

j=m1

分别考虑到了年度总论文数和

年度总词频数对关键词频的影响。

为消除不同年份关键词总量波动的影响及关注关键词自身变化情况,通过构建年度—关键词频次矩阵,采用水平加权和垂直加权处理关键词绝对词频,进而计算各关键词的相对词频R(i,j),

R(i,j)=C(i,j)×

C(i,j)i=n1

f(tij)。

第六步:对综合值排序,识别研究热点及预测未来发展趋势。

该模型有如下主要特点:

(1)综合值排名靠前的关键词具有词频量高或者增长趋势突出的特点,有助于揭示研究热点和预测发展趋势。

(2)上升型高频词排名上浮,下降型高频词下沉,可快速识别研究热点。

(3)强化上升型中频词,弱化下降型中频词,且排名上升量与突发情况有表征关系。

(4)上升型低频词和显著突变关键词的综合得分靠前,因此可识别出具有发展潜力的低频词。

即各关键词绝对词频与当年关键词占比、时域内该关键词总量占比的乘积,以更为客观准确地比较各关键词频次。其中,C(i,j)是第j年关键词i的绝对词频;R(i,j)是第j年关键词i的相对词频;n是关键词的总数;m是时间长度(单位:年)。

∑C(i,j)∑C(i,j)j=m1

×

C(i,j)(2)

2.3词频变化率

关键词年度分布可以反映历年的研究重点,而

关键词随着时间增长可以反映历年研究热点。

为反映关键词的总体变化趋势,计算变化率D,运用e的指数函数进行数学转换,以均衡各指标对综合值的效果,

D(i)=eα

3实证分析

基于设计模型应用于图情领域的热点识别和趋

势分析,在CNKI和CSSCI上下载2013—2017年这5年间的18种图情领域核心期刊刊载的文献信息,人工去除无作者、通讯稿、征文稿等非学术类期刊

(3)

图1模型流程

第1期奉国和等:基于时间加权关键词词频分析的学科热点研究103

文献,经统计、去重得到26704篇文献。使用Mi‐crosoftExcel统计,最终得到34078个关键词,人工合并同义词242个,去除116个无意义词,以下研究选取绝对词频大于等于5的关键词(共2884个)。

3.1时间加权关键词词频统计与结果分析

根据公式(4)对关键词进行时间加权并计算综合

值,本文列出2013—2017这5年内综合值排名前50位的关键词(表1)。

根据表1,综合值排名突出的关键词包括上升型关键词、稳定型高频词、下降型高频词,具体如表2所示。

结合实验结果,对综合得分排名前50位的关键词按照上升型、稳定型和下降型分类进行如下分析。

上升型关键词为词频快速增长的高频词、中频词和突增显著的低频词,且多为新科技、新政策导向和学科领域发展动态。其中,中频词属于新兴研究热点,并受到学界的关注和重视,包括“智库”、、“互联网+”等,如“智库”的词频增长迅猛,由2增至42,且在2013—2015年增长率大于2倍,2015—2017年也接近1倍速增长;高频词属于逐渐成熟完善的研究主题,包括“大数据”、、“影响因素”等,如“大数据”5年总词频563,且2013—2016年稳步增长,虽在2017年稍有回落,但总体仍表现出明显的上升趋势;低频词属于新型研究主题,且具有良好的发展前景,包括“建筑物”、“人工智能”、“文化扶贫”等,如2013—2016年零词频,2017年突增词频至42,具有强烈的发展势头和前景。

稳定型关键词为稳定波动的高频词,集中表现在情报学研究方法和部分传统研究主题。其中,研究方法主题包括“文献计量学”、“知识图谱”、“社会网络分析”、“共词分析法”、“引文分析”、“专利分析”,前三者稳定于年均词频50左右,后三者稳定于年均词频30左右,表明此类研究方法具有广泛的应用性和推广性,能较好地解决文献计量方面的问题;传统研究主题包括“高校图书馆”、“网络舆情”、“图书馆服务”等,如“网络舆情”的词频波动区间为[50,83],稳定于年均词频70。此类主题主要与其他学科或主题结合,进行进一步深入研究。

下降型关键词为具有下降趋势的显著高频词,且均为传统研究主题,包括“图书馆”、“公共图书

馆”、“数字图书馆”、“信息服务”等。如“图书馆”5年总词频为1789,2013—2016年由431降至297,虽2017年有所回升,但整体呈现明显下降趋势;“信息服务”5年总词频为336,2013—2016年由92逐年下降至42,总体降幅大于50%。此类关键词在词频总量上具有突出的优势,表明目前学界对此方面的研究已较为成熟,学者的研究已深入细化并延伸到其他领域。

综上所述,综合值排名靠前的关键词具有词频量高或增长趋势突出的特点,多为处于接近知识生命周期峰值的研究热点,且具有较强的研究价值,对图情领域的下一步研究具有一定的启发性。

3.2高频关键词实验结果与讨论

选取综合得分排名前100位的高频关键词(总

词频量大于150的关键词)进行分析,结果如表3所示。

根据表3,排名情况包括排名稳定、排名明显下降、排名明显上升,具体如表4所示。结合实验结果,对综合得分排名前100位的高频词进行如下分析。

排名稳定的关键词多为整体上升型和稳定型高频词,此类关键词是具有较强研究价值的研究热点。整体上升型关键词包括“阅读推广”、“影响因素”,如“阅读推广”在2013—2017年的词频由45增至110,增幅约为1.5倍。稳定型关键词包括“图书馆”、“公共图书馆”、“大数据”等,如“公共图书馆”在2013—2017年的词频波动为36,总词频为957,波动幅度为3.8%,处于弱波动强稳定状态;而“图书馆”在2013—2016年的词频量由431降至297,虽然2017年增长至361,但是整体呈现下降趋势,处于强波动弱稳定状态。由于“图书馆”的总词频为1798,具有绝对的数量优势,其排名稳定。

排名下降量显著的关键词均为整体下降型高频词和稳定型高频词,此类关键词是研究热度下降的主题及传统研究主题。如“信息服务”、“微博”、竞争情报”的词频量在2013—2017年持续下降,且降幅约为15%;而“知识服务”、“学科服务”在2016年有所上升,但增幅不大,2017年的词频量也低于2015年的量,整体呈下降趋势。同时,排名下降量越大的关键词,其5年间词频降幅越大,下降趋势越明显。

排名上升显著的关键词主要为突增型高频词,

“数字人文”“阅读推广”“建筑物”在“104

表1

关键词高校图书馆图书馆公共图书馆大数据阅读推广影响因素美国网络舆情建筑物情报学数字图书馆微博智库数字人文互联网+文献计量学信息服务图书馆服务图书馆学知识图谱社会网络分析法人工智能移动图书馆创客空间学科服务突发事件知识服务大学图书馆数据可视化关联数据竞争情报智慧图书馆共词分析法引文分析信息素养文化扶贫元数据知识管理公共文化服务专利分析本体综述微信全民阅读mode社交媒体用户行为研究热点图书情报学

绝对词频

287361171142110937470426156414238404942504046412441343737333730353429313535332234252929263128281726293030

33232629

16191425

6152426

6163130

32264436423023447391629284482830232734303936

2331292441182731

1544105143183124

247193458281110

255944251443665453365035

367048154123863456336472391839263737136384613211927

5265023553615036569453331

4746616764844642609304137688556874967

83924957525254995756

441117022

30429717617383716179

23735019310378414962

2723502109352536983

情报学报第39卷

绝对词频与时间加权关键词得分部分结果

相对词频

时间加权

变化量综合得分0.7230.5811.7221.2921.1961.1241.0521.0363.6613.0350.8672.3551.0451.0461.0360.9320.9051.0040.9810.9930.9871.0280.9941.0240.9541.0180.9240.9863.0500.9880.9920.9611.0201.0060.9930.9971.0192.8130.9221.0130.9960.9591.0041.0081.0091.0151.0111.0111.0001.001

5.0373.0492.6012.5451.3420.8860.4860.4570.3350.3130.3130.2570.2420.2400.2300.2260.2190.2160.2090.1800.1630.1450.1440.1350.1300.1270.1230.1140.1120.1110.1100.1080.1080.1070.1010.0990.0970.0950.0860.0850.0840.0840.0830.0810.0800.0780.0780.0760.0750.075

20172016201520142013总和2017201620152014201320172016201520142013

32914290.8731.0450.5260.7081.1970.8570.9960.4630.5170.59843117891.3870.7781.3531.2052.1491.3620.7421.1920.8811.0742075245515050

9570.2760.3030.4240.4860.4450.2710.2880.3740.3560.2235630.2680.4890.1100.0720.0120.2630.4660.0970.0530.0063680.1910.0830.0730.0190.0120.1870.0790.0640.0140.0063090.1370.0620.0130.0240.0210.1350.0590.0110.0180.0103030.0710.0400.0220.0540.0200.0690.0380.0190.0400.0103440.0530.0760.0390.0840.0170.0520.0730.0340.0610.009420.093

0.091

2200.0540.0040.0120.0360.0190.0530.0040.0110.0260.0093950.0230.0280.0490.1230.1660.0230.0260.0430.0900.0832600.0140.0170.0240.0360.0630.0140.0170.0210.0260.032890.0440.0090.0020.0000.0000.0430.0090.0020.0000.000640.0450.0020.0000.0000.0000.0440.0020.0000.0000.000950.0360.0440.001

0.0350.0420.001

3040.0200.0500.0100.0520.0900.0200.0480.0090.0380.0453360.0120.0250.0420.0920.1110.0110.0240.0370.0670.0562530.0260.0310.0200.0350.0220.0260.0300.0180.0260.0112830.0120.0090.0500.1170.0310.0120.0080.0440.0860.0162330.0220.0290.0110.0250.0290.0220.0270.0100.0190.0142420.0150.0090.0240.0620.0280.0150.0090.0210.0460.014260.028

0.000

0.028

0.000

2110.0170.0080.0160.0330.0240.0170.0080.0140.0240.012880.0240.0110.0040.0000.0000.0230.0100.0030.0000.0002360.0110.0190.0140.0270.0580.0110.0180.0130.0190.0291380.0190.0180.0070.0040.0010.0190.0170.0060.0030.0012430.0080.0160.0120.0340.0870.0080.0150.0100.0250.0431880.0140.0080.0150.0120.0280.0140.0070.0130.0090.014380.0370.0000.0000.0000.0000.0370.0000.0000.0000.0002010.0110.0100.0130.0310.0230.0110.0100.0120.0230.0121970.0110.0280.0160.0120.0180.0100.0270.0140.0090.0092300.0060.0140.0240.0380.0450.0050.0130.0210.0280.023780.0200.0030.0020.0000.0000.0200.0030.0010.0000.0001600.0140.0080.0030.0290.0080.0140.0080.0030.0210.0041560.0140.0070.0020.0120.0210.0140.0070.0020.0080.0111720.0110.0260.0060.0090.0140.0110.0250.0060.0060.007300.0190.001

0.0180.001

1240.0170.0090.0060.0010.0050.0160.0090.0050.0010.0032010.0040.0070.0080.0210.0850.0040.0070.0070.0160.0431000.0130.0060.0140.0010.0000.0130.0060.0120.0000.0001650.0080.0060.0050.0400.0110.0080.0060.0040.0300.0062020.0050.0100.0190.0200.0460.0050.0100.0170.0140.0231250.0130.0110.0030.0020.0080.0120.0110.0020.0020.0041360.0090.0230.0080.0110.0000.0080.0220.0070.0080.0001290.0090.0190.0130.0050.0000.0090.0180.0110.0040.000170.015

0.015

870.0110.0220.0030.0000.0000.0100.0210.0020.0000.0001020.0130.0060.0040.0020.0020.0120.0060.0030.0010.0011250.0110.0070.0010.0060.0110.0110.0070.0010.0040.0061400.0100.0090.0060.0060.0090.0100.0090.0060.0050.005

第1期奉国和等:基于时间加权关键词词频分析的学科热点研究

表2

综合得分排名前20位的关键词各类型统计

关键词

105

关键词类型上升型关键词稳定型高频词

文化服务;mode;社交媒体;用户行为

大数据;阅读推广;影响因素;美国;建筑物;智库;数字人文;互联网+;人工智能;创客空间;数据;智慧图书馆;文化扶贫;公共高校图书馆;网络舆情;情报学;文献计量学;图书馆服务;图书馆学;知识图谱;社会网络分析法;移动图书馆;突发事件;知识服务;大学图书馆;可视化;关联数据;共词分析法;引文分析;信息素养;元数据;专利分析;综述;微信;全民阅读;研究热点;图书情报学

下降型高频词图书馆;公共图书馆;数字图书馆;信息服务;微博;学科服务;竞争情报;知识管理;本体

表3

关键词高校图书馆图书馆公共图书馆大数据阅读推广影响因素美国网络舆情数字图书馆情报学微博文献计量学信息服务图书馆服务图书馆学知识图谱社会网络分析法移动图书馆学科服务知识服务大学图书馆可视化关联数据竞争情报共词分析法引文分析信息素养知识管理本体专利分析知识共享云计算

绝对词频

2017287361171142110937470566141494250404641413733373534293535332526292711

201630429717617383716179592544665453365035324442303447392928443034273117

201523735019310378414962703648386345633647393937373638462119273141242629

20142723502109352536983995457688556874967525055365036564533314443514354

综合得分前100位的高频关键词词频和排名统计

时间加权相对词频

201332943120752455150501114470839249575252476676484642603041377158344459

总和14291789957563368309303344395220260304336253283233242211236243188201197230160156172201202165171170

20170.8571.3620.2710.2630.1870.1350.0690.0520.0230.0530.0140.0200.0110.0260.0120.0220.0150.0170.0110.0080.0140.0110.0100.0050.0140.0140.0110.0040.0050.0080.0060.000

20160.9960.7420.2880.4660.0790.0590.0380.0730.0260.0040.0170.0480.0240.0300.0080.0270.0090.0080.0180.0150.0070.0100.0270.0130.0080.0070.0250.0070.0100.0060.0090.001

20150.4631.1920.3740.0970.0640.0110.0190.0340.0430.0110.0210.0090.0370.0180.0440.0100.0210.0140.0130.0100.0130.0120.0140.0210.0030.0020.0060.0070.0170.0040.0050.007

20140.5170.8810.3560.0530.0140.0180.0400.0610.0900.0260.0260.0380.0670.0260.0860.0190.0460.0240.0190.0250.0090.0230.0090.0280.0210.0080.0060.0160.0140.0300.0170.034

20130.5981.0740.2230.0060.0060.0100.0100.0090.0830.0090.0320.0450.0560.0110.0160.0140.0140.0120.0290.0430.0140.0120.0090.0230.0040.0110.0070.0430.0230.0060.0120.029

变化量综合值0.7230.5811.7221.2921.1961.1241.0521.0360.8673.0352.3550.9320.9051.0040.9810.9930.9870.9940.9540.9240.9860.9880.9920.9611.0060.9930.9970.9220.9590.9960.9820.944

5.0373.0492.6012.5451.3420.8860.4860.4570.3130.3130.2570.2260.2190.2160.2090.1800.1630.1440.1300.1230.1140.1110.1100.1080.1070.1010.0990.0860.0840.0840.0720.070

绝对词综合值频排序

2134691175201310814121816211715262325193132272322302829

排序12345678111012161718192021232527283031323435363942415356

排名差

1-100134-1-6101-6-9-4-7-2-5-2-12-8-2-7-13-6-3-3-16-20-25-27-9

-11

注:排名差=绝对词频排名-综合值排名,即负值表示相较于绝对词频,综合值排名下降,正值则与负值情况相反。

此类关键词是在近阶段具有较强热度的传统研究主题。如“情报学”2013—2016年的词频在25~54波动,而2017年由25突增至61,增幅约为1.5倍。近

阶段突增的关键词对之后的研究方向具有一定的启发性作用。

综上所述,基于时间加权关键词词频模型,相

106

表4

排名情况稳定馆;共词分析法;引文分析

情报学报第39卷

综合得分前100位的高频词排名情况统计

关键词

图书馆;高校图书馆;公共图书馆;大数据;阅读推广;网络舆情;影响因素;美国微博;图书馆服务;知识图谱;移动图书馆;大学图书数字图书馆;信息服务;文献计量学;图书馆学;知识服务;社会网络分析法;学科服务;竞争情报;本体;知识管理;关联数据;信息素明显下降

养;知识共享;云计算;专利分析

明显上升情报学

较于绝对词频排序,上升型高频词和稳定型高频词排名上浮,下降型高频词排名下沉,可以快速识别研究热点。同时,该模型仍保持关键词的词频数量优势,反映出关键词历年来的累积程度,使得模型分析出的研究热点具有更强的研究价值和意义。此外,排名下降量与关键词词频降幅具有正相关性的情况,可用于快速判断关键词的发展趋势。

3.3中频关键词实验结果与讨论

选取综合得分排名前200位的中频关键词(总

词频量高于80低于110的关键词)进行分析,结果如表5所示。

根据表5,相较于绝对词频排序,模型综合值排名结果包括排名稳定、排名上升、排名明显下降3种情况,具体如表6所示。结合实验结果,对综合得分排名前200位的中频词进行如下分析。

排名稳定的关键词多为上升型中频词和稳定型中频词,此类关键词受到学者一定的关注。上升型中频词包括“用户行为”、“社交网络”等,如“用户行为”在2013—2017年的词频由16增至29,整体呈上升趋势;稳定型中频词包括“服务”、“中国”,如“服务”在2013年和2017年处于峰顶,而2015年降至4,处于波动状态。

排名上升的关键词均为上升型中频词,此类关键词前阶段词频量低,后阶段词频量高,具有一定的发展潜力。如“智库”在2013—2014年词频为2和5,而2015—2017年词频迅速增长,由15增至42,增幅显著。同时,排名上升量与突增情况具有表征关系,排名上升量越大的关键词,其突增情况越显著。如“互联网+”排名上升53位,2013—2014年零词频,2015—2017年由12增至40,而20位,2013—2017年词频由13增至27,其增幅明显低于前者。

排名明显下降的关键词主要为整体呈现下降型的中频词,此类关键词积累了一定的研究基础,但发展成研究热点的可能性较低。如“社会网络”5年总词频为110,在2013—2017年由35逐年持续下

降至15,降幅大于50%,总体呈显著下降趋势。

综上所述,基于时间加权关键词词频分析模型,可识别出上升型中频词,并弱化下降型中频词,有助于探究图情领域研究热点。排名上升量与突增情况具有表征关系,有利于快速识别突增型关键词,其在未来发展成为研究热点的概率较大,具有较好的发展潜力。

3.4低频关键词实验结果与讨论

选取综合得分排名前200位的低频关键词(总

词频量高于10低于50的关键词)进行分析,结果如表7所示。

根据表7,排名情况包括排名稳定、排名明显上升、排名大幅上升,具体如表8所示。结合实验结果,对综合得分排名前200位的低频词进行如下分析。

排名稳定的关键词多为词频量较大的上升型关键词,具有持续增长的研究热度,未来学界对该主题的研究将更为广泛和深入。如“生命周期”5年总词频为44,2013—2017年词频由7逐年持续增长至12,增幅高于50%。

排名明显上升的关键词和排名大幅上升的关键词主要为整体上升且近阶段显著突增的关键词。前者属于近阶段具有较强的关注和热度,且具有一定的累积研究量的新主题。如“建筑物”在2013—2016年零词频,2017年突现42次,未来学界应会重视该主题的研究;“开放政府数据”在2013—2014年零词频,2015—2016由4增至8,2017年迅速增长至19,增幅提高。后者属于近阶段显著突现的研究主题,如“人工智能”、“民国文献”在2013—2016最高词频为2,2017年分别突增至24和16;此外,还有5年间只有在2017年突现的词频量较大的主题,如“职业胜任力”在2017年突现13的词频量。

综上所述,综合得分靠前的低频词均为上升型低频词和显著突变关键词,且在近两年的研究热度较大。通过该模型可以识别出具有发展潜力的低频

“数据管理”排名仅上升第1期奉国和等:基于时间加权关键词词频分析的学科热点研究表5

综合得分前200位的中频关键词词频和排名统计

相对词频2016

2015

2014

2013

249616132017142423221544815352213192333223114282021262220332622182229

107

关键词智库互联网+创客空间公共文化服务社交媒体用户行为数据管理社交网络情报分析信息传播服务中国指标体系服务创新信息资源信息安全服务质量社会网络模型

信息素养教育用户知识转移开放存取h指数电子政务复杂网络知识组织大学生专利资源建设聚类分析比较研究资源共享移动服务信息需求信息生态虚拟社区读者服务

绝对词频

20172016201520142013总和201742403429262927272524252222221920191517171716916111513121414131312114121210

2543262333232522222114142216141926152120221424162523152013212015121918231517

1512182916191217201341217181120101710201418171991519131618172312812142015

61061513182012142726162214162825181824261022162729271325222128201414165

变化量综合值绝对词频排序综合值排序排名差

7868796481627560608691655881569184566879756858876587627174736772759084918781

1315244047485561707380858688899496110111113116123127131132133134136137141142144147151153165170174

65535524341420-101311-20-28-33-12-54-43-34-41-55-69-44-67-46-72-65-63-68-75-72-72-61-69-74-83-93-3-7-1

890.04310.00890.00190.00010.00001.04490.2421950.03490.04240.0009

1.03620.2300

880.02310.01010.00330.00010.00001.02380.13511000.01260.00620.01210.00040.00021.01260.0846870.01050.02090.00230.00010.00011.01060.07781020.01240.00600.00330.00120.00101.01070.0758900.01130.00880.00100.00090.00061.01040.07001040.00980.00520.00230.00210.00181.00630.06201040.00780.00520.00380.00280.00111.00570.0531840.00850.00560.00130.00080.00081.00710.0525810.01000.00170.00000.00120.00412.73450.0467980.00560.00140.00090.00740.00300.99980.04151090.00510.00490.00220.00590.00231.00050.0414870.00630.00240.00330.00170.00091.00460.04101100.00320.00130.00060.00360.01860.96670.0392810.00510.00430.00490.00120.00021.00490.0370860.00410.01030.00060.00180.00091.00230.03491100.00160.00160.00220.00730.00940.98300.0281950.00270.00490.00050.00600.00270.99740.0278880.00290.00460.00450.00240.00061.00170.0270900.00280.00600.00150.00240.00180.99920.0262950.00220.00150.00310.00530.00310.99610.02431090.00030.00640.00220.00590.00790.98460.0239830.00260.00250.00410.00040.00310.99640.0231980.00070.00810.00040.00400.00730.98620.0230830.00210.00740.00200.00180.00081.00060.02291020.00110.00170.00330.00710.00520.99080.0228940.00100.00430.00120.00950.00200.99690.0219910.00160.00120.00220.00790.00240.99670.0218920.00150.00510.00320.00090.00460.99240.0215970.00120.00420.00250.00590.00260.99590.0212930.00120.00180.00650.00420.00210.99710.0208900.00100.00100.00100.00380.00960.98200.0200820.00000.00420.00030.00980.00510.98980.0193860.00170.00340.00100.00340.00300.99570.0192810.00110.00760.00170.00120.00170.99770.0179830.00110.00210.00480.00120.00310.99500.0166870.00060.00290.00190.00170.00670.98720.0161

注:排名差=绝对词频排名-综合值排名,即负值表示相较于绝对词频,综合值排名下降,正值则与负值情况相反。

表6

排名情况稳定上升明显下降

综合得分前200位的中频词排名情况统计

关键词

用户行为;社交网络;情报分析;信息传播;服务;中国;服务创新;信息安全;服务质量智库;互联网+;创客空间;公共文化服务;社交媒体;数据管理

社会网络;知识转移;开放存取;电子政务;知识组织;大学生;专利;资源建设;聚类分析;比较研究;资源共享;移动服务;信息需求;信息生态;虚拟社区;读者服务

108

表7

关键词建筑物人工智能数据文化扶贫mode政府数据Digital开放政府数据主题模型宁夏民国文献Science职业胜任力政府数据开放数据科学数据开放政府开放数据数据素养情报服务上海深度学习科研数据管理数字学术澳大利亚术语虚拟现实在线评论知识高校智库社会资本阅读推广活动情报工作信息舆情社区阅读行为中国知网反恐情报文化机构知识元演化博弈仿真公共服务图书情报隐私保护移动社交网络情报

技术接受模型iSchool生命周期知识融合

绝对词频

情报学报第39卷

综合得分前200位的低频关键词词频和排名统计

时间加权相对词频2016

20150.0000

2014

2013

420.0914

变化率综合值绝对词频排序综合值排序排名差3.66060.33451.02840.14511.01890.09681.01540.07781.01410.07371.01190.06041.01170.06031.01040.0525

20939923333064227173432018579745553586336348133059918519573450729379723343010391039190228642228599307195415379293220399945330320279271228245535202202363195507

922293746526364687277838284879099100101102107108118119120124125128129140145148150156157158161162163173175176178181183185188194197198199200

2003772042935962196712561177253784527812793942405008594632400185679114310915914629950283451157392582211325823677215514410190456034785165307-4

20172016201520142013总和20174224302217211519211416151316151613151712131511151610151811141113171215131129121212141212101212111210

55135551688912107107412514464

324644425144815521112564

6667122976371141225467

651743146272631922421

11310523113782411

165

83

29

14132

103

62684

14

8

1

31

31

11

21

23

20

812

45

4

5

12

1

1

28

21

1

4

260.0275

380.03680.00000.00000.00000.00003.04980.1124300.01840.0009170.0150

350.01370.00250.00000.0000150.0117

310.01150.00080.0001140.0102

470.01020.00190.00010.00010.00011.01030.0549230.00920.00000.00000.00000.00001.00940.0477200.00870.00000.00000.00000.00001.00890.0452130.0088280.00760.0024220.00790.00010.0000300.00710.0017180.00630.0004

470.00370.01310.00050.0000150.00600.0001210.00540.00080.0000330.00530.00080.00010.0002140.00490.00000.0000

0.0000

1.00900.04521.00770.0415

0.00001.00810.0411

0.00000.00001.00720.0382

1.00650.03291.00380.03281.00610.03081.00550.02871.00540.02841.00500.0254

440.00580.00150.00010.00010.00031.00530.0317

380.00460.00010.00000.00100.00011.00440.0249240.00880.00000.00000.00000.00002.79300.0249110.00470.0000110.0047

0.0000

1.00480.02421.00480.0242

公共文化服务保障法10

450.00390.00310.00020.00040.00001.00400.0237390.00770.00010.00020.00000.00042.77620.0235170.00410.0006180.0038

1.00410.0215

0.00000.00000.00001.00380.0198

390.00360.00010.00000.00160.00011.00350.0206320.00360.00020.00010.00080.00001.00360.0194440.00580.00010.00020.00030.00042.76030.0189250.00360.00000.00010.00030.00001.00360.0189270.00650.00010.00010.00000.00002.77270.0185330.00340.00020.00010.00040.00001.00340.0184400.00000.00020.00000.00120.00562.62980.0183260.00340.00020.00020.0001120.00310.00000.00000.0000

1.00350.01831.00320.0162

300.00300.00040.00010.00000.00021.00270.0160310.00290.00080.00010.00000.00011.00280.0159340.00260.00080.00070.00010.00001.00270.0152350.00410.00110.00000.00010.00022.74840.0149390.00230.00220.00020.00020.00001.00230.0144370.00240.00140.00020.00030.00001.00240.0143200.00260.00090.0000

0.00001.00260.0142

430.00210.00120.00150.00020.00001.00210.0136430.00210.00040.00200.00020.00011.00190.0134280.00250.00010.00020.00030.00001.00250.0133440.00200.00200.00020.00030.00021.00170.0131210.00250.00030.0002

0.00001.00250.0131

注:排名差=绝对词频排名-综合值排名,即负值表示相较于绝对词频,综合值排名下降,正值则与负值情况相反。

第1期奉国和等:基于时间加权关键词词频分析的学科热点研究

表8

综合得分前200位的低频词排名情况统计

关键词

生命周期;技术接受模型;情报

109

排名情况稳定明显上升

建筑物;数据;文化扶贫;政府数据;开放政府数据;主题模型;政府数据开放;数据开放;数据素养;情报服务;科研数据管理;澳大利亚;在线评论;知识;社会资本;情报工作;信息;舆情;社区;阅读行为;中国知网;反恐情报;知识元;演化博弈;仿真;公共服务;图书情报;隐私保护;iSchool

大幅度上升

知识融合;人工智能;mode;digital;宁夏;民国文献;职业胜任力;science;数据可信;政府开放数据;上海;深度学习;数学学术;术语;公共文化服务保障法;虚拟现实;高校智库;阅读推广活动;文化机构;移动社交网络

词,且在未来具有较大的概率成为研究热点,给未来图情领域的研究带来一定的思考。

4结论

为简化计算过程,更客观简捷地识别学科研究热点及判别发展趋势,本文提出时间加权关键词词频分析模型,采用逻辑斯谛(Logistic)函数对时间序列关键词加权,结合相对词频、词频变化率对关键词词频进行加权修正,科学、全面、准确地对学科领域知识的动态跟踪与分析。实证表明,相较于绝对词频分析法,本文提出的模型具有以下特征:①趋势突出的特点,有助于揭示研究热点和预测发展综合值排名靠前的关键词具有词频量高或者增长趋势;②上升型高频词排名上浮,下降型高频词下沉,可快速识别研究热点;③强化上升型中频词,弱化下降型中频词,且排名上升量与突发情况有表征关系;④上升型低频词和显著突变关键词的综合得分靠前,因此可识别出具有发展潜力的低频词。

本研究实现了预期目标,下一步将对模型继续完善,主要工作包括:①本研究仅选取文献给出的关键词,下一步数据采集可扩充到标题关键词、摘要关键词、全文关键词,以期提高结果的准确性和全面性。②该模型中只对年度—关键词分布及占比进行计算分析,并未涉及词义的加权,也未实现,后续将借助其他方法做进一步的加权判断,以实现自动识别核心关键词。

考文献

[1]

刘自强,王效岳,白如江.基于时间序列模型的研究热点分析预测方法研究[J].情报理论与实践,2016,39(5):27-33.

[2]魏瑞斌.基于关键词的情报学研究主题分析[J].情报科学,2006,24(9):1400-1404,1434.

[3]邱均平,丁敬达.1999—2008年我国图书馆学研究的实证分析(下)[J].中国图书馆学报,2009,35(6):79-87,118.

[4]李文兰,杨祖国.从关键词的变化看中国图书馆学研究主题的

发展[J].图书情报工作,2004,48(12):115-118.[5]

ZhaoJ,YuGY,CaiMX,etal.Bibliometricanalysisofglobalscientificactivityonumbilicalcordmesenchymalstemcells:a

swiftlyexpandingandshiftingfocus[J].StemCellResearch&Therapy,2018,9:32.

[6]

谢靖,章鑫鑫.基于CSSCI(2000—2011年)的中国文学研究热点知识图谱分析[J].西南民族大学学报(人文社会科学版),2014,35(5):227-234.

[7]郑彦宁,许晓阳,刘志辉.基于关键词共现的研究前沿识别方法研究[J].图书情报工作,2016,60(4):85-92.

[8]周鑫,陈媛媛.关键词词频变化视角下学科研究发展趋势分析——以国内情报学研究为例[J].情报杂志,2016,35(5):133-140,112.

[9]AtlamES,OkadaM,ShishiboriM,etal.Anevaluationmethodofwordstendencydependingontime-seriesvariationanditsim‐provements[J].InformationProcessing&Management,2002,38(2):157-171.

[10]LiJ,WangY,YanBB.Thehotspotsoflifecycleassessmentfor

bioenergy:Areviewbysocialnetworkanalysis[J].ScienceoftheTotalEnvironment,2018,625:1301-1308.

[11]LuoR,LiJ,ZhaoYM,etal.Acriticalreviewontheresearch

topicsystemofsoilheavymetalpollutionbioremediationbasedondynamicco-wordsnetworkmeasures[J].Geoderma,2017,305:281-292.

[12]李长玲,郭凤娇,魏绪秋.基于时序关键词的学科交叉研究主

题分析——以情报学与计算机科学为例[J].情报资料工作,2014(6):44-48.

[13]蒋永新,詹华清.基于共现关键词统计的图书馆学情报学学科

研究趋势分析[J].图书情报工作,2008,52(9):28-31.

[14]李树青,孙颖.基于加权关键词共现时间元的个性化学术研究

时序路径发现及其可视化呈现方法[J].情报学报,2014,33(1):55-67.

[15]张一楠,黄国彬,王亚男,等.近十年我国非图情领域科学计量

可视化的应用研究剖析[J].图书馆杂志,2015,34(5):32-40.[16]ChoiJ,YiS,LeeKC.AnalysisofkeywordnetworksinMISre‐

searchandimplicationsforpredictingknowledgeevolution[J].In‐formation&Management,2011,48(8):371-381.

[17]安宁,滕广青,白淑春,等.基于网络Hub的领域核心知识涌现

研究[J].图书情报工作,2017,61(18):98-106.

“核心关键词上浮、辅助性关键词下沉”110情报学报第39卷

[18]张敏,朱明星,夏宇.关键词-时序视域下国际大数据研究主题

演化分析[J].图书馆工作与研究,2017(2):66-73.

[19]刘自强,王效岳,白如江.多维度视角下学科主题演化可视化

分析方法研究——以我国图书情报领域大数据研究为例[J].中国图书馆学报,2016,42(6):67-84.

[20]滕广青,贺德方,彭洁,等.基于网络中心性的领域知识动态演

化研究[J].图书情报工作,2016,60(14):128-134,141.

[21]AlvarezP,PulgarinA.TheRaschmodel.Measuringinformation

fromkeywords:Thediabetesfield[J].JournaloftheAmericanSo‐[22]牟冬梅,琚沅红,郑晓月,等.基于时间-关键词共现分析的学科

动态知识结构研究——以国外图书情报学为例[J].图书情报工作,2017,61(12):21-31.

[23]滕广青,贺德方,彭洁,等.基于网络演化的领域知识群落生长

机制研究[J].情报理论与实践,2016,39(10):16-20,15.[24]马费成,陈锐.科学信息离散分布规律的研究——从文献单元

到内容单元的实证分析(VII):比较与总结[J].情报学报,2000,19(1):82-92.

[25]巩永强,刘莉.基于词频分析法的情报学研究热点透析[J].图

cietyforInformationScience,1996,47(6):468-476.

书馆学研究,2011(13):9-13.

责任编辑车尧)

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- jqkq.cn 版权所有

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务