…… mITIm脑I&INFOR删盯l0_删l脚嵋l…………………………………………………………………………… 高校图书馆读者需求信息的大数据分析系统设计 董屹 (西华师范大学图书馆,四川南充637009) 摘要:为了适应新形势下高校图书馆个性化服务的需求,对读者需求信息大数据分析系统进行设计。 阐述了大数据的基本概论和特征,深入分析了图书馆读者需求的应用策略,以期推动高校图书馆信息化 服务建设水平,为实现读者精准化的知识需求发现奠定理论基础。 关键词:图书馆;读者需求信息;大数据 1概述 随着信息技术的快速发展,数据呈现出多样性、复 杂性等特点。数据分析技术已在多个行业中被应用。大 数据技术能够从海量的知识中,通过数据采集、知识挖 掘等预测出相关规律[1】。我国已有一半以上的高校完成 了第一轮数字化校园建设闭。为校园大数据的研究提供 了可行性条件。扮演着重要社会角色的高校,更需要借 助先进的技术手段,为师生读者的服务提供有力支撑。 通过搭建服务平台,根据读者已有的行为进行数据分 析,对读者的需求进行预测并进行推送,在个性化、多 元化的信息服务中显得尤为重要。 目前,已经有一些高校和地方图书馆抓住有利契 机,开展了大数据服务,取得了一些成果,如武汉图书 馆开发的大数据管理软件,能够对读者的习惯进行分 析,推送个性化阅读书目。但大数据在图书馆建设中的 应用依旧存在一些问题,如采集的信息质量不高,信息 重复,大数据应用程度不高,不能有效处理复杂数据 等。针对以上问题,深入分析了图书馆读者需求分析的 应用策略,充分挖掘读者行为信息,对读者需求信息进 行预测,为图书馆建设创建个性化的服务体系结构.提 供多方位的信息服务奠定理论基础,实现传统图书服务 向个性化服务模式的转变。提升图书馆的社会影响力和 核心价值,更好地发挥图书馆的作用。 2大数据 大数据技术是指即时查询、批量处理、流式计算等 一系列数据分析处理技术。互联网(社交、搜索、电 商)、移动互联网(微博)、物联网(传感器,智慧地 球)、GPS、安全监控、金融(银行、股市、保险)、电 信(通话、短信)都在产生着数据:全球每秒钟发送 2.9百万封电子邮件;Google上每天需要处理24PB的 数据。根据IDC报告显示,目前的数据一直都在以每年 50%的速度增长.也就是说每两年就增长一倍,而这一 增长数量正是大数据摩尔定律,并且大量新数据源的出 现则导致了非结构化、半结构化数据爆发式的增长,这 意味着在最近两年产生的数据量相当于之前产生的全部 数据量,预计到2020年,全球将总共拥有35亿GB的 数据量。相较于2010年,数据量将增长近30倍。这并 不是一个简单的数据增多的问题,它带来了更多的全新 的问题。如:面对大数据的全新特征,目前已有的技术 架构和路线,已经无法高效地完成处理这些数据.而对 于某一个组织或公司而言,即使投入巨大资源也无法及 时处理反馈有效信息,也是不可能实现的。可以说。大 数据时代对人类的数据驾驭能力提出了新的挑战.也为 人们获得更为深刻、全面的洞察能力提供了前所未有的 空间与潜力。 大数据具有容量、种类、速度、可变性、真实性、 复杂性等几大特点。容量指的是数据大小决定数据的价 值和潜在的信息。大数据的数据容量都是以PB为基数 单位。种类指数据种类的多样性.其类型可以分为文 字、音频、视频、图片、地理位置信息等,同时这些信 息又都具有异构性和多样性的特点。速度是指获取数据 的速度,处理速度快,时效性要求高,需要实时分析而 非批量式分析,数据的输入、处理和分析连贯性地处 理。可变性是指妨碍处理和管理数据的过程。真实性代 表数据的质量,复杂性指数据的来源广泛,数据量大, 种类多样。大数据中数据被分为结构化数据和非结构化 数据,便于存储的以文本为主的为结构化数据。而网 基金项目:四川省教育厅一般项目(项目编号16ZB0173)。 收稿日期:2017—07—17 ”* m …|¨ # 实用第一 智慧密集 络日志、音频、视频、图片等,属于非结构化数据, 非结构化数据的日益增长对数据的处理能力提出了更高 的要求。 利用大数据可以帮助人们进行辅助决策,通过数据 采集、数据挖掘、发现事物的潜在规律,进行趋势预 测,掌握的数据信息越多,决策更加合理精确。大数据 应用于不同行业不同领域,可以为行业者提供决策帮 助,通过对大量数据的分析对核心价值进行预测,将数 据转化为应用价值,提升管理、决策水平,提升经济效 益。但大数据也存在相应的一些缺点,如处理能力要求 高、存在一定的隐私安全问题等。 3读者需求信息的大数据分析系统 通常,图书馆读者行为数据所涉及到的数据量很 大,比如读者的阅读习惯、阅读关联等、服务器日志等 。 通过对海量数据的深入分析挖掘。对读者的未来需求信 息做出预测,推送个性化的阅读书目,给读者更好的阅 读体验。 读者需求信息的大数据分析系统的主要流程包括数 据的采集、数据的预处理、数据挖掘与深度数据处理, 处理结果的显示与应用等,如图l所示。 图1 读者需求信息的大数据分析系统流程图 (1)数据采集。对读者数据的采集是大数据中非常 重要的部分.这些数据可以是结构化、非结构化和半结 构化。数据具体内容包含读者对图书馆的资源,如电子 资源、纸质资源等的使用情况,信息的检索记录、上网 的浏览记录、以及与图书馆的互动记录等,采集的数据 必须满足真实性、客观性等要求,是进行数据挖掘和分 析的基础。大数据数据采集可以通过实时数据、非实时  ̄ ,面,2017蠢叠.20碗鹂与。I妒1— 数据、以及其他方式获得。目前常见的采集方法主要包 含系统日志采集、网络数据采集、数据库采集和其他数 据采集4种。高校图书馆可以根据自身情况选择合适的 数据采集方式。 (2)数据预处理。由于采集到的数据具有海量化、 重复性、维度高等特点。为了保证后期数据挖掘和深 度处理的有效性,还需要采用一定的技术和手段对采 集到的数据进行预处理,如对数据进行关联、去重、 组合等。对噪声数据进行光滑、对缺失数据进行填充、 离群点数据的清理等,能有效节约后期的分析处理成 本,提升处理效率。为了将复杂数据变成便于处理的 结构,还可以借助如Flume等高可靠、分布式海量日 志采集、聚合传输系统,以达到后期快速分析处理的 目的。 (3)数据挖掘与深度处理。数据挖掘是一个知识 发现过程,在数据挖掘中,利用数据挖掘器对数据进 行深度分析和处理,常见的分析方法包括关联分析、 聚类分析、序列模式分、预测等。其中关联分析主要 采用关联规则、序列模式等手段来寻找数据之间的关 联性和依赖性,以及数据之间的因果性。聚类分析技 术把若干对象按照一定的规则进行合理的分类,使得 同类对象具有较高相似度,对偏差分析和类族的划分 具有重要意义。对图书馆的数据库结构化数据进行基 于事例、规则的推理。序列模式计算等。针对读者访 问的Web页面内容、页面之间的关系、读者的访问信 息等进行网络内容、结构和使用的挖掘。通过数据挖 掘和深度数据处理,对信息的关联性、相关数据的共 性和特性进行分析得到隐藏信息,能自动归纳出重要 数据模型,揭示信息资源关联关系的体系,深人分析 读者的需要和潜在的知识需求,提供精准化的知识需 求发现服务。 (4)结果显示与应用。数据结果最终以文字、图表 等形式呈现给管理人员和决策者,以便于管理人员和决 策者能对数据进行方便、高效的查阅、观察和分析。管 理人员根据预测结果可以发现读者的阅读兴趣,确定 读者的个性化服务内容。对读者兴趣的迁移做好准备, 提前为读者做好资源的收集整理工作,提高读者获取 信息的速度。管理人员根据读者的阅读特征建立相应 的读者档案,将不同层次、不同类别的信息主动推送 给读者。高校图书馆还可以根据自身需要,建立移动 数据库与信息管理 nmBASE&lNFORMM10NMANAGE 服务平台,为Ⅲ定渎 和移动渎并提供信息服务。使 书馆最大限发地拓展HI乏务范同,实现 t}馆服务内 容的多样化 … … …… ……… 、一… … 馆的可持续发展,进一步提高 托馆火数据服务顷jlt, 为汝者提供高效、个性化、便捷的服务 罔绕尚卡变 需求信息大数据分析系统设计展开讨论,对 士嘤流 进行了阐述。利用大数据技术.从海 数掂 {1分忻『』、J 人数据技术存 馆的应H{,魁 馆服务创新, 提升服务价仉的主要手段 为r向凄者提供更好的个性 化服务.还需要进一步加强 书钟人才建设步伐,汴吸 大数据人才的培养,制定科学的人才培养机制,加强锕 员们对々业数据分析和软件使J{】的技能,树立大数据服 的潜在价值,对读者的需求进行预测,为读者搭建』|动 服务平台,提升图书馆的服务质挝,实现从传统十 馆向智慧型 书馆转型升级。 参考文献 f5 务意识,实现服务的精准化和细粒度化,加强信息资源 的优化组合 创新 的管理人 是传统 忙销进行改革 的动力.高素质火数据人才队伍的建没足 拈馆实现转 的关键I大l素、 [1l李艳,余鹏,李珑.“大数据+微服务”模式下n,Jf 校图书馆知识服务体系研究….罔 馆 论 j实 践,2017,(3):99—103. [2]宋毓.大数据环境 的普通 科院校 书臼。 : 服 务研究fJ1.农业图书情报学刊,2017.(1):l55~ 158. 4结语 火数据的意义或作川『J]根到底就足:通过数据支 持、做成辅助决策. 利川大数据分析,能够总结经验、 发现规律、预测趋势,这些数据经过对应的数据预测模 [3]阎迪. 书馆大数据服务的发展对策…. 学刊,2017,(2):81—84 书馆 都可以为我仃J的决策提供辅助服务。当掌握的数据信 息越多,计算模 越精准, t成的预测结果才能更加科 【4】赵迎春.冈书馆读者行为的大数据分析系统的设汁 与实现【J].四川I图书馆学报,2017,(2):59—62. 【5]张通.基于图书馆业务数据分析服务的个性化推荐 系统设计与实现【D].北京:北京邮电大学, 2013. 学、精确、合理 从 一个方面来说,数据本身虽然有 其存存的意义和表达,但是数据本身){:小产生价值,大 数据必须和其他具体的领域、行业卡¨结合,才具有价 值?很多领域部吖以借助大数据,提升管理、决策水 平。大数据的快速发展影响着各行各业,为了实现图书 . 【6]杨利军,高军.图书馆个性化服务中的大数据可视 化析与应用研究[J].现代情报,2015,(7):68—72. .王IL.址.S止.址.址.址. t.址.il上.S屯儿—址.址.S_上.S止.S止. .址 上. 上.—址j止j止j止. .S屯. . . 上. .址 .址.il上.Sl上. .址.址.S上. L. .S-L. . .址.址(上接第56页) 应用,2010,(05). 思想是应用面向对象.实现了空问数据库数据管理系 统平台的开发干¨应用 曾嵘,徐建新,吴玉华.1:50万土地利用现状罔数 字制图的设计思想与试验研究『J1.中同土地科学, 2009,(02). 4结语 面向对象的全关系捌( Is空问数据库研究把数据库 技术和而向埘象特性相结合,结合地理信息系统GIS的 实际应用情况,对关系 数据库和 向对象特性之间的 余倩,吴国平,李响,陈艳,骆成风.空I1_j】数据伞 关系型存储的研究——以Maplnfi ̄空间数据存入 sQLserver数据库为例[J].遥感信息,201 1,(O1). 刘f_=义,刘南,苏同中.基于RDBMS的空间数据 管理模型及在土地产权产籍系统中的实现『J].rf1 国罔象图形学报,2012,flO). 黄孝斌.基于Arc.SDE和Oracle9i的城市规划GIS 融合进行_rl深入研究,对空问数据库的发展起到一定的 推进作用。面向对象的全关系型G1S 间数据库设计研 究具有一定的耻论意义和研究价值。 参考文献 [1]陈新安,鲜波,张继棠。面向对象的分析(OOA)方 法存数据库系统设计中的应用『J1.计算机T程与 数据库研究与实现【D].江西理T大学,2012. -_  ̄59