大数据的概念一经提出就被广泛应用在社交网络、电子商务等各个领域。互联网时代,大数据对于数据的处理有别于传统的数据处理。传统数据以样本处理结果为依据,而大数据强调数据的大而全、数据之间的相关关系及对未来的预测作用,对大数据的挖掘和分析影响着行业的发展。图书馆作为信息与文献资源中心,不可避免地受到了大数据环境的影响,如何正确认识和利用图书馆的海量数据,为科研服务、为图书馆发展服务,是图书馆的任务和使命。
1大数据时代的图书馆
在数字化的信息环境中,越来越多的文献资源、科研成果、学术交流,都以数据的形式存在和呈现。图书馆的数据也呈现大数据的大容量、多样性的特点,包括结构化数据、HTML等形式的半结构化数据和图像、视频、文本等形式的非结构化数据,图书馆各类用户信息数据、阅读数据等也是图书馆大数据的组成部分。随着图书馆的不断发展,数据总量还会不断上升,数据与数据之间存在着可挖掘的关联性和价值性。
大数据时代,数据发布的成本更加低廉,任何人都可作为信息发布的节点,每个节点都是一个数据源,在这个开放共享的信息环境中发挥作用。数据可以覆盖所有的用户,在用户间共享、交流或增值。社交网络媒体、移动终端等都是数据发布的渠道,这些开放性数据也是大数据的组成部分。图书馆各类资源丰富、具有专业的信息组织技术,是大数据时代开放与整合的最佳实践者。
面对海量的数据,图书馆的基本职能也有所延伸,不仅要整理结构化数据,更要整理半结构化和非结构化数据。未来图书馆间的竞争不仅仅是馆藏资源、建筑空间、服务水平的竞争,大数据的拥有量及对庞大的各类数据的挖掘与分析能力将成为大数据时代的图书馆竞争的一大关键指标。数据监管、数据挖掘、数据分析等将会成为图书馆的特色服务之一,从而也会衍生出专业的数据处理人员,即数据馆员,图书馆对于数据的处理能力决定着图书馆的发展方向和前景。
2图书馆利用各种数据开展管理与服务
2.1书目数据
第一个书目数据库在1964年由MEDLARS开发成功并投入检索服务。此后,世界各国建立了各种类型书目数据库,进行书目数据的管理与服务,如世界最大书目数据库worldcat、美国国会图书馆书目数据库、中国的CALIS书目数据库等,书目涵盖量巨大。书目数据是图书馆传统的数据资源,包含在图书馆所有的业务工作流程当中,发展比较成熟。对读者而言,利用OPAC系统,可以获取到所需的书目,了解本地馆藏和联合馆藏信息,根据实际情况进行借阅、荐购或馆际互借。利用联合书目数据库,读者选择_个查询入口就可以了解不同图书馆的馆藏信息。对图书馆而言,可以根据书目数据库进行查重、合并、新建书目等操作,优化了图书入馆流程,避免了书目的重复建设,提高馆藏书目质量。同时,读者使用书目数据的信息会记录在OPAC系统中,通过对读者的借阅量、借阅历史、借阅类型、热门书目等各类数据的分析,掌握读者阅读习惯和阅读内容,分析读者未来需求,并为读者提供个性化服务。
2.2数字资源
图书馆数字资源包含范围比较广泛,包括各种类型数据库、电子图书、电子期刊、镜像资源、网页资源等。数字资源是图书馆进行资源服务的支撑,数字资源的可获得性、内容丰富性、便捷性影响读者对图书馆的使用,科研与教学工作离不开数字资源。对读者使用数字资源的相关数据进行挖掘有利于图书馆更好地开展资源服务。数据库的点击率、页面停留时间等数据反映了资源的利用情况,图书馆可
以根据数据分析得出哪些数据库的利用率较高以及当前用户的研究领域和关注点等,从而决定是否继续购买该数字资源或采取措施优化整合资源,提高资源的利用率。例如,图书馆在购买或引进一个新的数据库前,会提供一段时间的试用期,根据试用期间用户的使用情况决定购买需求。各类数据库商,如汤森路透公司、中国知网等根据其数据库的下载和引用数据分析研究热点,预测未来的研究方向和爆炸点,推动科研的发展,图书馆可以充分利用此类数据做好数据管理以及嵌入式学科服务。随着读者服务终端的不断扩展,计算机、手机、平板电脑、数字电视等终端的使用增加了图书馆的服务量,产生了大量的数字资源使用日志数据以及用户行为信息,通过曰志数据的系统分析,可以了解用户的信息需求,找出数字资源利用过程中存在的问题,不断优化馆藏资源结构,提高图书馆服务的竞争力。
2.3整合系统
图书馆信息资源整合系统是将图书馆各种类型的信息资源通过技术处理,统一整合在一个平台上提供一站式服务,具有集成检索功能[3]。常用的资源整合系统有UnionSearchPlatform(联合检索平台)、Metalib/SFX等。北京交通大学图书馆、清华大学图书馆、复旦大学图书馆等都采用了Mealib/SFX技术,构建了图书馆信息检索与获取系统,称之为学术资源门户,整合图书馆所有的中外文数据库、电子期刊、电子图书、多媒体资源、本地馆藏目录等数字资源,可实现异构资源检索,提供跨库检索、期刊导航、数据库导航并以统一格式加以呈现,可以获取资源内容及全文(如图1、图2所示)。整合系统的跨库检索功能是其核心功能,极大地节约了用户的检索时间,同时提高了查全率,避免用户一个一个登录数据库检索。整合系统的使用是图书馆服务创新和优化的重要体现。事实上,整合系统要融合各类异构数据库,端口接入,协调各种类型数字资源,难度较大,需要不断进行维护,才能使整合系统真正发挥作用。除跨库检索外,信息资源整合系统还呈现多样的具体形态,如学科信息门户整合、学科导航、学科馆员制度,其中学科馆员制度从馆员角度,整合某一学科信息和资源,提供学科服务,与计算机智能服务相结合,弥补不足。
2.4知识发现系统
知识发现是指从大量数据中获得有效的、新颖的、有潜在应用价值的和最终可理解的模式的高级处理过程。基于知识发现的理念开发出知识发现系统,又称为资源发现系统,是对数据的深入处理和挖掘,融合本地馆藏数据,并对数字资源进行元数据描述及呈现。国内高校图书馆大多引进了知识发现系统,目前常见的有EBSCODiscoveryService、Summon、PrimoCentral、Find+知识发现平台以及超星中文发现系统等。图书馆可以利用知识发现系统为用户提供一站式学术检索服务,知识发现系统是图书馆的搜索引擎。南京大学使用的是与EB-SCO合作开发的indplus知识发现系统,包含7亿多条外文学术资源、超过100〇〇〇种期刊资源、600多万册外文图书的MARC数据、覆盖20000多家期刊出版社、60000多家图书出版社等资源内容,可以以邮件的方式提供智能的原文传递服务,并支持手机APP访问,资源检索界面(如图3所示)。东南大学使用的是Summon知识发现系统,提供基本检索及高级检索,检索结果可以根据相关性及时间排序,其显示范围包括:在线全文、电子书全文、期刊全文等学术资料(包括同行评审内容),纸本馆藏目录。知识发现系统为图书馆用户提供了极大便利,是图书馆智慧服务的重要体现。图书馆也通过知识发现系统的检索记录等数据,掌握用户的学术需求,优化检索结果质量。
3.1客户关系管理与图书馆
客户关系管理是企业利用信息技术,通过对客户的跟踪、管理和服务,从而吸引客户、保留客户、发展客户的一种手段和方法,在企业管理决策中起到了关键作用。客户关系管理的相关理论及技术运用到图书馆管理与服务当中,又称之为用户关系管理或读者关系管理。对图书馆用户基本特征、信息行为数据、阅读数据、阅读相关性等一系列用户关系数据的掌握,有利于图书馆针对性地开展服务,从而从根本上提高服务的质量与效果。通过用户关系管理的一些新技术,如数据仓库技术、数据挖掘技术和知识发现技术等,有效地使数字图书馆用户数据的获取、模式发现、数据的积累、传播和共享更为快捷有效。
数据驱动图书馆管理与服务
大数据环境下,图书馆利用大数据来推动和提高图书馆的服务与管理水平,促使管理与服务向更加精细化方向发展。
32.1图书馆管理的精细化。大数据环境最大的
特点即数据量巨大,其主要的价值在于预测,通过对数据高效化、精细化处理,达到预测未来行为和趋势的效果。图书馆在运用书目数据、知识发现系统、数字资源等各类数据进行管理过程中,通过数据获取、数据挖掘、知识服务技术的分析,掌握图书馆未来的资源利用趋向,从而调节管理行为,调整资金投入、资源分布结构及服务方式。
32.2图书馆服务的整体化与个性化的统一。
图书馆使用整合系统、知识发现系统等来提高图书馆的一站式服务能力,大数据的聚类技术、数据挖掘技术可以实现对图书馆服务系统的分析与优化,使图书馆整合服务真正得到利用。用户的信息行为数据记录在图书馆的集成管理系统、数据库系统当中,通过大数据挖掘用户的阅读数据、内容等,深层次分析读者的特点、阅读行为及需求,对读者进行聚类分析,通过对不同读者需求的跟踪与预测,进行信息推送、定制及个性化服务,提高读者满意度。
3.2.3图书馆增值服务。大数据促使图书馆不断增值,实现知识化、智慧化。通过对数据的监管,从海量数据中发现价值,发挥数据馆员及学科馆员的作用,为提供个性化服务做好基础。随着高校科研与教学任务的加剧,图书馆不仅要做好校内的科研教学辅助工作,更需要向社会拓展,提高在社会数据环境下的数据挖掘分析能力与竞争力。同时,与图书馆外的联盟、通信运营商、第三方增值服务商等合作,为用户提供大数据增值服务,如微信服务、微博服务等,拓展大数据时代图书馆的用户服务模式。
2图书馆用户数据应用案例
41用户信息行为数据应用
用户信息行为数据,这类目前还未完整收集的用户行为等非结构化数据将极具价值,很多的图书馆服务只有对大量的用户数据挖掘、分析才能得出图书馆所需的决策参考。图书馆用户信息行为数据主要存在于以下部分:①用户查询书目产生的OPAC曰志,存在于图书馆OPAC系统中;②用户借还书产生的流通曰志,存在于图书馆集成管理系统中,如八leph500、汇文等;③用户检索、浏览、下载电子资源产生的曰志,广泛存在于不同数据库商的系统中;④用户访问产生的流量数据,存在于网络中心或运营商系统中。部分图书馆和资源服务机构已经开始利用用户信息行为数据来预测用户需求,进行服务推送,优化图书馆服务质量。南京大学图书馆提供了两种个人图书馆登录端口:①汇文系统下的OPAC;②Bookplus,即布克家个人图书馆系统。Bookplus通过记录读者的检索历史、检索关键词等,预测读者对图书期刊的需求,提供“推荐图书”“期刊推送”服务。RFID技术,即射频识别技术,深圳图书馆最早将该项技术引入图书馆行业,实现了对图书的控制、检测、跟踪,了解图书的流动及利用情况,同时采用RFID读者证,通过对读者信息及阅读行为等数据的获取,实现读者的智能化服务与管理。美国加州技术创新博物馆使用RFID技术来拓展和增强参观者的参观体验,博物馆给前来参观的访问者每人一个RFID标签,参观者的参观信息、关心的展品及个人信息都可以通过该技术获得。2002年开始,汤森路透公司开设了“引文桂冠奖”通过对资源平台上化学、物理、生物医学、经济学等领域的科学家的学术论文、科研成果发表情况及科研论文被引用情况等数据进行全面考察和深入分析,采用多种量化分析方法,遴选出最具影响力的研究人员并授予汤森路透引文桂冠奖,同时预测他们可能在当年或者将来获得诺贝尔奖,至今已经成功预测37位诺贝尔奖获得者。
42学者身份标识系统
图书馆的用户群体包括高校的教师、科研人员及学生等,其中教师、科研人员作为研究的主力人员,其用户行为及信息需求数据是图书馆需要掌握的。图书馆应该积极推动大学学者标识系统建设和服务,这也体现了图书馆的深度创新和知识服务。ResearcherlD即学术研究社区身份标识号,通过ISIWebofscience平台进行注册,注册后即可以得到一个全球唯一的标识号,将个人科研成果与国际同行进行分享、交流,自动生成引文报告,包括总被引频次、篇被引频次、H指数等,研究人员可以对个人科研成果在国际的影响力有一个清晰的掌握和深入分析。
ThuRID是清华大学图书馆推出的目标学者身份标识系统,运用大数据的数据挖掘与知识服务理念,清华大学图书馆尝试对这些数据集合做一些分析工作,即从元数据仓储中提取关键词等信息,分析关键词走向,分析作者与合作者的关系,建立以人为中心的知识关联网络。①基于时间轴进行趋势分析。研究某学科领域在一个时间段的发展趋势对了解该学科的发展脉络、预测未来的发展方向至关重要。清华大学图书馆采用提取文章关键词并分析关键词在时间轴上分布的方法来给出该领域的发展趋势。②建立以学者为中心的知识关联网络。通过分析海量文献数据的特点,自动甄别出清华大学目标学者,获取目标学者的学术出版物、与其紧密关联的合作者、期刊会议等信息,应用开放链接技术准确定位清华学者学术出版物的全文,采用可视化视图的方式直观展示学者的学术历程,以及以学者为中心的科研网络。
ResearcherID及ThuRID等学者身份标识的优势在于通过海量数据,掌握学者的科研动态,分析科研成果的影响力、科研人员之间的相关关系,以及科研成果之间的合作关系,预测未来的科研趋向及科研需求,是做好科研人员管理的信息库及知识库。
5结束语
大数据与传统数据的主要区别在于,对数据的分析和预测功能,大数据更加关注未来的发展趋向,根据趋向调整决策。图书馆需要积极融入大数据环境,利用大数据的理念及技术,精细和优化图书馆的管理与服务。图书馆海量的结构化数据及用户信息行为等非结构化数据,包含着什么样的价值信息,需要图书馆进行分析和挖掘,以海量数据为支撑,进行图书馆管理与服务,使图书馆管理与服务更加科学、有效。
严潮红
(盐城工学院图书馆,江苏盐城224051)
中国论文网(www.lunwen.net.cn)免费学术期刊论文发表,目录,论文查重入口,本科毕业论文怎么写,职称论文范文,论文摘要,论文文献资料,毕业论文格式,论文检测降重服务。