山东大学:基于大数据分析图书馆数字资源远程服务

发布者:郝之楹发布时间:2021-06-16浏览次数:326

高校图书馆提供了多种多样的数字资源远程服务方式。本文介绍了校外远程访问系统、CARSI远程服务、SSL VPN以及WebVPN服务的发展情况,并进行数据挖掘,通过数据分析的结果思考图书馆数字资源远程服务的效果及能力,以期为图书馆开展深层次的读者数字资源远程个性服务提供数据支撑。

高校图书馆数字资源远程服务

随着社会的进步和发展,高校图书馆提供的服务变得灵活多样。在硬件条件上,改善馆舍设施,营造良好的阅读氛围;在软件实力上,各种应用系统的使用,提高了图书馆综合信息技术能力。

此外,更多更深层次的服务方式通过互联网得以实现,譬如:网上咨询服务、数字资源远程服务、移动端阅读服务等。将网络提供的服务效果进行数据分析,将会提升图书馆的其服务能力。

据教育部高校图书馆事实数据库系统数据统计,2019年,1151所高校图书馆的电子资源购置费总和为37.21亿元,占馆平均文献资源购置费的54.6%,自2013年起电子文献资源投入开始逐渐超过了纸本文献资源投入[1]。

网络信息技术的发展扩展了数字资源的类型,由早期简单的电子期刊,发展到现在多种类型的数字资源。数字资源的数量也不断增加。

现阶段,综合性的高校图书馆拥有数百个中外文数字资源是最基本的文献保障。随着数字资源的发展,用户需要通过便捷快速的网络随时随地访问图书馆的任何数字资源,以满足教学和科研的需求。

在用户服务驱动下,高校图书馆由过去的单一远程服务方式,转变为寻求多种远程服务,以解决单一服务模式的弊端。目前主流的远程服务技术有:跨域名技术、URL重写、VPN代理服务、反向代理服务、Shibboleth认证等。

多种远程服务方式的提供,既满足了用户多样性访问的需求,也在保障数据库商利益的前提下,使数字资源发挥最大效益。高校图书馆提供了多种远程服务后,应该思考每种远程服务方式的使用效果和使用评价。

本文对山东大学图书馆数字资源远程服务的多样性进行数据分析,通过将用户访问行为数据和资源利用数据相结合,分析数字资源远程服务为读者提供的服务效果。

基于URL重写技术的远程服务

校外远程访问系统

山东大学图书馆校外远程访问系统2003年开始自主研发设计,2004年开放教师使用,属于国内应用数字资源远程服务最早的一批高校图书馆之一。

2006年系统第一次技术升级采用了跨域名Cookie技术,2008年与企业合作采用URL重写技术,协同开发出一套适合高校图书馆的资源统一授权访问系统。

2012年系统实现了校园卡统一身份认证和注册账号两种登录方式,同时增加了各种管理功能[2]。2017年,系统为适应学校认证方式进行了安全升级,采用CAS接口方式,实现了单点对接学校统一身份认证体系。

校外远程访问系统在2004年~2015年期间,一直是学校数字资源远程访问的唯一服务方式。

随着计算机技术的不断发展,系统不断提升各项性能以适应用户不断增长的需求:稳定性提高,由早期只能由教师使用,逐渐开放到全校读者都能使用;用户数增加,由早期几十个在线用户逐步扩展到现有的999个并发用户;功能提升,配置的数字资源由早期的20多个数据库发展到130多个。

基于以上各项功能的不断改进和完善,资源统计和读者行为数据的采集和分析功能也逐渐增加到系统中。这将为高校图书馆数字资源远程服务能力的分析提供数据支持。

数据分析

为了进行大数据分析,选取2016年~2020年五年时间内的系统统计数据作为研究分析对象。首先对点击量进行分析,如图1所示。

图1 校外远程访问系统2016年-2020年访问量

通过这五年的访问量可以看出,2016年的访问量最高,共有117万,以后逐年呈现下降趋势。分析下降的原因,并不是读者的访问需求减少,而是同期学校开始提供VPN服务访问校外数字资源,两种数字资源远程服务的结合使用,方便了读者,也减轻了单一数字资源远程服务的负载压力。

2019年的访问量出现了急剧下降,结合工作现状以及具体的数据分析,由如下三种原因叠加造成:一是用户访问习惯的改变。经过2017~2018年的适应,必然会有一部分用户转移到VPN的使用;二是新的远程服务开通。2019年,学校推出了WebVPN远程服务,WebVPN覆盖图书馆全部数字资源的远程服务,解决了之前个别数据库通过校外远程访问系统和VPN都无法访问的痛处;三是校外远程访问系统进行了服务器和数据迁移,中断了一段时间的使用。

2020年系统的访问量迅速回升到93万,日最高访问量达到了672人在线,系统承受了巨大的访问压力。意味着在疫情期间,读者校外远程访问数字资源的需求增加,通过寻求各种途径和方式利用图书馆的数字资源。

图2 2020年资源统计和使用月份统计

图2分析了2020年数字资源利用统计和使用月份的统计数据。可以看出,期刊类、视频类、报纸类以及搜索引擎都是读者使用的热门数字资源。反映了读者由过去仅使用电子期刊查阅文献,发展到现在使用报纸和视频类数字资源等多种服务。

2020年春季网上教学阶段,2月~6月系统的利用率占据了全年50%以上的访问量。其中3月的访问量高达15.4万,日均点击量5100多次。

通过五年的访问数据以及2020年详细使用数据的分析,校外远程访问系统的使用已经达到预期效果。用户没有来到实体图书馆,但身边却真实紧密地围绕着图书馆提供的服务。图书馆数字资源远程服务已经成为数字资源使用必不可少的工具。

继续保证校外访问系统的稳定运行,为读者提供7x24小时的远程服务;继续配置新增数据库;监控恶意下载账号;进行账号封禁处理等都是今后持续提高图书馆服务能力的体现。

基于ShibbolethCARSI的远程服务

Shibboleth CARSI的远程服务

Shibboleth是Intenet2/MACE项目中一个针对单点登录(Single Sign On SSO)的开源项目,主要应用于校园内Web资源共享,以及校园内应用系统的用户身份联合认证。国外电子资源普遍支持Shibboleth认证服务,方便高校用户能以实名方式在校园外直接登录和访问这些资源[3]。

2013年,CALIS管理中心和北京大学CARSI项目组合作,共同建立了CALISCARSI跨域认证集成服务体系[4],使基于Shibboleth CARSI的远程服务第一次在国内高校图书馆中运用。

山东大学图书馆作为CALIS山东省中心,最早加入了此服务体系,早期通过校园卡账号登录开通了RSC、WOS等7个国外数据库的使用。

由于当时国内数据库在技术上不支持,新增可以访问的国外数据库速度缓慢,Shibboleth一度在国内高校图书馆的应用中陷入瓶颈期。

2019年5月24日,CARSI身份认证和资源共享服务正式成为全球身份认证联盟eduGAIN的全资格会员。这意味着今后中国高校将可以更加方便快捷地共享其他国家的教育科研资源。

2020年疫情期间,国内数据库CNKI、万方和维普等也都相继加入到学术资源中,CARSI服务在全国高校中掀起了一股高潮,外界环境助推了CARSI服务在国内的迅速发展。

2019年9月,山东大学图书馆联合学校信息化办公室(信息办)共同向CARSI项目组提出申请,由信息办负责IdP身份认证系统的部署,图书馆负责学术资源的协议开通和测试等其他工作。山东大学是国内第六所申请开通此服务的高校。

数据分析

CARSI作为一种身份认证的远程服务,在我国经过了近十年的发展,突破了技术瓶颈的限制,呈现出便捷快速的远程服务。

2020年是特殊的一年,高校学术科研对数字资源的远程服务提出了前所未有的挑战。如下将对CARSI远程服务在2020年的使用数据进行分析。

2020年,山东大学经过CARSIIdP共有90.7万次认证访问。按资源进行统计,如图3所示;按用户进行统计,如图4所示。

图3 2020年Shibboleth CARSI认证资源统计

图4 2020年Shibboleth CARSI认证用户统计

访问量排名前五的数字资源依次是:CNKI、Elsevier、万方、IEEE和ACS。可以看出,CNKI的访问量远远高于其他数据库。访问量排名前五的用户认证次数依次是7677次、4244次、4183次、1221次和1080次。

分析此数据并结合具体的实践工作可以得出如下结论:

第一,CNKI知网是中文数据库中使用量最大的数据库。

第二,由于CNKI经常进行应用系统的微调整,导致校外远程访问系统和VPN访问的配置随时需要修改,但是使用CARSI身份认证登录后,避免了第三方应用系统的牵制,实现了和数据库的直接认证,无论从访问速度还是稳定性上都有了全新的提升。当读者尝试使用后,将会改变原有的访问习惯,适应新的CARSI服务。

第三,一种全新的服务方式要被读者接纳并使用,离不开图书馆的宣传与引导。图书馆将CARSI服务访问专门定制页面,有详细的操作说明,读者可以自助学习使用,如图5所示。

第四,最高单个用户认证次数达7677次,日均21次,说明用户在逐渐接纳这种新的远程服务,将个人的访问习惯逐渐迁移到新的远程服务中。

图5 山东大学图书馆CARSI服务界面

CARSI认证在使用过程中,也遇到不少困难,如:有的读者统一身份账号被盗,导致一天内一个账号登录几千次;还有的账号出现了用服务器脚本自动下载数据库全文的现象,导致数据库的机构账号被数据库商封禁。

所有的异常情况都要求图书馆和信息办密切配合联动,用技术的手段、用户无感知的方式从后台处理,如:封停账号的处理、释放CARSI认证端ePPN属性的处理、CARSI系统中的SP实时监控等。

CARSI远程服务的普及是多方面因素联合作用的结果。2020年特殊的外界环境加速了CARSI远程服务宣传和使用。学术资源商也纷纷在特殊的时间内响应了用户需要,国内外学术资源商的不断加入,促进了CARSI服务的发展。在技术手段上,CARSI也不断改进。

2020年11月,推出了支持移动端1.0版本的“CARSI资源共享门户”,该门户集成了CARSI可以访问的全部数据库;12月,该门户继续完善功能,实现了学校订购资源的定制勾选。

山东大学紧跟CARSI项目进展,11月在学校企业微信中新增了“CARSI资源共享门户”服务模块,在发现没有资源定制功能后,增加使用注意事项;12月CARSI推出资源定制功能后,图书馆开始对后台的145个资源进行定制勾选,资源定制完成后,实现移动端一次身份认证,即可访问图书馆购买的全部数字资源。

其他远程服务

SSL VPN远程服务

SSL VPN是由山东大学信息办为全校师生员工远程教学、科研与办公提供的一种远程服务方式。

SSL VPN系统采用了VPN技术。VPN是在公用网络上建立专用网络的技术,由经过相互授权的通信双方在公用网上建立的安全通信隧道所组成,通讯数据在安全隧道中进行加密传输,在网络传输层授权访问[5]。

学校使用VPN的初衷是提供远程办公使用,并不是专门针对图书馆数字资源的访问。

但是在使用过程中发现,VPN的用户大部分用其来访问图书馆的数字资源。因此在使用VPN访问数字资源时出现诸多问题,如:

由于数字资源数量多,VPN的路由表地址经常溢出,造成数据库不定期无法访问,图书馆在日常遍历检查VPN访问可用后,还经常有用户反馈某个数据库故障,造成用户使用不通畅、图书馆服务被动牵制的局面;由于VPN设计架构的原因,通过VPN访问的数字资源无法进行数据统计和分析。

WebVPN远程服务

SSL VPN在使用时需要安装下载客户端,针对部分用户操作困难,2019年9月,学校推出了WebVPN远程服务。

WebVPN基于反向代理技术,区别于传统VPN技术,WebVPN无需安装客户端软件及浏览器插件,用户只需要进入WebVPN页面,输入统一身份认证账号,通过身份验证即可登录访问内网资源,真正做到了即开即用。

相比传统VPN繁琐的配置过程,WebVPN实现了VPN系统的零配置,降低了使用门槛,提升了用户体验[6]。

2019年,WebVPN进行了学校内部测试,山东大学图书馆配合学校信息办对各种特殊类型的数字资源进行测试,尽管有时访问速度较慢,但是管理便捷,不需要像校外远程访问系统和SSLVPN一样,逐个资源进行首页面、二级页面、检索页面以及下载页面配置,使用效果较好。

图6是2020年WebVPN的日访问、周访问、月访问和年访问的数据统计。从数据中可以看出,不同时间段内访问排名前十的网站,其中有五个网址都与图书馆有关,分别是CNKI知网、瀚堂近代报刊数据库、人民日报、SCI四个资源网址和图书馆网站。

图6 2020年WebVPN数据统计

通过数据统计,针对WebVPN数字资源的访问服务达到了预期效果。其中,文科类用户倾向于使用WebVPN服务访问数字资源。

MYLOFT远程服务

除了SSL VPN和WebVPN的远程服务,2020年疫情期间,图书馆尝试使用了MYLOFT远程服务。

MYLOFT是一种新型的图书馆电子资源远程访问工具,同时支持用户在电脑端及移动端对已订购的电子资源进行远程访问,帮助用户通过一个窗口管理访问各种类型的数字资源内容。

MYLOFT在安装浏览器插件或移动端App后,用户首次登录即可一直保持登录认证状态,随时随地访问已经订购的数字资源。

在2020年3月18日~5月8日的使用时间范围内,山东大学图书馆MYLOFT平台实现了16个数据库在一个窗口内进行访问管理,访问用户达67人次。虽然访问人次不多,但是已经有读者开始尝试使用。

笔者在山东大学图书馆进行测试的同时关注了清华大学图书馆对MYLOFT的测试使用,清华大学图书馆在测试阶段配置了35个数据库,其主要数据库都进行了配置。

2020年9月,清华大学图书馆正式购买了MYLOFT远程服务,并将94个数据库配置到此平台上[7]。

通过数据对比分析,两所高校图书馆几乎同一时间试用同一种新的远程服务,除了由合作企业在技术手段上进行基础保障外,数字资源的配置数量、新服务的推广、宣传和使用指导等都是图书馆进行深入工作的重要内容。

高校图书馆是高校学术文献资源保障的重要机构,在保障文献资源种类和数量的基础上,如何提高利用数字资源的便捷性,为用户提供无处不在的服务是图书馆实践工作应该追求的目标。

通过提供多样性的数字资源远程服务,可满足不同类型用户的访问需求和期待,使用户使用任何设备,在任何时间和任何地点都能获取图书馆的学术资源。

多种形式的数字资源远程服务的效果和水平都需要在大数据的支撑下,分析数据背后的意义,从而为图书馆提供更有针对性的服务指明方向。


文章来源:中国教育和科研计算机网

https://www.edu.cn/xxh/xy/xytp/202106/t20210615_2122442.shtml