图书馆系统2020愿景 从模拟到数字的转型

文/Brewster Kahle   2017-08-04 23:15:44

如今人们通过在线渠道获取信息,而这些信息往往被营利性平台过滤。一本书如果不能在线阅读,那么看起来就跟从来没出现过似的。然而,大量的现代知识仍然只出现在印刷品上,并保存在图书馆中。因为经费缺乏、电子图书的限制等,图书馆尚未能满足数字化的需求。目前已经拥有技术和法律框架,可以实现图书馆系统在2020年前的变革。互联网档案(Internet Archive)是一个与图书馆合作伙伴共同工作的项目,它提出了将上百万的书籍转为在线版本的方案,以采购或数字化的方式,从那些在图书馆和教室中最广泛拥有和使用的图书开始。我们的愿景包括:数字图书的大规模流通,让拥有实体著作的图书馆用可借阅的数字化副本来取代它们。到2020年,可以建立一个协作的数字图书馆收藏和流通系统。其中,数以千计的图书馆可以为下一代学习者解除模拟藏书的限制,使他们能免费、长期、公开地获得知识。

面临的问题

我们希望看到的是一个现代版的亚历山大图书馆,其中所有的人类出版物——图书、音乐、视频、网页和软件,可以为任意充满好奇和有意愿获得它们的人所用。为实现这样的愿景而所需的技术和成本现在已经得到了充分的认识,实际上,各种各样的项目正在证明这是可以实现的。大规模将现代资料数字化的主要实体有三个:谷歌、亚马逊和互联网档案——这很可能也是按照规模排列的顺序。谷歌的目标是要将文本数字化来辅助用户搜索。亚马逊的图书数字化项目帮助消费者在购买之前能够浏览书籍。互联网档案项目已经数字化了超过250万本公共领域的图书,使它们可以全部下载;还数字化了50万本现代图书,而且通过其开放图书馆站点上的借阅系统提供给盲人和阅读困难者使用。

让所有图书都普遍可用,这一目标尚未实现。事实上,图书馆社区看来应当形成一个更加健康的系统,使作者、出版者、图书馆,以及最为重要的读者和未来读者,都能够参与进来。

对于那些无法以电子形式购买的图书,笔者正在提议通过协同努力,选择那些20世纪和21世纪中最广泛持有和使用的图书并进行数字化,而且建设一个稳健的系统来流通这些成果,面向上百万人,最终面向数十亿人。

麦克·莱斯克(Mike Lesk)被很多人认为是“数字化图书馆之父”。他曾经对20世纪的书籍表示非常担忧,称我们尚未在数字化世界中形成“制度性责任”。他相信,19世纪及之前的材料都可以被数字化和获取,21世纪的数字化形式的材料会非常有效地流通。然而,他认为20世纪的材料会受制于版权法机制,其中大部分都已经绝版了,都被20世纪末期的法律锁定,使得数字化展现出风险。

当人们从模拟时代转向数字时代时,关于“制度性责任”的评论仍然是恰当的。目前,公共的、大学的和国家的图书馆领导者们都不太清楚,如何能够最好发挥其保存和获取的作用。与此同时,在远程数据库中进行注册变得越来越普遍,出版商们正在努力适应图书发行越来越稳固地被少数寡头控制的现状。

在尽可能的情况下采购电子书,以及将目前在实体书架上的书有效地转化到电子书架上去,这是图书馆可以迈出的一步。这样顾客们就可以轻易地借阅实体图书或电子版本之中的一个。

图1开放图书馆:寻求去中心化的方案

2010年起,互联网档案开放图书馆(Internet Archive Open Library)就在探索对数十所图书馆(见图1)所贡献的20世纪书籍进行协同收藏和借阅。通过开放图书馆的网站,我们可以一次性向一个用户借出超过50万卷的1923年以后的数字图书。这个数字流通机制所采用的保护技术,与出版商们出版电子书的OverDrive和谷歌图书(Google Books)等商业平台是一样的。在对多年以来上百万人使用开放图书馆的观察中发现,这个办法是可行的,继续向前推进的时机已经成熟。

以开放图书馆的做法为基础持续扩展,到2020年将所有感兴趣的图书馆都带入数字化阶段。很多图书馆已经和互联网档案合作将250万公共领域的电子书进行了数字化,在此基础上,可以通过移动设备、网站和在线的图书馆目录,将过去和现在的所有这些书提供给上百万的读者。图书馆社区有其巨大的收藏和强烈的公共服务使命,例如,在每个图书馆的在线卡片目录中,当一本书存在数字版本时,可以在这本实体书的记录上增加一个外部链接,使读者能够在屏幕上浏览这本书,或者是从家中很方便地借阅。采用这种方法,通过与图书馆目录云服务商的协作,大规模从模拟形式转换为数字形式,顺利地丰富了图书馆的藏书。我们同样可以和出版商合作,尽可能多地采购用于图书馆借阅的图书。

为实现这个目标,需要多个行业的参与来进行上千所图书馆的数字化。这是与2004年谷歌图书搜索项目的本质差别,该项目是谷歌和若干个大型研究性图书馆以集中方式将20世纪的书籍转为在线方式的尝试。2008年,谷歌图书方案提出的一个集中控制的管理方式放弃了这个路线,并且在2011年因为垄断而被法院叫停。

现在可以寻求一个去中心化的方案,其中很多出版商和图书馆,通过市场进行互动,而不再有一个单一的控制主体。今天图书馆的电子书授权许可经常有限制性的条款,如果他们采购电子书时能够获得和实体书一样的权利来借阅和保管的话,他们将服务得更好。由此向前发展,所有的书籍都可以这种方式为图书馆所用,即为了作者和出版商健康发展而提供收益,并以此获得他们的支持。然而,对于无法以这种形式获得的图书,包括目前图书馆藏书中的绝大部分,以及目前出版的一些图书,应该如何处理?图书馆可以共同对这些材料有效地进行数字化,尽可能地减少重复,而且能够以和实体书同样的限制方式提供数字化文本的借阅。

以这种方式,顾客可以自己选择在屏幕上阅读过去和现在的书籍;图书管理员们可以继续发挥在采购、组织、展示和保存人类的伟大著作方面的作用;出版商可以以市场定价来出售电子书;作者可以选择如何发布他们的作品,包括通过出版商来获取报酬。这也许听起来有些老套,而且并不是特别的颠覆,但是其中有一个优点,就是每个主体扮演的角色在结构上都和他在历史上所扮演的角色相类似。

不同的解决方案

为了将图书馆数字化,首先来讨论一下成规模地将图书进行数字化的分组方法,然后解决如何使他们得到最大化利用的问题。一所伟大图书馆的历史核心,通常是1923年以前的书籍,都处在公共领域,因此也不存在影响发布的版权问题。拥有丰富的特有藏品的图书馆必须继续对图书进行编目和数字化,而且我们将继续与上百图书馆合作将他们的特殊藏品数字化。但是,长长列表上的公共领域著作在过去的十年中已经大致上两次被数字化了:一次是图书馆与谷歌的合作,另一次是图书馆与互联网档案的合作。谷歌的项目扫描了大约2500万本书,就其范围而言更加彻底,然而不幸的是,对这些著作的使用是受限的。订阅者可以通过HathiTrust系统,来获得对于谷歌图书的有限使用;公众可以通过谷歌图书网站,每次下载一本某些公共领域的图书。与此相对应,互联网档案所数字化的250万本更旧一些的图书是可批量使用的,而且对于公众是免费使用的。实际上,从系谱学到生物多样性研究在内的内容专家们非常活跃地从互联网档案中下载公共领域的材料,来支持创新宣传和更加广泛的公共利益。尽管我们仍要完成特殊藏品和政府文件的数字化,这在1923年之前已出版图书的文集大致上都是在线的和可用的了,即便还有一些限制。

让莱斯克焦虑的20世纪的图书,同样也因为版权问题让图书馆员们烦恼。在绝大多数的发达国家,一个组织可以把图书进行数字化提供给盲人和阅读障碍者;根据2013年马拉喀什条约(Marrakesh Treaty),签约国可以将这些书籍与其他签约国进行大规模共享,只要采取一种明确的法律许可方式。实践中,这就意味着加拿大可以为了阅读障碍者对一本任意时代的书籍进行数字化并提供节约成本的阅读服务,而且将这些数字化的拷贝与澳大利亚或二十多个其他国家的图书馆进行分享。美国法庭在“作家协会对谷歌”(Authors Guild v. Google)的一案中判定,大规模对图书进行数字化的基本行为,即便是商业实体实施的,只要是基于“公平使用”(fair use)的原则,在美国都是合法的。

如果要建造类似于普林斯顿大学图书馆、耶鲁大学图书馆、波士顿公共图书馆这样规模的一所主要图书馆,将要求机构提供大约1000万本受到管理的数字化藏书,其中大部分是1923年以后的书籍。合作者们可以将一些图书子集作为重点,如根据OCLC确定出的图书馆最广泛持有的120万本书,或根据开放课程表项目(Open Syllabus Project)确定的至少出现在一个课程表上的100万本书。在建设核心藏书的同时,合作者团队可以确保对主要主题领域的全面覆盖。从论述目的出发,可以来规定:1000万本书是我们支持一个广泛有用的公共数字图书馆系统所需要的。

协作建造一个数字化的图书收藏

建造一个包含1000万本图书的协作的数字化藏书,将要求图书馆和其他合作者有效地执行下列职能:协调藏品开发,以避免重复劳动;提供本地的和基于云的访问;提供分布式的保存。

更广泛地,这些收藏的建设需要有图书馆管理者或者管理途径来选择最有用的书,然后通过流程确定哪些书籍已经被数字化了。还要有机构和供应商能够为那些遗失的实体版本提供来源,以进行数字化。参与其中的组织要能够为这些职能提供经费和人员支持,无论是基于自身内部经费,还是慈善来源。或者,可以从一些已有经费保障的项目开始,那样它们将有助于塑造整个系统的其他部分。

对图书进行优先级分类仍然是个未决问题。一个方式是将藏书分组,其中一组是K-16学习者广泛使用的核心图书,还有若干组与重要主题相关的藏书。互联网档案项目可以集中精力来获取和扫描大概100万到200万卷的核心图书;专业背景较强的合作图书馆,可以开发和扫描基于主题的藏书。例如,工程类学校可以在工程方面的图书上努力,而法学院则可以聚焦法律类图书。

必须继续与谷歌图书、HathiTrust和亚马逊合作,以探索出更多协同一致的领域。没有图书馆愿意把资源浪费在对一组文本进行多次数字化上。如果这些大规模的数字化者能够愿意为合作努力做出贡献,是有利于公共利益的。

同时还要研究哪些书籍在版权保护期之外,同时要对所有已经数字化的著作建立一个全面的列表。这些都是支持我们工作的重要研究领域。

不同等级的使用

当建立起核心收藏后,每所图书馆就可以自行决定提供现代作品的方法。有些图书馆也许从对盲人和阅读障碍者提供全面的使用作为起步,例如多伦多大学正在通过安大略大学图书馆理事会(Ontario Council of University Libraries, OCUL)和无障碍内容电子门户(Accessible Content E-Portal)这样做。其他的如加利福尼亚大学等图书馆希望创建一个保存用副本。有些例如HathiTrust也许将为非破坏性研究者的使用提供数据集。在这个将20世纪的书籍变为在线的整个方式中,使用模式的灵活性可能是一个重要的强项,不同国家的不同图书馆可以根据环境允许情况而扮演不同的角色。

通过对采购的和数字化的电子图书提供借阅,图书馆能够向前迈进一大步。互联网档案的数字化电子图书借阅项目反映了传统的图书馆实践,每位读者一次可以借阅一本书,然后其他人必须要等待这本书被手工归还,或者两周以后这本书将被自动归还,然后提供给下一个正在等待的读者。这种技术保护机制确保图书每次只为一位读者使用,与出版商用于保护正在发行的电子图书的技术是一样的。通过这种方式,开放图书馆网站表示了对版权问题的尊重,而且能够利用图书出版商们的经验和工具。加利福尼亚图书馆联盟(California library consortium,Califa)设置了自有的借阅服务器,并且通过自有的基础设施将采购的和数字化的图书开放给所有的加利福尼亚居民。我们了解到,中国教育部同样将其拥有的图书每次借阅给一位中国主要大学中的读者。不同国家的不同组织对使用图书的各种方法进行尝试,以平衡便捷和版权问题,都能学到东西并从中受益。

那么,如何流通数字化的电子图书呢?有些图书馆将链接集成到图书目录中,这样数字版本和实体副本的信息将会在同一个记录中展现。图书馆也可以将链接总是指向互联网档案开放图书馆的副本,然而,如果这是一本现代图书,那么可能整个世界范围内只能有一个可用的副本。图书馆也可以保存自有的数字化副本,并且管理自有的借阅系统,就像Califa正在做的那样。这样,实际上每个图书馆都可以选择不同的方法来为收藏的实体图书提供数字化版本的借阅。这样可以在对本地图书馆保持控制,同时享受到由其他人维护和更新的云端系统的便捷。

在目录中开启电子图书的链接可以非常容易,因为现在很多图书馆将图书目录放置于主要目录提供商的云服务上。说服这些提供商与整个社群合作,就能够使得像打开数字化开关那样向上百万的用户传递电子图书。

分布式保存

既然我们努力奋斗于建立一个当今的亚历山大图书馆,就应当避免上一个亚历山大图书馆的命运——被焚毁。如果它当时对每一个著作都建立一个副本,然后存放到印度或者中国,那么我们现在就能拥有亚里士多德的完整的著作以及欧里庇得斯的那些失传的戏剧。我们的社区应当为这些采购的和数字化的图书保存多个副本。当很多图书馆满足于在云端服务器上使用藏书时,也要允许和鼓励一些图书馆在本地保存数字版本的图书。

幸运的是,数字化的图书都足够紧凑,对于图书馆而言,保存它们是经济上可以接受的。即便是高分辨率的图像和衍生的各种格式的数字化图书,大小通常也就是500兆字节,100万本图书也就是500太字节。

对采购的电子书和数字化图书进行分布式保存,可以帮助确保图书馆中这些珍贵材料的长久性。

图2互联网档案项目的经费和技术

互联网档案项目已经获得了新的资金保障来建立“超级扫描中心”,从而实现大规模的上百万图书的数字化并显著地节约成本。设置在亚洲的第一个超级扫描中心正在进行验证性的生产,我们预计,和目前在28个地区扫描中心进行图书馆内扫描价格相比,它扫描图书的成本大约是其1/3。对于那些有意愿通过退出流通几个月就能够实现大规模图书扫描的合作者而言,互联网档案项目可以为它们节约50%~60%的成本。我们正与一个大学的大型研究型图书馆洽谈制定计划,将50万本现代书籍通过互联网档案的超级扫描中心来进行数字化。这个项目为该图书馆提供了藏书管理的新选项,实现对那些已经迁移到馆外存储地的图书的数字化的使用机制。图书馆员们将会发现,降低成本的大规模数字化,将会成为藏书管理的强有力的工具。

过去的几年中,互联网档案项目已经建成了图书馆内的图书扫描系统,集成了重复检测目录、查找数字化和集成化传递的功能。如果一些组织希望检查全部藏书,找出那些既没有被他们也没有被别人数字化过的内容,并且将这些文本进行数字化,这一系统将是非常有用的。同时他们也能在互联网档案项目中获取他们所有图书的数字版本。这些图书基本上是在图书馆数字化的。

同时,我们也获得了给互联网档案项目的资金捐赠承诺,用来数字化上百万的图书和其他资料。通过这个计划,基于图书馆长团队的推荐,同时考虑OCLC和开放课程表项目等编辑的列表,互联网档案项目将寻求获得和数字化一个核心的图书收藏。这笔资金也为其他组织提供了一个选项,他们可以将适当的实体图书捐赠给互联网档案项目,然后获得一个数字化的副本作为回报,不需要付任何的费用。

通过这些方式,图书馆可以选择扫描持有藏书的最适合的办法。我们现在提供的选项包括桌面顶级扫描(Table Top Scribe),即机构采购硬件设施和利用自有人员进行扫描,如图2所示;或者利用设在机构中的区域中心,例如波士顿公共图书馆、多伦多大学、普林斯顿神学院和国会图书馆等。我们在亚洲超级扫描中心提供更便宜的价格来进行大规模的数字化,并对一些捐赠给互联网档案的适当的材料进行免费数字化。我们提供这么多扫描选项的目的,是为了鼓励每个图书馆都能找到一种适合他们的模式来参与到这个协作收藏的建设中来。

数字化的成本

在互联网档案项目中,数字化的成本从每本书10美元到30美元不等,取决于扫描在哪里进行,离岸的还是图书馆中的。额外的成本,包括使用、存储和数字化档案的全生命周期管理,将来有可能成为主要成本。

目前的印刷版书籍经常会有电子图书格式,但是非常少有出版商愿意同意图书馆采购与实体书版权许可类似的电子图书。如果我们协调采购行动,那么图书出版商就有希望接受向图书馆销售电子图书,正如音乐出版商接受或者被迫接受将mp3销售给提供更广泛使用的服务一样。

财务稳定性

迄今为止,几乎没有讨论涉及资金开 销和对系统的维护和增长提供支持财务模型。如果图书馆分担数字化的负担,并且共享结果,那么某些人就有动力来“搭便车”,等待其他的图书馆将图书数字化和提供服务。如果要打击这种行为,这些没有对数字化和后台服务做出贡献的图书馆就要为数字化的图书的使用而付费。而且,也可以对想要保存本地副本的图书馆收取一笔一次性的传送费用。我们还要对财务模式进行深入思考,以避免鼓励支配性系统的形成而限制了创新。

在建设协同的数字化图书馆收藏和流通系统过程中,组织中的每个成员都有其角色。互联网档案项目已经做好准备,要在扫描技术后台基础设施,以及服务于K-16学生的核心图书的数字化的慈善性经费保障等方面做出贡献。

如今的学习者都是在线寻求知识的,因此我们必须要能够使图书馆顾客通过移动设备、网页搜索和浏览在线的图书馆目录来借阅电子图书。通过成千上万的图书馆的共同协作,可以为下一代学习者除模拟藏书的限制,使得对目前超出可及范围的上百万本图书进行数字化访问成为可能。这个中心目标,即为了让将来的学生能够不受物理限制地使用所有图书,将在2020年成为现实。

(责编:杨洁)

(翻译:陈强 清华大学信息化工作办公室)

上一篇回2017年6月第6期目录 下一篇 (方向键翻页,回车键返回目录)加入书签

© 2016 毕业论文网 > 图书馆系统2020愿景 从模拟到数字的转型