期刊鉴别 论文检测 免费论文 特惠期刊 学术答疑 发表流程

国外WebArchive研究与实践进展(2)

时间:2015-12-25 15:43 文章来源:http://www.lunwenbuluo.com 作者:王芳,史海燕 点击次数:

  获取(acquisition)是采用各种方法和工具从Web内容来源站点获得其复本的过程,既包括在线获取,也包括离线传送。具体而言,获取的方法可以分为客户端归档(client-sidearchiving)、事务性归档(transactionalarchiving)和服务器端归档(server-sidearchiving)。

  (1)客户端归档。也称为远程采集(remoteharvesting),以客户端的形式采用网络爬虫获取Web内容,是WA实践中广泛采用的方法,常用的工具有Heritrix、HTTrack、Wget等。但网络爬虫有以下局限性:某些网站会用robots.txt文件限制网络爬虫对特定内容的访问;爬虫陷阱的存在;无法采集深层网(thedeepWeb);对于特定内容如流媒体无法下载。

  (2)事务性归档。事务性归档是指对浏览器和Web服务器之间交互的事务(transaction)进行记录并归档,即保存浏览器和服务器间的请求/响应对,可用于对特定网站内容的证据性保存,但它的实现需要在服务器端安装软件,需要服务器的配合。LosAlomos实验室与OldDominion大学合作的Memento项目是采用事务性归档方法的代表。

  (3)服务器端归档。服务器端归档指直接从Web服务器访问并获取资源而无需采用HTTP协议。这一方法相较于事务性归档,更加需要Web站点所有者的积极参与,只能在法定缴送(legaldeposit)的框架下采用,目前还未见有较成熟的应用。

  深网采集是WA领域的一个重要问题。Web中大部分内容隐藏在深层网,其访问与获取涉及与数据库的交互同时受访问权限的限制,一般网络爬虫无法完成,需要特殊的方法和工具。法国BnF和澳大利亚国家图书馆分别开发了DeepArc和Xing两个工具。DeepArc可以将关系数据库映射为XML模式,将关系数据库中的内容导出为XML文档,之后Xing可以在线传递这些内容。尽管网站原始的布局和行为不能被精确保存,但Xing允许基本查询与检索功能的复制。互联网技术的发展也给WA带来挑战,新的问题不断出现,多媒体内容是重要问题之一。从RealPlayer文件到播客(podcast),WA所面临的问题不仅来自这些内容本身的复杂性,还有其传送系统的复杂性。数字媒体在互联网上的传送机制可以大致分为两类,一类可以通过HTTP协议传送和下载,另一类则是流媒体。流媒体不会在客户端形成任何形式的复本,不可以通过HTTP协议下载,对流媒体的捕获和再现涉及诸多技术难题。澳大利亚图书馆和英国国家图书馆进行了有益的尝试,同时新的技术———HTML5的出现也为解决这一问题带来福音。

  3、WebArchive的保存

  保存(preservation)是WebArchive的首要任务,是保证对WebArchive现在及未来访问和使用的基础,涉及Web内容的存储及长期保存。

  3.1Web内容的存储

  Web内容的存储是将采集获取的Web内容保存于WebArchive中的过程,需要考虑存储空间、存档格式、元数据、存储系统、复本管理等问题。

  WebArchive对Web内容的归档保存是一项持续性的活动,其存档的资源数量将不断增长,因此有必要估计所需的存储空间及其部署的位置。影响WA所需存储空间的主要因素是:采集的类型是增量式采集还是非增量式采集,前者对相同文件仅保存一次,后者则保存每一个文件的每一个复本。WebArchive中的文件存档格式有多种,如ARC、WARC、CDX等,IIPC推荐使用WARC。WARC(WebARChive)存档格式规定了一种将多种数字资源与其相关信息(如元数据)整合为一个存档文件的方法,用以更好支持WebArchive的采集、访问和信息的交换。

  元数据也是WebArchive存储的重要问题。一些WebArchive在采集过程中会记录Web内容的某些信息,如URL、校验值、采集时间等,这些数据可以作为元数据使用。数字资源保存领域的元数据标准如PREMIS(PREservationMetadata:ImplementationStrategies)和数字图书馆领域的元数据标准如METS(MetadataEncodingandTransmissionStandard)为WA元数据的选取提供了参考。IIPC在2005年提出一个用于WebArchive的元数据集,包括与文件相关的数据、与爬虫和服务器相关的数据、与网络爬行过程相关的数据、与选择过程相关的数据等。此外,互联网档案馆的WAT(WebArchiveTransformation)描述了一种从WARC文件中抽取结构化数据的方法,WAT数据可用于大规模数据集上的数据分析。

  WebArchive对Web内容的存储意味着重建一个可以提供用户访问的系统,在理想状态下,WA应同构于其存档的Web内容(包括层级结构、文件名、链接机制、文件格式等)。WebArchive存储更多的挑战来自于对Web信息系统的重现,即重现所存档信息的内容、形式、结构等。但Web信息系统呈现出复杂的信息结构,所采用的操作系统、服务器配置、应用环境各不相同,为WebArchive的重现带来很多困难。目前,解决的策略主要有三种:

  第一种是在本地建立目标网站的复本,并以与Web相同的方式浏览这些复本;第二种是建立Web服务器,在这个环境中向用户浏览器提供服务内容;第三种是依据不同的命名、地址和再现逻辑重新组织文件。这三种策略各有优劣,适用于不同的WebArchive。

  从技术角度看,Web内容的存储还有一些更为具体的问题,如复本的管理。由于Web本身的属性,WA在采集过程中不可避免地产生很多复本,如不同URL指向同一文件内容、多次采集的Web内容没有更新或仅有少量更新,对于这些复本的保存会浪费大量的存储空间,复本管理对WA而言是十分有益的。目前的研究已关注到这一问题,并提出一些解决的方法。对于不同URL指向同一文件的问题,可以通过使用统一资源名(UniversalResourceName,URN)解决;对于多次采集的Web内容没有更新的问题,可以通过历史数据估计Web更新周期以避免重复采集;对于部分更新的情况,可以采用三角洲存储(deltastorage)。

  但DanielGomes等提出,以上各种方法均有局限性,去除部分重复的做法并不适合WA,而基于文件指纹去除完全重复的轻量级方法更为适宜。

  3.2Web内容的长期保存

  Web内容的长期保存属于数字信息资源长期保存的范畴,是要保证对存档内容在未来的长期访问和使用,是WebArchive“存档”这一含义的重要体现。WebArchive中存档的信息不但数量庞大而且不断增长,同时,内容类型多样,对象间存在复杂的链接关系,不同时间段采集的内容同时存在,相较于其他数字资源的长期保存,WA的长期保存面临着更为严峻的挑战,包括处理不断更新的文件和软件版本,为在不同时间段采集的内容提供同时访问,维护相互链接对象间现时的、结构化的情境和关系,以及维护在这些对象间历时浏览的能力。

  IIPC的保存工作组一直在探讨其他数字资源的长期保存策略对WebArchive的适用性,并致力于识别WA长期保存所面临的特殊性问题,为保证WA的长期可访问性,提出迁移、仿真、存档访问软件和相关文档、风险识别、记录转换和替代的访问路径等可能的长期保存策略。MichaelDay提出Web之所以是一类特殊的保存对象,首先是因为Web本身是一个具有迷惑性的复杂对象,其次是Web的动态属性,而这种复杂性和动态性则反映了一个更深层次的问题,即缺乏对Web边界清晰、精确的界定。此外,一些Web归档保存的项目也对长期保存的技术模型有所探讨,涉及的问题包括导入(ingest)的工具、处理格式过时(obsolescence)和重复(replication)的方法、访问的工具等。Joseph等提出系统化的Web内容长期保存的技术模型,需处理的问题包括数字对象的封装、技术演化的有效管理、有效的风险管理和灾难恢复机制、确保内容可用性和完整性的有效机制、信息发现及内容获取与保存的能力、导入率、容积和处理能力的可扩展性、兼容组织变化的能力等。

  4、WebArchive的访问与使用

  访问与使用是WebArchive价值的具体体现,也有利于其建设者监测Web采集是否达到预期目标。

  4.1可访问性

  WA可访问性面临的主要问题是确定提供何种方式的访问或允许何种人访问,不仅涉及具体的技术问题,更重要的是有关法律与伦理问题。WebArchive提供了一种特殊的数字媒介,对WA的访问带来了不同于Web访问的问题,需要对现有的访问方法和工具进行调整,特别需要注意的是WA的时间维度,因为WA中往往保存着一个Web文件的多个版本。WA的潜在用户对WA所提供的数据、信息和服务往往拥有非常不同的兴趣和期望。因此,除了以访问公开Web的方式来访问WA的需求外,WA还要考虑其他类型的访问需求,如数据挖掘。现有的访问方式(浏览、索引、查询)对于以研究为目的访问是安全的,但更普遍的访问则依赖各国著作权法和法定缴送制度的完善。

  实践中不同的WebArchive采用了不同的访问策略。新西兰实行法定缴送,允许其国家图书馆保存任何已有的新西兰网站并提供对网站存档复本的访问。美国国会图书馆对其所有存档的网站编制书目记录,该书目记录允许公开访问,但只有已获取制作者许可的网站复本才允许公开访问。

  很多WebArchive是黑色存档或只能在特定地点访问,如芬兰、挪威、瑞士和奥地利等国家级的WebArchive。一些可公开访问的WebArchive为避免和网站所有者竞争,对其资源的访问会有特定延时和功能的减少。如哈佛大学图书馆的WAX项目,从对某一网站的采集到将其存档复本在WAX中进行显示之间,存在至少3个月的延时,在IA的WaybackMachine中,这一延时是6至12个月。

  4.2功能与服务

  WebArchive所承担的角色日趋多元,除保存外,提供科研服务和认证服务也是未来WebArchive的重要角色。为满足用户多元化的访问与使用需求,WebArchive应提供丰富的功能和服务。IIPC的访问工作组于2006年发布《访问InternetArchives的用例》报告,将所有用例分为五类,每一类都需要若干功能和服务的支持。JinfangNiu将WebArchive的功能划分为查询参数、查询结果、浏览等七类。结合已有研究和国外WebArchive的实践,本文将WebArchive的功能和服务划分为以下几类。

  (1)浏览。浏览一般可按字顺、主题、区域或媒体类型进行,要求WebArchive对其资源按相应方式进行组织。对同一URL,可以借助WayBackMachine一类的工具在其不同存档版本间浏览。

  (2)查询。信息检索领域已经发展了丰富的技术和方法,WA可以充分借鉴,但目前WA实践中所提供的查询功能与实际Web的查询功能还有很大差距。WebArchive常用的查询途径包括URL、关键词、域名等,日期和媒体类型可以作为限定查询的方法,关键词查询需要WA为其存档资源建立全文索引,这一技术问题令部分WA仅提供URL查询。大部分WA只提供简单检索功能,少量提供高级检索,如加拿大政府的WebArchive。而信息检索领域的热点技术如多媒体检索、智能检索、自然语言检索等在WA查询中则完全没有体现。此外,WebArchive的查询也有其特殊性,如在结果处理方面,WA需要揭示来自同一网站页面间的层级关系、为满足认证和引用的需要为每一存档页面(包括不同版本)分配唯一永久标识符、提供页面打印功能等。

  (3)数据挖掘。将WebArchive中的收藏应用于学术研究是当前的一个趋势,数据挖掘即是一个主要应用方向。WA中大量的累积性数据为数据挖掘提供了无限的研究可能,如美国康奈尔大学的WebLibrary基于互联网档案馆的数据所进行的数据挖掘研究和日本基于WebArchive的社会感知系统研究。但这些研究仅小范围开展,WA中大量有价值的收藏还未得到充分利用。从技术角度看,数据挖掘要求WA提供编程化、自动化的应用程序接口(API),这是目前制约其研究发展的主要因素之一。

  (4)个性化服务。提供诸如“MyArchive”之类的个性化服务可以提升用户体验,推动WebArchive的应用,但目前还未见这一类服务。

  (5)站点重构。WebArchive可以利用其存档内容帮助丢失的网站进行恢复,如IA利用其采集和存储的信息帮助过很多网站进行恢复。


  •   论文部落提供核心期刊、国家级期刊、省级期刊、SCI期刊和EI期刊等咨询服务。
  •   论文部落拥有一支经验丰富、高端专业的编辑团队,可帮助您指导各领域学术文章,您只需提出详细的论文写作要求和相关资料。
  •  
  •   论文投稿客服QQ: 论文投稿2863358778 论文投稿2316118108
  •  
  •   论文投稿电话:15380085870
  •  
  •   论文投稿邮箱:lunwenbuluo@126.com

联系方式

  • 论文投稿客服QQ: 论文投稿2863358778
  • 论文投稿客服QQ: 论文投稿2316118108
  • 论文投稿电话:15380085870
  • 论文投稿邮箱:lunwenbuluo@126.com

热门排行

 
QQ在线咨询
咨询热线:
15380085870
微信号咨询:
lunwenbuluoli