当前位置: 首页 > >

图书馆跨*台信息检索系统初探_27603

发布时间:

图书馆跨*台信息检索系统初探
张国* (2001 级 图书馆学)
[摘要]随着计算机和因特网的飞速发展, 数字图书馆的电子资源日益丰富。 图书馆数字资源 和发布方式的多样性使用户在使用过程中越来越感到不便。 跨*台信息检索系统成为目前数 字图书馆建设中一个重要的课题。 现今跨*台检索系统有几种类型, 都有各自的特点和适用 范围, 但是在结构和应用上尚不能达到真正的统一资源整合发布要求。 通过建立一个试验系 统,探索建立跨*台跨媒体的统一检索系统。 [关键词]跨*台检索系统;异构数据;数字图书馆;分布式系统;数据整合

Cross-Platform Retrieval Systems in Digital Library
Zhang Guoping (2001 Library Science)
[Abstract] Along with the rapid development of computer and Internet technologies, electronic resources in digital library are increasingly varied and plentiful. End users are easily getting confused in different interfaces and searching methods when making a query. The cross-platform retrieval system becomes one of the key topics in construction of digital library. The article is trying to present a model of this kind of system based on analysis of several integrated retrieval systems now in use and prospects via further applications of it. [Key Words] cross-platform retrieval system; heterogeneous resources; digital library: distributed system;data integratation

1

目录
1 引言????????????????????3 2 图书馆分布式数据源分析??????????????3 3 跨*台检索系统模式分析??????????????4 3.1 中间件模式??????????????????4 3.2 网页检索代理模式???????????????5 4 跨*台检索系统的应用和扩展????????????? 5 结论????????????????????????

2

1 导言
数字图书馆建设方兴未艾,各种数字资源层出不穷,同时由于数字资源建设 的不同步以及采用技术的不同,各种数字资源都有自己的数据结构、组织方式、 查询方式以及显示界面。对于用户来说,为了查准查全所需要的资料,不得不分 别进入不同的查询系统, 熟悉每个数据源的检索方式和显示格式。跨*台检索系 统正是为解决这个问题而出现。 现今跨*台检索系统有几种类型[1],都有各自的特点和适用范围,但是在结 构和应用上尚不能达到真正的统一资源整合发布要求。 我们在这方面作了些研究 和探索, 并建立了一个试验系统,希望能够建立一个跨*台跨媒体的统一检索系 统①。

2 图书馆分布式数据源分析
按数据实体区分有全文(原文) ,文摘,索引等;存储方式有数据库,文件 系统等;数据分布上有本地和网上;文件格式有文本,多媒体,超媒体;数据归 属上有自建,购买和免费等;数据的内容形式上又有图书、期刊、事实数据等。 对用户而言,要查到所需学科的各种资料,在分散的资源中,他就必须知道哪些 资源涵盖了自己的学科,熟悉使用各种客户端软件、查询界面和检索策略。即使 这样,他也很可能遗漏了某些数据源。费时费力但是查全率较低。图书馆各类资 源使用率见表 1[2]。 表 1 图书馆各类资源使用率
资源类 纸本图书 型 使用率 64.0% 39.2% 35.2% 36.8% 29.6% 15.2% 0.04% 纸本期刊 电子图书 电子期刊 学位论文数据库 专题数据库 其他

电子资源目前主要有专用服务器/客户端和 WEB 发布两种方式。专用服务器 /客户端模式主要应用在目前的 OPAC,Z39.50,某些光盘数据库系统等方面。因 特网的发展使 WEB 发布方式成为信息发布的主流方式,也成为跨*台检索系统 主要面对的处理对象。 虽然同为 WEB 发布方式,但是每种电子数据源的用户界面,检索点,检索
3

策略和显示方式都因为数据源的特点和系统设计等不同而千变万化[3]。同是电子 图书, “超星” 、 “书生”和“APABI”都有各自的检索特点: “超星”的检索点是 书名、作者、出版社和出版日期; “书生”多了 ISBN、丛书名和摘要; “APABI” 又多了关键词、全面检索和全文检索等检索点。电子图书如此,那么电子期刊之 间、期刊与图书及其它资源间的差异就更显而易见了。

3 跨*台检索系统模式分析
元数据整合模式是目前应用较多的跨*台系统。系统结构如图 1

原始数据源

元数据集

原文发布系统

元数据发布系统

客户端 原文传递

图 1 元数据整合模式

本模式通过对多个全文(原始)数据源按一定标准(如 DC)进行标引后,组 成一个元数据集,通常用数据库方式储存。通过一个发布系统(WEB 服务器) 与客户端进行交互。 用户看到的是一个集成后的多数据源查询系统,得到的是对 原始数据的描述信息。 通过一个特定连接,用户可以直接从原始数据源中得到原 文数据②。

3.1

中间件模式

本模式的特点是检索速度和方式不受不同数据源的约束,元数据查询和原文 获取通过不同的服务, 但是标引和组织元数据需要耗费一定的资源,元数据与原
4

文数据源之间的同步性差。 对于元数据一致性协同性要求较高,或变动不太频繁 的数据源采用这种方式较为合适。 本模式采用中间件技术,对来自用户的查询请求,分解成对不同原始数据源 的独立访问请求,通过标准( ODBC/JDBC)或非标准的数据访问接口( API) 对原始数据源进行实时访问并将结果整合后通过发布系统 (或直接) 返回给用户。 (1) 中间件模式的特点 这种模式的特点是实时性好, 任何原始数据的更改都可以在用户查询时及时 得到反映; 原文获取可以直接通过中间件获得从而省去原文数据源的原文发布服 务; 但应用局限于原始数据源必须提供访问接口,而且由于各数据源的速度问题 而影响到用户得到结果的时间。 另外中间件的开发和获取各数据源后的数据整合 策略和技术需要合理规划。 (2) 中间件模式的适用性 这种模式多用于数据源有数据访问接口,适合用于有标准接口的数据源跨* 台检索中,例如:将图书馆书目查询与电子图书(电子期刊) (必须是标准的数 据库而且开放的结构)整合查询;多个图书馆书目查询系统通过各自的 Z39.50 服务器在客户端的中间件中整合显示(省去了数据发布系统) ;OAI 数据服务者 通过 OAI 协议从不同数据提供者那里获取数据并整合后提供服务。

3.2

网页搜索代理模式

(略)

4

跨*台检索系统的应用和扩展
(略)

5

结论
(略)

注释: ① 这是广东省哲学社会科学“十五”规划课题“图书馆资源整合研究”项目的一个子项目,

笔者参与了部分系统设计工作。
②国内外都有类似的软件,但是因为没有将其它类型数据源(特别是现有的自建数据库等)进行整合的妥

5

*饩霭旆ǎ嬲晒Φ陌咐欢唷

参考文献: [1] 杰克逊 G,李生,译. 数据库结构. 北京:工业出版社,1988: 12-15 [2] 王晓,张红. 图书馆资源建设的若干理论问题. 北京大学学报(社会科学版) ,1999,35(1) :101-106 [3] 李 亮 . 关 于 中 国 学 术 期 刊 标 准 化 数 据 库 系 统 工 程 的 进 展 . 1998-08-16.[1998-10-04]http:// www.Cajcd.edu.cn/pub/wml.txt./980810-2.html [4] Peebles P Z, Jr. Probability, random variables, and random signal principles. 4th ed. New York: McGraw Hill, 2001:25-26 (下略)

6




友情链接: 时尚网 总结汇报 幼儿教育 小学教育 初中学习资料网