地方志网站建设的三个方面
信息来源:市党史工办 发布日期:2023-11-20 浏览次数:   字号:【

谭浩

网络信息化的飞速发展,带给我们社会生活革命性的变化,网络凭着它能够最大共享的特性,大大提高了我们的工作效率和质量。这个革命已经渗透到社会各个领域,包括我们历史悠久的地方志事业。自2001年12月20日全国地方志第三次工作会议明确提出“要开发利用方志资源,大力推进地方志工作的数字化、网络化建设”以来,全国有山东、黑龙江、上海、安徽、福建等省市志办建立了自己的网站。北京从2004年年底开始建设网站,历时一年,目前基本上建设完成,已经上互联网运行。笔者完整地参与了网站的建设过程,现结合网站建设的实际情况,谈一谈地方志网站建设需要注意的一些问题。

网站硬件设备的选择

网站硬件设备是网站的基础,良好的硬件设备可以提升网站的运行能力,减少运行中出现故障的几率。地方志网站一般都存储较大的数据量,在建设网站时不要选择虚拟空间,尽量购买自己的服务器。虚拟空间受制于租用空间的大小,影响网站的升级发展。网站的服务选择知名品牌,比如惠普,质量和服务都比较有保障。服务器的数量取决于网站规模的大小,像省一级志办的网站,服务器至少有两台,一台用作数据库服务器,另一台用作WEB服务器;条件好一点的可以再加一台邮件服务器。这样做的好处是数据库服务与网站应用服务分离,既能提升网站的访问能力,也有利于数据的安全与管理。需要注意的是,购买之前要考虑服务器是否需要托管,服务器托管是按外观大小收费的,服务器越大收费越高。如需托管,建议购买机架型服务器,机架型服务器尺寸小,性能配置也不错,节省了网站运行的开支。

网站的数据加工

数据加工是指将纸质志鉴资料信息化处理,转变为数字的形式加以保存。这是一项基础性工作,也是建立地方志网站的前提。数据加工一般分为两种,第一种是没有源盘,用文字资料去扫描,进行OCR识别,这没有什么好谈的,记住加工时要求的差错率不要超过万分之五即可;第二种是有源盘,但在入库前需要做格式转换。源盘最好是付印前的大样定稿排版文件,后缀名是PS、PS2、S2、S72,这样转换后得到的文件,文字准确且版式与原书一致。格式转换软件市场上有成品,作者使用的是PS2NET。这个软件功能比较实用,兼容方正飞腾、维思等排版系统,能够将大样排版文件转换生成PDF或者HTML文件。随文图片也能够转换,但需要注意的是,随文图片转换时,图片要与排版文件位于同一个目录下,否则转换后图片不能显示。

网站数据库的建设

数据库建设是地方志网站的核心技术,主要担负着网站数据的储存和检索功能。在地方志网站中,数据库存储着所有的志书、年鉴以及其他数据资源,有着十分重要的地位。下面从数据库的选择、数据库库结构的搭建、数据的入库等方面谈谈地方志网站数据库的建设。先谈数据库的选择。地方志网站因其需要存储志鉴等大量的文本资源,要求能够快速准确地供用户检索访问,在数据库选择上首先要有全文检索数据库。全文检索数据库的优点是支持海量存储,能够存储近十亿条文本数据资源;具有强大的全文搜索引擎,能够准确,特别是快速的在大量文档中进行检索,这些都是其他关系数据库不可比拟的。目前全文检索数据库国内技术比较领先的是TRS(拓儿斯)公司出品的TRS?鄄SEVER,这个产品技术已经相当成熟,功能非常强大,很多图书馆、报社的数据库都在使用,好几家省级志办的网站也在使用,推荐作为地方志网站的全文检索数据库。
 除全文检索数据库外,地方志网站数据库还需要关系数据库。全文检索数据库虽然有着存储量大、检索速度快的优点,但仅限于对文档资源的管理与检索。对于较为复杂的关系数据,还需要关系数据库进行分析管理。现在主流的关系数据库有SQL SEVER2000、ORACLE等,ORACLE数据库价格比较昂贵,适合大型网站数据库使用,SQL SEVER2000价格相对便宜,适合中小型网站数据库使用。地方志网站属于中等规模网站,主要利用关系数据库存储尸些网站的动态信息及交互信息,使用SQL SEVER 2000数据库就能满足需求。为了保持全文检索数据库和关系数据库的内容同步,两个数据库之间需要通过网关进行连接。
 其次谈数据库库结构的搭建。数据库其实是由很多张表组合而成,每一张表都容纳着表对象方方面面的信息,这些信息称之为表对象的属性。例如有一张表内容是学生信息,那我们可以通过学号、姓名、年龄、班级等属性对一个学生进行描述,设计好一个学生的各种属性,实际上就是搭建了学生表的库结构。同理,在搭建地方志网站数据库库结构时,就要把志书年鉴的各种属性确定下来。一本志书或年鉴,最基本的属性为名称、书号、出版日期、作者等,年鉴的刊号只有一个,可以再添加一项“期别”属性予以区分。这些属性的确定,就等于成功搭建了地方志网站数据库的库结构,剩下只需往库里添加数据内容就行了。当然,一个数据库结构要比上面提到的复杂,这些只是最基本的要素,使用者可以根据自己的需求增加扩充。
 最后谈数据的入库。数据的入库是指把资料内容添加到数据库中。当数据量比较小时,可以手工添加入库,但如果数据量比较大,像地方志网站,要有上亿字的资料入库时,手工入库就显得费时费力了。通常一本五六十万字的志书需要几天的时间,这时就需要借助第三方的入库软件。第三方入库软件可以自己开发,也可以到市场上购买成品。入库软件能够自动的提取资料内容,按照设定好的参数将内容传输到数据库中。一本五六十万字的志书,借助入库软件可以在二十分钟左右完全入库,大大节省了时间,提高了工作效率。
 以上仅从三个大方面浅析了地方志网站建设过程中的一些问题,不过是网站建设中的冰山一角,权做引玉之砖。