首页 -> 2007年第3期

浅析数字化信息内容的编辑加工

作者:王 勤




  信息源和采集对象确定之后,如何制定适当的数字化采集策略是采集工作的核心问题,重点要确定采集格式、采集精度等问题。
  对于文字,要采用国际上兼容性好的通用的文件和格式,以利于数据的交换和流通。此外还要注意字符集的选用,要尽量采用国际通用编码的超大字符集,尽量不用自造的字符或非标的字符。并且,采集前要对不同版本和不同格式的信息资源的制标符进行穷尽性提取,并建立转换对照表,以利于数据的交换和还原。同时,对非标的字符和不规范的字符也要进行系统的规范化处理。
  对于图片素材,要采取高采高存,分级输出的策略。即按数据采集设备的最高精度来完成图片资源的数字化采集工作,另外选用无压缩的格式来存储,才能保证信息的无损采集。这样可以保证在今后工作中按照不同的精度需要分级输出图片数据。既可满足输出高精度的画册制版需求,也可满足一般图书封面和插图的制版需求,还可满足无级放大的屏幕浏览或全屏浏览的需求。
  对作为资源性的音频信息,也要采用高端采集,高位存储的采集策略。目前,许多音频素材大多是从录音带上转录过来的,由于这些素材在编辑加工后,信噪比增强、音质下降,不能作为可再生资源。数字化采集要高频采样高位存储,如WAV文件,44.1KHZ采样,16位存储。总而言之,采集工作的基本原则就是高采高存,也就是高频采集,高位无损存储,硬盘存储和光盘备份相结合,备份数据定期检查和定期迁移相结合,才能保证采集的可靠性和数据的安全性。
  各类不同文件类型的采集基本原则大同小异,此处不再赘述。
  对采集到的信息,还须按特定的规则和现行的国家标准、行业标准来识别、挑选、分类、标引、编码和组织,这是信息内容处理最核心、最基础的工作之一,是全面提高信息内容编辑加工质量的关键所在。
  4.信息识别
  信息要得到有效利用,就要使信息的表意单元最小。因为只有最小化的表意单元,才能灵活地进行信息的多维关联、复合校验和结构重组。这里,对最小单元信息的识别就成为最重要的工作之一。信息内容的识别是基于语义的,即对采集到的信息要按自然语言构成要素进行有效判断。判断的主要依据是知识主题构成的核心语素及语素特征。核心语素的识别有两个重要因素要考虑,一是对语素的描述要易于计算机程序的理解和识别,二是经过程序提取出来的信息,要使不同的用户都能充分理解和利用。例如语料库中有下列语句:“河南省高速公路通车里程在继2004年突破1 000公里,2005年突破2 000公里之后,今年又突破了3 000公里,名列全国第一。”我们要提取高速公路总长的有关信息。这里,高速公路是核心主题词,描述高速公路总长的核心语素为“年”、“公里”,格式为:“首位为2的4位数值+年”加上“首位不为0的4位数值+公里”。以这种句式写出程序,在全库进行遍历性搜索和提取,就可获得相关性较强的语料。再经过对所提取语料的进一步整理,就能使语料的有效性大大增强。这里我们要慎重选择这句话的核心语素,此外,还要注意仔细研究这些语素间的词位关系、词序关系、语法关系和逻辑关系,只有这样,才能对语料库中符合这个规则的语料进行穷尽性的搜索和提取。
  5.信息过滤
  针对不同的信息类型和用户需求,要对信息进行分级筛选和分层过滤,排除不规范和质量不高或者失效的信息,以进一步提高有效信息的含量。信息挑选一般要按知识体系结构和用户需求,通过穷尽和类比的方法进行过滤和筛选,以便将有价值的有效信息系统地收集起来。例如,从语料库中已提取下列动词:动工、停工、竣工、完工,但经过类比,发现属同一层次的动词开工、施工、复工、歇工未收入其中,属结构性缺失,因此要予以补充,才能达到穷尽的目的。又如在查办、查抄、查获、查检、查禁、查看、查考、查明、查票、查清、查全、查实、查收、查验、查阅、查找、查证这组词中,通过类比发现,查票是专指性行为动词,而其他动词为类指性行为动词,因此要予以排除。通过补充和排除,才能使信息结构完整,知识体系构成有序。
  6.信息分类
  对于经过筛选的信息,要按不同的检索体系进行分类、分层标引,以满足不同用户和不同检索习惯的需求。这里主要考查分类体系的合理性和可区分性及其标引词的有效识别性。在每一大类中,还要考查分层的深度和每一层次上知识结构的完整性和均衡性,另一方面要考查不同体系间的兼容性。
  7.信息标引
  标引工作是提高信息内容处理水平的重要环节。对标引水平的考查主要是考查标引的深度,也就是对一个知识主题或知识点,考查其内涵是否切割得足够小、外延是否足够大、外延部分与相关知识点的关联是否足够丰富、超链是否足够长、链径是否合理、锚点是否准确、锚点标引词所对应的知识主题能否被理解、在相应的知识体系结构中的占位及对位关系是否准确合理,这一点对边缘学科和交叉学科的知识点尤显重要。
  
  (作者单位:中国大百科全书出版社)
  (责任编辑:耿丽萍)
  

[1]