目前许多传统出版单位,仍热衷于将出版资源大规模地进行所谓的“数字化”工作,而这种不按数字出版需求处理的数据,只能称其为出版资源的数字化形式。它所产生的“数字化成果”,只不过是浪费宝贵的时间、人力、物力和资金,又产生出一大批数据垃圾而已。
IT商家开展多种活动向观众推介数字出版产品
在传统出版产业向数字化转型期间,现阶段最受业界重视的两个问题,一是基于数字技术的传统编辑出版流程改造,也即业内常说的流程再造,另一个问题就是出版资源的数字化。前一个问题由于涉及出版理念和不同出版单位出版的业务流程各异,很难表述,处理难度也相对较大。但后一个问题则是传统出版产业所面临的共同问题,如不从全局的角度高端入手,则势必会给产业数字化转型带来不可估量的后果。因此,有必要先理清思路,找出解决的办法。本文拟从出版资源的数字化(资源存在形式)和数字化出版资源(资源形成质量)两个角度作一简述,以期抛砖引玉,引起业界的重视。
一、出版资源数字化
从一般意义上来说,出版资源的数字化是将出版过程中形成的各类数字化资源,通过一定的方式,并以不同的载体形式和格式存储起来的数字化文件的总称。但是否将各出版单位在编辑出版过程中形成数字化的“中间过程文件”收集整理出来,就可以形成出版资源的数字化了呢?答案当然是否定的。因为这类出版资源的数字化仅仅有数字化的文件形式,其中存在大量的隐患和问题,不可能真正成为可再生或利用的资源。其问题主要表现如下:
(一)文字资源数字化存在的问题
1.现在出版资源的数字化文件不能脱离录排环境而使用
由于各出版单位发稿后,大多是交由社会上的录排单位录入排版,而这些录排单位大多使用的是方正系统排版,其中核心资源是方正小样文件。现在的问题在于这些小样文件中,不同排版员所发的排版指令不同,格式各异,很难从中反解出可供使用的文本文件。而且由于方正的排版软件不同版本之间互不兼容,如无原录排软件和显示环境,不同环境下录入的文件很难还原和处理,因此,各单位所保留的仅是数字化的排版文件而已,如不进行专业处理,不可能成为数字化资源。
2.现有资源中的数据不能实现文同字、字同码
由于方正排版软件提供极为便捷的造字工具,从而使得各录排单位在排版过程中,可极为便利地将无法输入的字“造”出来,并通过方正的输出系统打印出来,这项技术的“发明”,极大地便利了纸质出版物的出版。但到了数字出版时代,这项技术所产生的后果,却成为出版资源数字化的拦路虎。粗略分析一下,就不难发现问题所在:
首先,库内已有的字,因为录入人员不会输入而重新造字产生部分同形异码字。我国录排生产企业安装的大多是国标GB18030字库,所收汉字27533个,而从事录排工作的则大多为初高中毕业生,这些人员识字约为2000个,由于对库内大多数字不认识,大量库内存在的字被二次重新造字并赋予新的方正“外字”码位,而这类字脱离了发排环境是不能可显示的。
第二种,库内无字不能输入,重新造字产生的异形异码。有许多文稿中出现的字,确为库内没有,但其实仅是笔画和部首的细微差异,实质上是同一个字,由于录入人员不能掌握这类字的认同规则,见字造字,从而产生大量的假字。
第三种,录入稿件时误认而重新造字产生的同一字的异形异码。在二次造字的过程中,大多数排版人员由于识字能力弱,只能照猫画虎,描字,这就导致了大量多笔、缺笔字的,根本不是字的“字”产生,并在外字区中赋予相应的码位,成为伪字。
笔者在《中华大典》数据处理过程中,发现的大量假字、伪字,以及在《中国大百科全书》方正排版数据入库过程中,发现的问题真可谓“百花齐放”,无奇不有。因此,如不认真解决上述问题,或是在生产环境严格控制录入规范的数据质量,那仅有数字化形式,而无数字化质量的出版资源,只能称其为数据垃圾,不可能成为真正的数据资源。
3.资源中的数据不支持国际ISO/IEC10646:2003汉字编码字符集标准,不具有可流通性
随着网络技术的发展以及中文用字范围的扩大,国际上已形成ISO/IEC10646:2003汉字编码字符集。面对中国文化走出去的要求以及海外市场拓展的要求,作为资源使用的,特别是作为外向型出版资源使用的文件,必需将其转换到ISO/IEC10646:2003汉字编码字符集上来,并解决码位同一性的问题,才具备可流通性。
4.资源中的文件格式不规范,不具有跨平台跨系统的通用性
由于各录排单位的发排机和输出机的环境不同,支持的文件格式各异,因此,最后产生的数据文件格式五花八门,而且很多格式是为专门的输出设备设置的,在一般的通用浏览器不能显示,从而导致资源文件无法利用。
5.资源中的数据未经排异除歧,不具有可用性
由于大多数出版单位对每一个选题都是独立编辑独立成书的,因此单独一本书中内容的同一性,数据的自恰性都不会有太多问题,但是当大量同类选题的资源类聚到一起时,就会产生大量的基于本体性的知识分歧,如果这些问题不解决,资源也不具有可用性。
6.资源中的数据信息不完整,不具有可追溯性,不能维护及更新
当大量资源被采集和汇聚后,如不能对信息来源和信息属性进行描述和管理,则汇集的内容越多,资源的可利用率越低。另一方面,由于信息源不确切,对汇集信息的后期维护、管理、更新造成更大的困难,特别是大量实效性信息,如不能更新,则不具有可使用性。
(二)图片资源数字化存在的问题
图片资源是出版资源的重要组成部分。但目前各出版单位的图片资源虽然是数字化形式,但也存在诸多问题:
1.高采低存:图书出版过程中,由于要支持纸介质印刷,因此,图片的扫描精度都在3000DPI以上,而交出版社存档时,往往由于数据量过大,出版单位大多是降低精度或压存储。这样无形中使得文件中丰富的信息大为损失,不利于二次利用。
2.合层存储:在图书出版过程中,往往将若干图形元素通过设计环节融合到同一幅画面中,合层后发稿。但由于合层后的文件,其中独立图形元素不可能再分解出来,因此,合层后的图形文件只能用作再版,其中的元素不可能再次利用。
3.文件名管理:大部分图形文件的命名,是排版单位为便于出片而随机命名的,这类文件的命名由于其随机性,没有规律可循,因此管理难度很大,当大量汇集后,如何查询检索就成为一大问题。
二、数字化出版资源
从上述分析可以看出,未经过规范化处理的出版资源,即使是以“数字化”形式存在,也只不过是以数字形式存储的出版资源而已,这类资源很难在数字出版领域中成为可资利用的有效资源并发挥其应有的价值。目前许多传统出版单位,仍热衷于将其所掌握的出版资源大规模地进行所谓的“数字化”工作,而这种不按数字出版需求处理的数据,只能称其为出版资源的数字化形式,其所产生的“数字化成果”,只不过是浪费宝贵的时间、人力、物力和资金,又产生出一大批数据垃圾而已。
那么,什么样的资源才能真正成为数字化的出版资源呢?对照上面提出的问题,我想数字化的出版资源起码要具备以下几个基本要求:
第一是资源的可用性。可用性是指两个方面,一是资源的版权有效性,即资源经过数字化加工处理后,出版单位对其是否具有版权意义上的使用权。二是资源自身的价值,是否具有一次加工,多次复用价值。
在传统出版时代,出版单位获得的大多是专用出版权,有的甚至只是非专用出版权,而并没有获得改编权以及其他载体形式的出版权,特别是对于数字出版最为重要的网络传播权。而这些法律上的授权问题如果不能得到真正解决,即使出版单位花费大量人力、物力和精力将其作品数字化,却可能面临数字环境下运营的合法问题而无法使用。为此,对具有一定价值且需要进行数字化的资源或已形成数字化的资源需要二次加工的资源,首先要进行版权授权的认证工作,未获得有效许可的资源是不能进行二次开发的。
并非所有的出版资源都具有可复用性,或者是利用复用性不强。在传统出版资源中,复用性较强的资源有工具书、教材等长销类产品,其次是以提供数据分析和信息服务类的数据库产品,最后是经典读物以及浏览性读物。对于不同的资源,其数据处理水平及加工要求也各有不同。
工具书、教材是数字化出版资源的核心,对这类资源要在完成同类资源的大规模集成后,要进行数据的深度标引,并完成查重排歧,才具有可使用的价值。这也是加工难度最大的一项工作,其中涉及如何利用计算机技术进行数据挖掘、信息整理和知识管理、知识服务等数字出版核心技术。
再一类是数据分析和信息服务类的数据库产品。面向某一领域或特定读者群的非工具书或教材类的出版资源,其单一资源的可复用性较弱,但大规模集成后,可形成一定强度的资源库,通过积累和沉淀,可形成新形态的信息产品,如清华同方的资源库,这类资源是通过大规模集成之后形成新的衍生性信息消费产品,可满足新的消费需求,并促进原来产品的发行与销售。其可行性关键在于集成度和信息提取度。并非一两家传统出版单位可实现的,一般来说,要形成行业集成才有可能形成有效的规模产品,支撑产业的数字阅读需求。如在集团层面上集成,则专题性的集成度不足,难以形成有效消费群。
在技术层面上,由于对内容信息需求的多样性和复杂性,其底层数据结构及信息提取等问题,需要大量数据库和网络信息处理的专业人才,因此,要在基于新的信息消费产业链的基础上,进行跨媒体、跨部门、跨行业、跨领域的优质资源整合,才可取得成效。
对于经典性读物及大众阅读性读物而言,由于其浏览性、实效性强、典藏性和资源性相对较弱,因此,大多以在线发布、顺序浏览为主,能满足公众利用网络或手机阅读终端,实现情节性浅阅读的基本需求。
第二是资源的可流通性。出版资源的流通性也要从不同的角度来看,一是数据自身的可流通性,二是载体的兼容性,三是内容的需求性。
要达到在不同载体上一次加工多次利用的目的,首先要解决字符的规范性问题。而国内目前各出版单位所拥有的“数字化资源”,大多是基于GB18030的字符集,这个字符集所收汉字难以满足出版用字的需求。因此资源中存在大量非标造字,不具有可流通性。要想提高资源的流通性,必须在资源构架的基础上,也就是超大字符集的基础上,并实现现有资源用字符的五同问题,即:文同字(同字异形的认同)、字同形(同形异构的认同)、形同码(同形异码的认同)、码同位(同字异码的码位归并)、符同码(各类符号系统在符号集中的同一性)。只有在超大字符集的基础上,解决了这“五同”问题,数据才真正具有可流通性。
要想出版资源在不同载体形式上发布,重点需要解决不同媒体形态资源的存储格式和精度问题,也就是载体的可兼容性。媒体格式一定要采用国际通用标准,如采用非国际标准的企业格式,将造成载体间兼容性的瓶颈,使得资源无法有效传播和利用。精度问题也是数字化资源中存在的一个严重问题,特别是图片资源,往往由于前期采集精度不足,导致可用性大大降低,甚至于不可用。因此,对具有利用价值的图片资源,特别是珍贵资源,要按全张印刷的精度采集,并分层存储。
数字出版物的传播方式是被动传播,即资源存储在运营环境中是静态的,如无用户需求导致的阅读点击行为的产生,则根本不可能实现传播。因此,阅读需求越少的内容信息,越不具有可流通性,要提高资源的流通性,就要认真解决在网络环境下读者需求的动态采集和用户需求的定性量化分析,只有解决了需求描述和描述机制,才能真正做到按需定制,按需生产、按需加工、按需提供,才能真正提高资源的流通性和可用性。
第三是资源的可获取性。由于数字环境下的资源是以静态的形式存在,如何有效地将资源组织起来以便于读者的查询和检索,如何类聚地提供信息和内容,如何基于用户的认知规律,拓展性地组织和关联信息,并有效地利用多种媒体形态,综合艺术地动态推送展示内容,是提高静态内容的动态流动性所必须解决的问题。
第四是资源的可维护性。数字出版资源的特点之一是可不断地对资源进行动态地更新维护,以满足和响应不同用户群体的阅读需求。因此,能否建立起一支强大的,具有强大的信息利用和处理能力的编辑队伍,不断对资源进行更新和维护,才是使资源具有生命力和可持续发展生命力最为核心的问题,一个资源如不能及时更新和补充,则需求就会枯竭,用户就会消失,资源本身的价值就会下降甚至消亡。
第五是资源的可追溯性。如所存储的资源来源不清晰,一旦发现问题就无法追溯和解决,而当资源中存在的问题或瑕疵无法解决时,这类资源的可复用价值就大为降低以至不可用。
当然,在数字化资源建设过程中,存在的问题还很多,笔者仅就资源生产加工环节中的局部问题产生的某些问题,提出个人之浅见,不当之处,还望业界同仁批评指正。