近几年在文史学者中间广泛流传和使用的是一套名为《国学宝典》的数据库光盘。这个大型古籍文献数据库,收入了《十三经》、《二十五史》、《资治通鉴》、《续资治通鉴》、诸子百家、唐诗宋词元曲、全上古文、明清戏曲小说、历代学术笔记、佛典、道典等近两千种3亿汉字的先秦至晚清文献。近期又相继完成了唐宋八大家全集、十三经注疏等大型文献。《太平御览》、唐宋笔记全集、禅宗典籍大全、数术大全、三通等工程也已正式启动。不少学者给予这套软件很高的评价,认为它极大地方便了文史研究工作。
为了给学林提供方便,《国学宝典》的设计制作者尹小林先生创办了“国学”网,将《国学宝典》中的重要数据制成网页上网,免费提供大家使用。但是,去年他发现了有人未经允许任意使用《国学宝典》和国学网上的资源,并有人制成光盘公开销售,他认为一套名为《汉籍全文检索系统》“盗窃了《国学宝典》的工作量”。
对于尹小林的指责,《汉籍全文检索系统》的设计制作者并不以为然,认为古籍数字化整理是学术研究事业的一部分,而古文献原本是天下公器,人尽可使用之。至于《汉籍全文检索系统》中有相当一部分与《国学宝典》在目录、格式、标点方面近似,并不等于前者“盗窃”。他的理由是:所谓“盗”是指侵犯别人的所有权,试问拿走原本“来路不明”的数据何盗之有?
经过记者多方了解,《国学宝典》、《汉籍全文检索系统》所收录的“电子文本数据”一部分是自筹资金请人录入,而更多的是来自某出版社方正激光照排过程中产生的“小样文件”。有知情人士对于这场纠纷的评价是:“谈到著作权法,如果出版社方面较真,他们都有很多不合法,因为首先绝大多数文献标点都不过50年,且非正式出版物。”
“方正小样文件”是出版社整理古籍并出版点校本后的“副产品”,“点校”的版权概念本身在具体的著作权法中界定不够清晰。尹小林认为“方正小样文件”没有严格的版权,他说:“你点校了,我就不能点?难道点得一样就是侵犯权利?”
高校古籍研究委员会的刘先生告诉记者:“个别人在未经允许的情况下使用出版社的‘方正排版小样文件’如果涉及到经济利益,出版社有权提起诉讼。实际情况是,古籍整理者个人不一定计较,而出版社要到认识到自己的经济利益受到威胁,电子出版物影响到纸介质书的销售时才出手,否则也是睁一只眼闭一只眼,懒得理。”北京大学出版社彭松建社长说:“如果拿走我们的‘方正小样文件’,我们的态度分两种情况:假如是正式的电子出版物,且作为赢利目的,那就是盗版。如果是限于学术圈,经过我们的允许,可以限制性使用。”可是“方正小样文件”怎么会由出版社内部流传到社会上呢?彭社长解释说:“‘方正小样文件’被‘悄悄’拿走,可能通过‘排版公司’,也可能是得到了责任编辑的‘帮助’,不易搞清究竟是从哪个环节流了出去。如果查出盗用者,出版社可以请律师提起诉讼。”
既然古籍电子数据库软件能够极大方便学术研究,既然只是在“副产品”的基础上进行加工就可以完成电子出版物的编辑出版,那为何这块市场多见“手工作坊”产品而鲜见正规出版物?据记者了解,古籍电子出版物成本太高,利润太少。商务国际有限公司在1997年出版了《全唐诗》(共270-280万字),投资30万元,其中10万就花在校对上(需要请学者,一般人无法完成这项工作)。20世纪90年代中期,台湾中央研究院将中华书局点校本二十五史做成数据库,卖给日本、美国,每套8万美金。但是在总成本1亿台币中,3000万用于校对,相当于一个字一个台币!
知情者向记者透露,让错误率符合国家标准,很少有人能够承担得起,如果投资是为了树品牌还划算;然而古籍整理却难以形成大的品牌和效益。因为投资高,市场小,还有盗版危害,商业投资几乎不可能。首当其冲的一个问题就是正版软件没有市场,《四库全书》扫描版,正版7000-8000元;而盗版只需600-800元,并且服务上门。
较高质量的古籍电脑文本,是目前中文古籍数字化的关键所在,也是成本最高的部分。这方面内地有得天独厚的优越条件。首先,由于20世纪90年代初以来北大方正排版软件的巨大成功,凡此以后出版的各种重新排版的古籍(按一般说法,以1919年为限),均必须先形成电脑小样文件,其数量不下数亿。遗憾的是,其中许多已经遗失,造成资源的巨大浪费。但是其次,国家组织的古籍整理工作形成了一大批成果,这些成果在成为纸介质本的同时,也可以成为数字化文本,在现代印刷条件下,几乎不用追加多少成本。
陕西师范大学古籍整理研究所的袁林建议,将印刷业中形成的古籍电脑排版小样文件确立为国家资源,和煤炭、石油、人力一样,不允许随意废弃。高校古委会刘先生认为建立一个“方正小样文件”的储备库不会有大的障碍,因为北大方正的激光照排系统几乎遍布全国所有出版社,技术上只需一个统一的格式。他相信,如果有关部门领导重视,加上媒体的呼吁,这项工作应该能做起来。
国家古籍整理出版规划领导小组的一位工作人员向记者介绍,目前在古籍数字化整理方面,国家还没有新政策出台,因为有些特殊的技术障碍。首先,繁体字没有国家统一标准,哪些该保留,哪些不能再用尚未最终确定。其次,繁体如何转换成简体成为一个研究课题,目前高校古委会与北京大学合作做这方面的研究,如何使这种转化符合国家语言文字改革委员会的要求还在探讨之中。第三是字库容量问题。比如《康熙字典》中有些文字不能在电脑上显示。这位工作人员最后说:“成立‘小样文件保存库’恐怕有难度。古籍电子出版物原本投入很大,出版社要付稿费,要占市场,而他们还得面临繁简转化和造字的难题,畏难情绪是显而易见的。”
在把古籍数字化工作由“孤军作战”转为“社会化大生产”方面,国内学者虽然取得了一定成果,但由于缺少统一组织协调,“民间手工作坊”力量分散,因而处于相对滞后状态,亟待形成以专家学者与出版社联盟组成的“正规军”从事大规模出版。这个现象早已引起有关部门的注意,实际工作也在不知不觉中进行。2001年3月份“中国基本古籍库光盘工程”取得了阶段性成功。这是北京大学的重点项目,1998年经全国高校古委会的批准立项启动。这套全文电子信息版光盘的收书上起先秦、下至民国,共荟萃重要典籍1万余种,总计全文20亿字,版本图像2000万页。其中近两千种为世人罕见的孤本和珍本,具有极高的学术价值和收藏价值。全套光盘的内容总量相当于3部《四库全书》,堪称规模空前的中国历代典籍总汇。据悉,由安徽黄山书社出版的这套光盘已进入大批量生产阶段,整个工程可望在3年内完成。