English

2.0时代,数据为王

2008-05-14 来源:中华读书报 作者:主持人 雷厉风 我有话说

先谈近事。业内主要的Linux媒体Linux Journal近日公布了今年读者选择奖的评选结果。这个奖项可以视作Linux平台上各种产品和技术市场采用趋势的风向标。今年冷门不多,大概vi击败Emacs和vim夺标算是一个。

结果显示,主流产品在各处都更加受到欢迎,比如Eclipse、Firefox、My SQL、Apache和Dell电脑。而竞争激烈的领域包括编程语言(C语言折桂)、脚本语言(Python再次胜出)、内容管理系统(Word Press)和桌面环境(GNOME)。在Linux发行版的竞争中,Ubuntu的领先优势并不明显。

在“最受欢迎Linux图书”这一奖项的评选中,问鼎的是一本系统管理书:Linux System Administration by Tom Adelstein and BillLubanovic(O’Reilly)(16%)(英文影印版:《LINUX系统管理》,东南大学出版社)

还有其他几本书也获得了较多读者的青睐:Linux System Programming by Robert Love(O’Reilly)(7.2%)Official Ubuntu Book by Benjamin Hill(Prentice Hall)(7%)(中文版:《Ubuntu官方指南》,人民邮电出版社)Practical Guide to Ubuntu Linux by Mark G.Sobell(Prentice Hall)(6.6%)(中文版:《Ubuntu Linux实用指南》,即将由人民邮电出版社出版)

本月我们专栏的中心话题是数据库。很凑巧,IDC公司刚刚于5月初发布了2007年全球数据库市场研究报告。数据显示,整个关系数据库市场规模从2006年的166亿美元增长到186亿美元,同比增长12.1%。虽然业界很多人都认为它的市场已经饱和,但是多年的霸主Oracle数据库的市场份额仍然在增长,从43.7%上升到44.1%,增速达到13%,超出平均水平。而且,Oracle数据库新版本11g的采用速度非常快,原因是11g中的新特性很受用户欢迎。而IBM(含DB2和Informix)收入增长最快,达到13.3%,稳居第二,占整个市场的21.3%。微软收入增长低于市场平均增长率,只有11.2%,市场份额达到18.3%,与2006年相比反而略有下降,有分析将此归因于SQL Server2008发布的推迟。

排名第四的是Teradata,由于数据仓库和商务智能产品在沃尔玛和其他大型零售商广泛采用,其数据库系统也有稳定的市场份额,约占10.4%,而且在稳步增长。第五名厂商是Sybase,增长9%,其产品SybaseIQ贡献最大。数据库有多重要?TimO’Reilly在为Web2.0下定义的文章中,提出了一个我认为非常重要的观点:“数据是下一个IntelInside。”也就是说,未来或者说现在已经开始的2.0革命,数据将成为驱动力。看看O’Reilly是怎样解释的吧:

“现在每一个重要的互联网应用程序都是由一个专门数据库支持的:Google的Web爬虫,Yahoo!的目录(和Web爬虫),Amazon的产品数据库……正如HalVarian(著名经济学家,现任Google首席经济学家)在去年与我的私人对话中谈到的,‘SQL是新的HTML。’数据库管理是Web2.0公司的核心竞争力,其重要性使得我们有时候称这些程序为‘讯件’(infoware)而不仅仅是软件。”

好的,本文的下半部分,我们来说说数据库技术图书。本月专栏介绍与具体数据库产品无关的基础部分:理论、数据挖掘和数据仓库、SQL。下次我们将推荐各种主流数据库相关的图书。

数据库理论

与计算机科学其他成熟领域一样,数据库理论方面的经典图书也有不少,比较为人称道的首先是如下这来自海外的四大天王。数据库管理系统原理与设计(第3版・英文版)[美]Raghu Ramakrishnan,Johannes Gehrke清华大学出版社数据库系统基础(第5版)[美]Ramez Elmasri,Shamkant B.Navathe邵佩英等译人民邮电出版社数据库系统概念(原书第5版)[美]AbrahamSilberschatz,Henry F.Korth,S.Sudarshan杨冬青等译机械工业出版社数据库系统全书[美]HectorGarcia-Molina,Jef鄄freyD.Ullman,JenniferWidom岳丽华等译机械工业出版社

从Google搜索结果来看,其中国外使用最为广泛的数据库教材是Ramakrishnan & Gehrke和Elmasri & Navathe两本。而从Amazon读者评论来看,这两本书的口碑也更好。前者获得了45个评论,3星;后者50个评论,4星。国内都出版了影印和中文版,但是清华大学出版社的中文版翻译质量颇受诟病,因此我们只推荐影印版。加之《数据库系统基础》作者改版很勤(最新版2006年,而其他几本都是2005年之前,最早的是2001年了),新材料吸收更加及时,总体上后者应该更胜一筹。这两本书的优点都是能够较好地做到理论和实践相结合,不过篇幅也都比较大,超过了1000页。后者中文版分为两卷出版,降低初学者门槛,是个不错的办法。

相比之下,Silberschatz的那本在国内很受欢迎,不过似乎更多是占了先入为主的便宜(此书引进国内最早)。Silberschatz是耶鲁大学教授,由于操作系统那本恐龙书,在学界名气很大。但是,此书口碑一般(Amazon上只有19条评论,而且总计只有2星半),而且Google搜索显示,实际采用率并不大。有读者批评此书数学味道太浓,你读了好多章,还不知道数据库怎么用。

《数据库系统全书》的三位作者都是数据库界的大师级人物,具有相当权威性。此书其实是由两本书合并而成的,因此存在不少组织问题,给许多读者带来了困扰,Amazon上13条评论,总计也是2星半。当然,后半部讲述数据库实现有较高参考价值。但相比而言,ThomasConnolly写的《数据库系统:设计、实现与管理》(电子工业出版社)可能更加实用。

除这四本比较流行的书外,还有曾与关系数据库之父Codd并肩作战过的数据库权威C.J.Date所著《数据库系统导论(原书第8版)》(机械工业出版社),是一本程度较深的著作,适合研究人员和经验较多的数据库管理员。如果这本书的深度和篇幅让你生畏,可以选择Date写的另一本薄书《深度探索关系数据库:实践者的关系理论》,相对更加贴近实际。以事务处理闻名的ArthurBernstein所著《数据库系统:面向应用的方法(第2版)》也是一部理论与实践结合较好的教材,而且门槛较低,已故图灵奖得主JimGray对此书的评语是:“杰作!真希望它是我写的。”

国内的数据库教材以王珊、萨师煊的《数据库系统概论(第四版)》一书影响最大。应该说,在国内主流教材中,此书是最能够与时俱进的。目前的选材和体例都与国外教材非常接近,涵盖理论、设计和编程,并涉及了对象数据库、XML数据库、分布式数据库以及数据挖掘与数据仓库等新知识,也配有实验,兼顾了实际操作的需要。当然,因为篇幅所限,许多知识点不够深入。

当然,如果你觉得先学理论容易挫伤自己的积极性,可以先从SQL方面的书开始读。

数据挖掘与数据仓库

在海量数据成为社会活动重要组成部分的今天,数据挖掘无疑是目前最为活跃的数据库应用领域,应用前景极为广泛。这方面目前有三大名著。分别是:数据挖掘:概念与技术(原书第2版)[加]Jiawei Han,Micheline Kamber范明,孟小峰译机械工业出版社数据挖掘:实用机器学习技术(原书第2版)[新西兰]IanH.Witten,EibeFrank董琳等译机械工业出版社数据挖掘导论Pang-Ning Tan,Michael Steinbach范明译人民邮电出版社

这三本书均为名家著作,都有中文和影印版。总体上翻译都有些问题,但在可以接受的范围。其中最后一本Tan的比较偏重聚类(clustering),适用面比较广,相对浅显易懂,要求的知识背景最少,注重实践,可以很快掌握数据挖掘大局观,推荐首先阅读,尤其是应用人员。Han是世界级的权威,他的书是很好的综述,内容全面新颖(比如社会网络数据),但也比较庞杂。Witten是著名的开源软件Weka的开发者,所以他的书是非常好的实现指南。

此外,Berry和Linoff的《数据挖掘技术:市场营销、销售与客户关系管理领域应用(原书第2版)》(机械工业出版社)是一本很好的应用指导书。

数据仓库作为商务智能的基础性技术,其地位也日益凸显。但是总体看,这方面的图书一直未能很好地满足要求,只找到差强人意的两本书。数据仓库(原书第4版)[美]Willian H.Inmon王志海等译机械工业出版社

作者被称为“数据仓库之父”,权威性当然毋庸置疑。不过此书比较理论化,适合有实践经验的读者提高,对于想从事实际数据仓库工作的初学者用处不如想象的那么大。数据仓库工具箱――维度建模的完全指南(第二版)[美]Ralph Kimball,Margy Ross谭明金译电子工业出版社

如果说Inmon开创了理论,那么Kimball则将理论落到实处。本书原版是数据仓库构建的必读之作。此外Kimball还写了几本相关的实战书。很可惜,这些书要不还没有引进,要不就是翻译糟糕。

SQL

说到底,只要你使用数据库,你就在时时刻刻地与SQL打交道。某种意义上,学数据库,首先就是要学通SQL。因此,SQL的重要性也就不言而喻了。奇怪的是,在2007年之前,SQL方面的图书一直处于半空白状态。进入2007年,出现了几本好的SQL书,立即畅销。到现在,SQL图书已经开始多得有“渐欲迷人眼”的感觉了。SQL必知必会(第3版)[美]BenForta钟鸣,刘晓霞译人民邮电出版社

这是SQL方面的经典入门书,一直占据Amazon同类图书的销售榜首,而且口碑极佳(135条评论,接近全5星)。有意思的是,本书是小开本,才200页出头,却把数据库和SQL的核心概念和知识讲解得通通透透,实在让动辄几百页乃至上千页的大部头汗颜。绝对初学者,强烈推荐由此入门。中文版翻译比较精心,对一些容易引起误解的术语都给予了更多解释。精通SQL:结构化查询语言详解高守传著人民邮电出版社SQL Cookbook中文版Anthony Molinaro王强等译清华大学出版社

这两本书都是主要由实例组成的工具书。但相比之下,前者还是按一般数据库书的知识点顺序讲解的,更适合学习;后者则更面向任务,直入主题,便于查阅,而且内容更加深入全面,像报表、数据仓库、分层查询等内容,都非常珍贵。读者可以在入门之后,选择前者深入,在实践中使用后者解决遇到的问题。SQL权威指南(第3版)(即出)[美]JoeCelko人民邮电出版社

说到SQL语言,Joe Celko是一位不能不提的名字。他是数据库界最受尊敬的专家之一,作为AN鄄SISQL标准委员会的成员参与了SQL国际标准的制定,并为各种技术媒体撰写了大量文章,同时也出版了一系列经典图书。本书就是其中一部,是Celko最具代表性的著作,也是最具权威性的SQL图书。当然,Celko的书中技术细节上偶有错误,而且没有官方的勘误,有些令人遗憾。SQL解惑(第2版)[美]JoeCelko米全喜译人民邮电出版社

Celko的另一部有趣的著作。书中汇集了许多含义丰富的难题,是SQL程序员修炼内功的绝佳之作。阅读本书时,很像在大师背后观摩如何解决实际问题。原书的错误不少,中文版译者做了大量勘误工作。SQL语言艺术[美]Stephane Faroult,Peter Robson温昱等译电子工业出版社

非常难得的讲实战经验的书,主要着眼于数据库性能,提出了通盘的解决方案。作者从《孙子兵法》(英文名为The Art of War)吸取灵感,在书中巧妙运用军事术语,大大增加了可读性。

手机光明网

光明网版权所有

光明日报社概况 | 关于光明网 | 报网动态 | 联系我们 | 法律声明 | 光明网邮箱 | 网站地图

光明网版权所有