Web数据挖掘的未来方向

2009-08-12　来源：中华读书报　作者:■廖海仁我有话说

万维网的出现绝对是人类历史上一件空前的事件。这首先引起大众传媒方面的一次革命。英国牛津大学著名动物学家和行为生态学家Richard　Dawkins在其著作《自私的基因》中首次提出模因（Meme）的概念。这一从基因(Gene)一词

借用过来的词汇，是指思想、理论、习惯、技能、语言等通过模仿在人与人之间的传播。Dawkins的著作出版在万维网诞生之前。在书中他曾告诫说：模因这一新的复制因子正在迅速进化，其速度之快为原来的基因望尘莫及。而万维网的出现则又大大加速了模因进化的过程。

万维网中数据量巨大，而且增长迅速。相比其他领域的数据，万维网上数据是半结构化或非结构化的，同时以高噪声、高冗余、数据质量低为特色。在浩如烟海、垃圾遍地的网络数据世界中，如何找到所需要的知识呢？

首先当然需要获取网站的内容。爬虫技术应运而生。爬虫是一种用来分解Web中超文本结构的工具。爬虫从种子URL开始，通过查询和记录每个网页的所有链接并把它们排列起来，然后找到新页面并重复开始工作。爬虫获取数据后，需要对数据进行存储与索引，以供检索。

已经存储索引的数据如何呈现给用户呢？最先想到的是主题分类目录。这一方式的思想源于图书馆的编目。给网站分类、编目，再加上一定的检索功能，即可达到目的。这一方面最成功的例子是Yahoo。现在几乎每个网站或多或少都会使用主题分类技术，大部分的搜索引擎也会融入某种形式的基于分类的搜索。

主题分类方式的价值，一是通过对网站内容进行了编目方便了检索，二是因为目录链接通常经过编辑的检查，它们一般是比较权威或热门的内容。但是这一方法的局限性显而易见：网站数量和网站的内容都在不断变化，人工方法很难跟踪这些变化。有没有通过程序自动归类的方法呢？传统机器学习理论中的聚类与分类方法正擅长于这一点。

聚类是一种无监督的学习方法。它根据相似度对网站内容自动进行归类分组，同一组内的文档比不同组内的相似度更高。聚类在超文本领域也会有一些问题存在：对聚类产生的结果的可能产生不同意见，因为不同的相似度度量可能产生不同的聚类结果；设定超文本不同部分对相似度的权值不同，也会产生不同的聚类结果，而权值的设置并没有统一的标准。

分类是一种有监督的学习方法。分类器先通过已进行标签的样本进行学习，然后将学得的分类规则应用到新的数据中。由于网络数据的数量、多样性和不统一性，也使得分类在超文本领域的应用更为复杂。

传统的信息检索技术虽然是网络搜索的核心技术，却不能满足在网络中寻找知识的需求。信息检索的实质应该是语义检索，而传统的信息检索模型都是基于词索引。但是独立的字、词集合不能完全、准确地反映文档和查询地语义。比如说，查询WebBrowser并不能找到IE或Firefox，因为IE和Firefox不会自动说明它们是浏览器。在学术出版领域，文章的引用率是其声誉的指示器。利用这一思想的最成功的公司是Google。Google搜索引擎的基础是PageRank算法，其原理是“从许多优质的网页链接过来的网页，必定还是优质网页”的回归关系，以此判定所有网页的重要性。另一重要算法是HITS算法。在这一算法中,每个网页都要计算两个值:权威值(authority)与中心值(hub)。权威值类似PageRank的声誉值，而中心值则表征指向权威网页的链接程度。这两个算法是现在几乎所有基于关键词的商业搜索引擎的基础。

那么，Web数据挖掘的未来方向是什么？

首先，基于关键词的搜索引擎不能完全理解用户输入的整句的意义，所以给出的页面可能不是用户所需要的。由于不能理解语义，对用户提出的问题也难以给出好的答案。要在这方面取得进展，依赖于自然语言处理的研究进展。

其次是搜索引擎的个性化。目前的搜索引擎，包括Google在内，基本都是非个性化的。比如你叫张三，想在网上搜出关于你的报道。除非你已经牛到当上了美国总统，网上关于张三的报道很多都是关于你的，否则要找到与你相关的信息可是难上加难。

目前在Web搜索引擎领域有了许多新的进展。今年WolframResearch和他的团队开发推出了WolframAlpha搜索引擎，以“计算型知识引擎”标注，可以用来回答具体的问题。近期微软也推出自己的搜索引擎“必应”（Bing）要与Google抢夺搜索的市场。微软对其搜索引擎的广告宣传是“决策型的搜索引擎”，宣称能帮助用户做决策。这些新力量的出现会加剧搜索引擎市场的竞争，并推动Web数据挖掘的发展。

　　（《Web数据挖掘――超文本数据的知识发现》，图灵原版计算机科学系列之一，［印］查凯莱巴蒂著，人民邮电出版社，2009年2月，59.00元）

[值班总编推荐] 治理“游烟”，一个经济学视角

[值班总编推荐] 中共中央政治局召开会议中共中央...

[值班总编推荐] 缅甸震后50小时与时间赛跑的中国...

温沙沙：师范生美育素养培育的价值、内涵与实施路径
　　【详细】
电视剧《北上》：年代剧的文化寻根
　　年代剧的叙事模式正逐步走出陈旧窠臼，涌现出融合多样题材和创新视角的新探索。《北上》的热播和好评说明了优秀文化题材的力量，当创作者找准了文化之“根”和情感之“魂”，观众自然会被其中的精神内涵所打动。【详细】
稳步扩大制度型开放
　　【详细】
一图读懂中国自主的知识体系
　　【详细】

漫话天下