资料: 现代软件技术的灵魂—贝叶斯定理

生活在18世纪的托马斯-贝叶斯(Thomas Bayes)生前是位受人尊敬英格兰长老会牧师,为了证明上帝的存在,他发明了概率统计学原理,遗憾的是,他的这一美好愿望至死也未能实现。不过,200 多年后的今天,他的这一理论却成了21世纪计算机软件的理论基础,尤其是在数据管理软件领域。

例如,即将问世的Windows XP操作系统就可以看到贝叶斯定理的身影,其智能纠错系统就是建立在贝叶斯定理的基础上的;另外,该定理也是微软公司“以互联网为中心”的.NET战略的理论基石。

和传统的数据统计技术完全立足于“单纯、死板”的数据信息不同,以贝叶斯定理为理论基础的数据统计技术有机地将数据信息同真实世界的信息联系在一起。为了说明这个问题,我们来看个简单的例子:在美国,每年的11月都是火鸡的销售旺季。如果应用传统的数据统计技术来分析的话,根本就无法解释这种现象。但如果应用贝叶斯定理来分析,情况就一目了然了——因为感恩节就在11月份。

近年来,贝叶斯定理在商业软件中得到了广泛应用。例如,微软公司即将问世的新一代操作系统Windows XP就可见到贝叶斯定理的身影。道理不难理解,因为微软公司的许多程序员本身就是贝叶斯定理的坚定拥护者,微软公司自适应系统及交互研究部门负责人 Eric Horvitz的话最具代表性——“这(将贝叶斯定理整合到软件产品中)是我们的梦想”。目前,Eric Horvitz领导的研究小组正在全力开发Windows XP操作系统的“帮助”系统。微软公司的其它产品也不例外,今年6月推出的智能电子邮件过滤软件Mobile Manager也应用了贝叶斯定理。Mobile Manager软件不仅能够自动帮助用户将收到的电子邮件归类存档等,最令人吃惊的是它能够自动记忆用户的使用习惯,并以此为根据将比较重要的邮件立刻转发到用户的寻呼机或者手机上。

不过,无论是Windows XP操作系统,还是Mobile Manager软件,都还只是“牛刀小试”而已,微软的.NET平台才是贝叶斯定理将真正得于大展拳脚的舞台。按照微软公司的蓝图,.NET平台将把 PC、移动电话、传呼机、传真等所有的信息设备连接在一起,用贝叶斯定理武装起来的“通知”软件系统(Notification Platform)则能够自动根据用户的使用习惯选择最合适的时间、地点以及通讯方式将信息传送到用户的手中。

例如,A用户想要同住在加州的B用户联系,那么,他不必发电子邮件,也不必打电话给B用户,只需要登录作为“通知”软件系统组成部分的 “BestCom”网站,待通过系统验证后将其需求告诉系统,系统就会自动检索B用户的资料,日程表,以及B用户对于A用户过去的请求的答复记录。随后,系统就会弹出一个提示窗口,为A用户提供最佳联系方式:要么发送一个电子邮件,要么待3个小时后B用户回到办公室时再打电话给他等等。该系统甚至能够将A 用户的电话号码暂时添加到B用户的日程安排表中,让B用户知道A用户期待着同他联系。

不过,要说迄今为止应用贝叶斯定理最成功的公司则当属位于剑桥的英国自动(Autonomy)软件公司。该公司应用贝叶斯定理开发出一种大规模“无序型数据”检索、归类、整理系统软件。所谓“无序型”数据,是指那些不适合进入井然有序的数据库的具有无数万亿字节的报告、电子邮件、发言、新闻稿、网页等等。自动(Autonomy)软件公司的软件能够帮助人类对这些纷繁错杂、浩如烟海的无序型信息进行准确的检索、归类、储存以及分析等工作,并为有特殊需要的用户提供相关参考资料。仅仅在四年的时间内,自动软件公司就获得了巨大的成功,其客户名单包括英国广播公司、通用汽车公司,Proctor& Gamble公司,以及美国国防部等,目前该公司市值高达50亿美元。

以自动软件公司的客户之一——AstraZeneca制药公司为例,该公司的员工遍布全球各地,自动软件公司的软件系统不仅保证了该公司位于全球各地的药品研制工作和市场营销工作的协调一致,而且让员工及客户重新发现了许多原本已经被忽略的信息的价值,该公司信息部门主管Duncan Fyfe表示,“许多员工和客户使用过新的系统后(自动软件公司的软件系统)纷纷表示,以前他们竟然一直都没有发现到这些有用的信息的存在。”

自动软件公司创始人、首席执行官Mike Lynch表示,在绝大多数公司中,非数据库型(无序型)数据占整个公司通讯数据的比重相当高,大约在80%左右;而且,其容量大约每3个月就会增加一倍,因此,无序型数据分析软件在企业应用市场的前景不可限量,“真实世界是复杂的,贝叶斯定理则能够帮助电脑建立起分析模型。”

2001.08.16 [原文地址]

注:

《逻辑学》中贝叶斯定理的简单形式:
在命题p条件下命题q的条件概率,等于命题q的概率与命题q条件下命题p的概率的乘积比已知命题p的概率。
公式:P(p∧q)=P(q) x P(p/q)/P(p)