【统计历史】统计学历史上的经典数据挖掘案例
创始人
2026-02-12 09:41:14

学界关于数据挖掘(Data Mining)的起源可谓莫衷一是,直到1995年,知识发现国际会议(Knowledge Discovery in Database)才首次进行明确定义:数据挖掘是在众多数据中找出有用且属于未知数据的过程。

目前对数据挖掘的定位众说纷纭,有学者认为数据挖掘属于计算机科学的分支,有学者指出数据挖掘是一门独立的边缘交叉学科,更多学者强调数据挖掘是统计学的专业分支。笔者认为,虽然现代数据挖掘的常用技术和模型工具早已突破了统计学范畴,但在统计学的历史上,由于数据挖掘和统计分析的经典结合而创造性解决问题的案例极其丰富,数据挖掘和统计学的渊源关系由来已久。

一、格朗特与死亡公报

英国商人、自然哲学家格朗特(John Graunt16201674)被誉为“统计学之父”,由国王查理二世举荐,进入当时英国最具名望的科学组织——皇家学会,其成就在于1662年出版的《关于死亡公报的自然和政治观察》,这是格朗特一生唯一的著作,主要分析了16041661年各教区每周公布的受洗礼和死亡名单公告。

虽然格朗特主要使用的算术工具是与现代分析领域相距甚远的三分法——由三个已知数abc即可根据比例关系ab=cd求解未知数d,但他成功地推算出男女出生率之比总是稳定在1413左右,并用数据进一步说明,男性更容易在战争、公海和处以死刑中丧命,所以成年男女的数量基本相等;格朗特调查分析了死亡的所有原因,并初步推算了不同年龄段儿童和成人的死亡比率:儿童死亡发生在45岁以下的比例约为1/3,发生在6岁以下的比例约为1/2,仅有7%的死亡属于寿终正寝,在此基础上,格朗特首次提出和计算了目前已知的第一个生命表,并估计出伦敦1656岁的成年男性约占总人口的34%,有7万人左右可作为战争士兵;格朗特还证明了谋杀不是死亡的主要原因,并首次利用死亡公报中的历史积累数据,批判了当时普遍流传的谬论——瘟疫总是伴随着新王朝的开始,类似结论在格朗特的著作中颇多。

格朗特坦言着魔于研究死亡公报的理由之一是,喜欢从死亡公报——即当前所称谓的“原始数据”中提炼出新结论,其伟大见解在于对死亡公报上数据、隐含信息的挖掘和系统分析,并用数学知识揭示数字之间的关系,其思想和现代数据挖掘技术有一定程度的相通之处。

二、斯诺对霍乱的研究

较为现代的霍乱历史被描述为世界性传染病,前两次世界性爆发分别发生于18171823年和18261837年,最初在印度边界爆发,后来逐渐蔓延到阿拉伯、中国、日本乃至欧洲各地,引起全球的极度恐惧。直到18461863年第三次世界性爆发,对霍乱的认识和预防才取得突破性进展,其中做出重大贡献的是英国医生斯诺(John Snow18131858)

斯诺认真访问了有霍乱患者的家庭,详细登记患者的姓名、年龄、疾病发作时间、卫生条件以及是否喝过疑似污染水源的百老汇街区的水,并和百老汇街区的怀特黑德神父(Reverend Henry Whitehead18251896)对相关信息进行分门别类的整理,对数据表格进行统计分析,最终得到结论:霍乱是通过饮用水进行传播的。

虽然斯诺的研究无法从医学角度解释霍乱的发病机理,但他通过对霍乱爆发时原始累积数据的挖掘和分析,探究了霍乱患者和污染水源的相关性,为控制疫情指明了科学方向。

1866年第四次世界性霍乱爆发时,政府官员和统计学家法尔(William Farr18071883)正是根据斯诺的研究成果,检查水源并及时阻止被污染池塘的使用,疫情得以迅速结束。

来源:中国统计

相关内容

热门资讯

开放式耳机好用吗?十大开放式耳... 现在戴耳机的场景真的越来越多了,上下班通勤、运动跑步、居家办公,几乎离不开。但入耳式戴久了不舒服,头...
国产芯冲刺SPEC Cloud... 面对全球芯片技术封锁和供应链风险,国产CPU不止要在PPT上自圆其说,更需要在国际权威测试中证明自己...
马踏风雷 《逍遥情缘》马年生肖... 手游巴士(www.shouyoubus.com)2026年02月12日:好消息!好消息!《逍遥情缘》...
Meta投资100亿美元建设数... 环球网 meta公司日前表示,将投资超过100亿美元,在印第安纳州建设一个数据中心园区,这将成为该公...