<
美国哥伦比亚大学弗朗兹·梅瑟利博士曾提出:“一个国家人均巧克力消费量和这个国家获得诺贝尔奖的人数有着密切关系,人均巧克力消耗越多,获得诺贝尔奖的概率也越高。”然而,事实真是如此吗?这一研究结果在当时引起了极大争议。例如,年诺贝尔物理学奖得主埃里克·科内尔认为这项研究可能并无太大意义。
▲崔逸凡
在用数据来研究事物的关系时,分不清函数关系、相关关系和因果关系,甚至把相关关系和因果关系混为一谈,就会导致最终研究结果存在偏差。浙江大学数据科学研究中心研究员崔逸凡介绍,统计是一门需要对重重迷雾般的数据进行收集、整理、分析并做出推论的学问,而因果推断则是通过数据建立因果关系的统计方法,涉及数理统计学、计量经济学、管理科学、心理学、生物统计与流行病学等诸多领域。但在漫长的时间里,关于因果推断的研究始终在数据迷雾中进展缓慢,“相关性不等于因果性”的古老告诫更是让科学家们在理解事物因果关系的道路上举步维艰。
进入人工智能时代后,科学家们认识到因果推断能克服现有人工智能技术在抽象、推理和可解释性等方面的不足。“数据的真相有时并非来自相关性,而是来自因果性。因果学习,能为科学发现和精准决策提供有力支撑。”作为因果推断和机器学习领域的优秀学者,崔逸凡积极推动国际前沿统计研究,在探索复杂数据和精准医疗等方面取得诸多成果。在他看来,拨开迷雾的过程是一种满足、是一种收获,更能激发自己对科研的热情与灵感。
探寻更准确的因果与统计测量标尺
早在16世纪,培根就提出“知识就是力量”,而“真正的知识是根据因果关系得到的知识”。时至今日,从观察获得的数据中发现不同变量之间的因果关系,依然是统计学和人工智能领域