编者按:
日前,邹磊教授接受北京大学元培学院的学生学术学会关于本科生学业、科研及未来规划的采访,我们将相关采访材料,整理发表如下
导师介绍
邹磊
北京大学王选计算机研究所教授
北京大学元培学院数据科学专业指导委员会委员
北京大学大数据科学研究中心主任助理
科研领域:图数据库系统、知识图谱、大数据管理和分析系统
QAQ1:您能简单介绍一下您的求学经历,以及您是如何走上科研道路的吗?
我本科学的是计算机科学与技术专业,我们那时候还没有大数据这个说法。大二或大三学习数据库相关课程的时候,我对计算机的数据管理非常感兴趣。后来我在研究生时选择的方向就是数据库。数据库在本科阶段讲得相对浅显,主要偏向使用,而我当时对数据库系统本身怎么构建更感兴趣。所以我研究生和博士阶段做的研究都是关于如何构建图数据库系统的。
数据库系统的重要性可以和操作系统类比。没有操作系统,所有机器都无法使用;数据库也是一样,没有数据库,所有的应用软件都是不可能的。数据库是所有信息化系统最核心的系统软件。因此,我专攻这一方向的原因还在于它的重要性。
我的科研道路始于保研,在华中科技大学读硕士。最开始,我的想法还比较模糊,不确定是否要读到博士,或者博士毕业后是否要进入高校。后来读研的时候,我接触到关于空间数据库(如地理信息系统)的研究,觉得很感兴趣,于是就萌生了花更多时间去读相关论文的想法。在研一或研二的时候,有一个硕博连读的机会,我最终决定转博。博士阶段,我比较早就发表了一篇数据库的顶级的论文,另外还取得一些别的成绩。我博士阶段最后两年我在香港科大和加拿大的滑铁卢大学进行了访问学习。09年博士毕业以后,加入到了北大计算机科学数据研究所当老师;现在我们所改名叫王选计算机所;这样算来,我来北大已经有11年了。
Q2:您的主要科研领域是图数据库系统、知识图谱、大数据管理和分析系统。您能简单介绍一下这些领域吗?您认为这些领域之间的关联是什么?
到北大来以后,我一直在做图数据库系统,它的优势是对事物之间关联性的分析。如在公安系统当中找两个人A和B,那么要寻找A和B的关联,如亲属关系、同行关系,利用图最为方便。当时我们自己也开发了一套自己的图数据库系统gStore,很早以前就把它开源了,下载量很可观。北大学术氛围浓厚,学生能力出色,是学术发展的理想摇篮;另外我们时刻铭记王选院士的事迹,他把学术成果应用到汉字排版这一实际问题上。他的研究思想可以被概括为“顶天立地”:“顶天”是说研究思路要有创新点,要跟别人不一样;但是同时,学术研究需要“落地”,需要有实际应用的场景,尤其是大数据系统这一方向。现在国家也提倡这一点:尤其在系统软件方面,我们存在卡脖子的现象,这时候学术成果落地就显得尤为重要。以北美的大学为例,如斯坦福、伯克利、CMU,它们研究计算机系统的论文数量其实并不是特别多。但是,它们有能力孵化出公司、以至于孵化出产业,这对国家的经济发展大有助力。这是偏应用学科的一大特点。
我现在的主要研究方向除了图数据库,还有知识图谱。它现在为什么这么火?因为它和目前两个最火的关键词都有关。第一个关键词是人工智能。它有两个分支:一个分支是连接主义——有点类似于神经元,通过参数的传递训练模型、进行预测。另一个更古老的分支叫知识工程,致力于将知识形式化表达。比如定义自行车,需要定义车座、两个圆形的轮子等等。那自行车跟汽车之间的区别是什么?前者是两个轮子,后者是四个轮子。知识工程用显式的方式把知识表达出来,而不像隐式的深度学习,人们并不知道计算机是如何做出判断的。对于知识工程而言,以前需要专家去写知识、写规则,所以可扩展性比较弱,费时费力。那么能不能通过现有的技术手段,从大数据当中把知识挖掘出来,比如从新闻中抽取“美国总统是谁”等这样的知识?我们所自然语言处理的一些新的进展使得这些成为可能。例如,自然语言处理基于深度学习的方法,可以有效迅速地抽取文本中的人与人之间的关系、人与地点的关系等等。这使得知识图谱的构建更加方便。同时另外一方面,大规模知识图谱构建好以后,反过来又能促进自然语言处理的很多技术的性能提高。由此,知识图谱与人工智能联系紧密,甚至有人说它是下一代人工智能当中最重要的技术之一。第二个关键词是大数据。如我刚才所言,知识图谱,走的是知识工程这条路——特别的,是大数据时代的知识工程,即知识库从大数据中建立,而不再由专家构建。举个例子,公安系统要构建一个人物之间的知识图谱。人物之间关系的数据,有可能在户籍里,也可能在出行行程里,也可能在通话关系里,因此涉及到从多元化、多媒体的数据中构建知识图谱。因此知识图谱数据的规模在不断扩大,如何构建面向海量知识图谱数据的大数据平台系统就成为了重要的研究方向。
另外,知识图谱有很强的交叉性质。不同领域的人,谈到知识图谱这个概念的时候,脑海里想的东西不一样。做自然语言处理的人,可能想如何从文本当中去构建知识图谱、做实体识别和信息抽取;做数据库的人,可能想图有大概几十亿条边,甚至有可能上百亿上千亿条边,如何进行存储、查询;做应用的人,如阿里巴巴的商品推荐,他会考虑商品和商品之间的关系、商品跟用户的关系等等。所以说,同样是做知识图谱,不同研究者的