旷视张祥雨从基础科研的大和统一,

机器之心报道

机器之心编辑部

在MegTech上,旷视研究院基础科研负责人张祥雨表示:“大”和“统一”是视觉AI基础研究的新趋势。

基础模型科研是AI创新突破的基石,每一代基础模型的突破都极大程度地促进了视觉AI的发展。7月15日,旷视技术开放日(MegTech)在京举行,旷视研究院基础科研负责人张祥雨在会上分享了他对基础模型科研的深入思考及基础模型组的最新科研成果。

张祥雨表示,「“大”和“统一”是当今视觉AI基础研究的新趋势。同时,“在致力于解决人工智能最本质难题的道路上,旷视将秉持原创、实用和本质的科研价值观,重点深耕通用图像大模型、视频理解大模型等四个主要方向。」

旷视研究院基础科研负责人张祥雨在旷视技术开放日上发表演讲

发挥“大”的威力,推进大模型、大算法与大应用协同发展

“大”主要指AI大模型,即利用大数据、大算力和大参数量,提高模型的表达能力,使得AI模型能够适用于多种任务、多种数据和多种应用场景。张祥雨指出,「“大”是提高AI系统性能的最重要捷径之一。这主要是因为,AI视觉系统通常要面对复杂的应用场景和多种任务,提高模型性能的最直接途径就是提高模型本身的表达能力,也就是所谓的“大”。」

但在做“大”的过程中,随着模型参数量和数据量的增多,边际效应递减情形却时有发生。如张祥雨所言,“大并不一定代表着好,更大的模型会带来更大的计算开销,我们的收益将会非常有限。”换言之,片面追求大参数量、大计算量和大数据量,并不一定能够得到性能更强的模型。视觉AI基础研究不仅需往“大”的方向努力,更要让“大”模型的优势能发挥出来,这是当今AI视觉研究主要的趋势和挑战之一。

AI视觉研究面对着如何让“大”模型优势发挥出来的挑战

为此,旷视以创新算法充分发挥大数据、大算力威力,持续拓展AI认知边界,重新定义“大”的内涵:即大模型、大算法与大应用。

大模型。要研究的不仅是如何实现“大”,更重要的是如何发挥大模型背后的威力;

大算法。大模型需要大量基础设施、算法、算力做支持,要成功地将这些大模型、大算法、大算力及大数据整合起来,就要求研究者提出创新算法以充分发挥大模型的作用;

大应用。大模型做出来以后,究竟能干什么?如何提高AI模型的生产效率?提高模型性能?

“统一”AI系统设计,打造简单、强大、通用系统

近年来,包括基础模型研发、视觉基础应用、AI算法演化等在内的研究领域都衍生出一系列算法,而这些算法正在底层走向统一。例如,在基础模型方面,过去有各种各样的CNN和ViT被提出来。但近年的研究表明,通过特定的优化算法能够在训练过程中增加先验,使得CNN、ViT、MLP都取得相似的性能,这就为“统一”AI系统设计奠定了基础。

“统一”的好处是显而易见的。如果能用统一算法、统一模型来表示和建模各种数据、各种任务,研究界将可以得到简单、强大且通用的系统。张祥雨解释称,「一旦模型统一,AI加速器的设计就会非常简单,一个模型可以适用于各种设备和各种任务,这可以极大地节省模型适配成本,且硬件计算平台厂商只用支持少量算子就能把大部分任务跑起来。」

但实现“统一”的挑战亦是显著的。比如,要实现在多个任务上共享一个模型、一个算法,就必须加深对系统及模型的认识以抽象出共性,才能使“统一”模型达到专为所有系统单独设计的模型所具有的性能。

为此,旷视认为“统一”AI系统设计要从以下三方面着手:

要统一架构。主要是指基础模型架构,也包括基本的计算架构;

要统一算法。用尽可能统一的算法来支持各种任务、数据和平台,从纷繁的AI调参中解放出来;

要统一认知。唯有从算法中抽取共性,理解本质,才能构建统一的、高性能的视觉AI系统。

立足四大重点方向,旷视秉持原创、实用与本质科研价值观

基于“大”和“统一”是当今视觉AI基础研究新趋势的判断,张祥雨在演讲中指出,旷视基础模型科研工作重点



转载请注明地址:http://www.shanghaibinbei.com/kflw/14059.html
  • 上一篇文章:
  • 下一篇文章: