威尼斯人娱乐场官方网站

学院新闻

百度AIG计算机视觉首席科学家王井东做客威尼斯人娱乐场官方网站 “高屋建瓴AI公开课”第15期
日期:2022-03-30访问量:

3月18日,百度AIG计算机视觉首席科学家王井东博士受威尼斯人娱乐场官方网站 准聘助理教授胡迪邀请做客“高屋建瓴AI公开课”。王老师以“Context Autoencoder for Scalable Self-Supervised Representation Pretraining”为题,围绕图像表征自监督学习(Self-supervised Learning)的动机、发展过程,以及基于MIM方法和基于contrastive learning方法之间的对比,结合最新研究进展做了精彩分享。

高屋建瓴1.png高屋建瓴2.png

王井东博士在讲座中首先介绍了团队最近研究方向和应用场景,包括自监督/半监督学习、图像预训练、图像-文本预训练,为大家展示了一些在计算机视觉领域未来可期的研究,并引入今天的主题——图像表征的自监督预训练。

王井东博士回顾了视觉领域的自监督表征学习。首先,基于对比学习的自监督表征学习希望来自于同一图像两个裁剪的互信息尽可能大,即有较高程度的对齐。王井东对基于对比学习的几种预训练模型做出了总结,尽管这些方法定义了不同的训练框架,但由于是对同一张图像做裁剪并进行对比学习,模型往往会关注到图像的中心,这一点在文章的对比实验和可视化中也可以进一步体现。

接着,王井东博士介绍了基于图像掩码的预训练,相比较于对比学习的自监督表征学习方式,基于图像掩码的训练可以更好的关注到图像的各个分块的信息,从而获得表征能力更强的空间。 然而,比较早期的基于掩码的预训练模型使用ViT既做编码又做解码,这样的设计可能造成其对图像的表征建模效果不好。这不禁引发思考,能否让模型的编码器只用于编码,而对掩码的部分单独做重建,即编码器、解码器各司其职呢?基于上述背景与问题,王井东重点介绍了团队近期工作《Context Autoencoder for Self-Supervised Representation Learning》,即上下文自动编码器 (CAE)。CAE将图像表征预训练模型对 “表征学习” 和 “图像重构” 的两个功能解耦,目的是希望在预训练时,编码器只负责表征学习,解码器只负责图像的重构,从而让编码器可以更好的对图像表征做建模。

最后,王井东博士通过对CAE的可视化分析和实验结果展示,证明了CAE在图像表征建模上的优越性:王井东博士展示了图像重构的可视化,结果显示当模型训练的过程中不使用对齐模块时,图像重构之后相当模糊,几乎不包含语义信息,相反当加入对齐模块之后,图像的重构效果非常好,与之对应的消融实验结果也可以印证这一观点。接下来,通过CAE在语义分割、目标检测和实例分割等下游任务上的出色表现,印证了CAE可以更好地关注在图像内每一部分的语义信息,做出更好的表征建模。

在问答环节,有听众提问是否可以利用在自然语言处理中大火的prompt(一种微调范式)方法在下游实验上做工作,从而更好地利用图像预训练模型呢?王井东解答道,使用prompt是一种很好的办法,但预训练本身是希望得到强大的、泛化能力强的编码器,我们也可以从训练方式的角度入手,直接在训练中建模更好的编码器。也有同学提出,基于对比学习的预训练模型在分类任务上表现稳定,但在面对分割问题时会不及基于图像掩码的模型,那么是否可以结合两者优势?王井东表示,两者不能说是完全分割的,其实都在探索语义的一致性。胡迪老师也补充道,在做图像处理的时候,两者会有出于相似目的的操作,这些都会对提升预训练模型的表现做出相应的贡献。

讲座最后,胡迪老师结合自己的研究方向与王井东博士进行了交流。此外胡老师提道,对于高校而言,如何在有限的机器资源下对大规模自监督训练做出探索是一个无法避免的挑战。两位老师就这一问题发表了各自的理解,认为高校可以在有限的计算资源下去探索一些更新颖、更有趣的课题。

检测到您当前使用浏览器版本过于老旧,会导致无法正常浏览网站;请您使用电脑里的其他浏览器如:360、QQ、搜狗浏览器的速模式浏览,或者使用谷歌、火狐等浏览器。

威尼斯人娱乐场官方网站 下载Firefox
威尼斯人娱乐场官方网站