享用纪念,LabComputer视觉团队

日期:2019-09-30编辑作者:威尼斯在线平台

原标题:福利 | AI 研习社大讲堂已逾 60 期!近期精彩 CV 分享回顾

AI 科技评论按:机器学习、人工智能领域的研究人员,以及任何学术研究人员,都关心这两件事:分享、传播自己的研究成果让更多人知道,以及了解自己研究方向的最新进展、结识更多的研究人员。雷锋网 AI 研习社大讲堂就是一个供研究人员们分享自己成果、促进广泛沟通互动的直播平台。

本文将深度解析本届CVPR热门研究。第一部分是五大前沿领域的重点文章解析,包括低中层视觉、图像描述生成、3D视觉、计算机视觉与机器学习、弱监督下的图像识别等。第二部分是CVPR及腾讯计算机视觉团队简介等。

自 AI 大讲堂去年 7 月上线以来, 已经有来自清华大学、北京大学、上海交通大学、香港科技大学、 MIT、UC Berkeley、悉尼科技大学等知名国内外高校的嘉宾进行直播分享,甚至还举办了线下论文分享会,迄今已完成了 68 期,覆盖影响读者过万人。不仅嘉宾自己的研究成果被直播观众以及读者们了解,也让科技爱好者们、学生们、其它研究人员们增进了对人工智能相关思维、知识、应用的认识,为国内人工智能长期持续发展的氛围出一份力。

腾讯AI Lab去年四月成立,今年是首次参展CVPR,共计六篇文章被录取(详情见文末),由计算机视觉总监刘威博士带队到现场交流学习。

人工智能相关的各个研究方向中,最为丰富也最为热门的当属计算机视觉(CV)了,其中的热门任务包括图像分类、对象检测、图像分割、图像生成、图像描述生成等等。下面我们汇总了近期(2018 年以来)9 期精彩的计算机视觉方向分享回顾。

威尼斯在线平台 1

  • 第 45 期,图像分割的经典算法。

威尼斯在线平台 2

腾讯AI Lab展台及CV科学家在Poster环节介绍论文

分享嘉宾:刘汉唐,浙江大学计算机系博士生。

从研究领域和前沿思考出发,我们重点关注了五大领域的前沿研究,以下为重点论文评述。

图像分割是计算机视觉中一个经典并且基础的问题,对于理解图像非常关键。图像分割有很多应用场景,比如无人驾驶、地图重建、图像美化等等。深度学习使得图像分割有了巨大的发展,本次分享会介绍深度学习中图像分割的经典算法。

一、低中层视觉问题

  • 第 50 期,基于强化学习的时间行为检测自适应模型。

Low-Level and Mid-Level Vision

在计算机视觉领域里,低中层视觉问题更关注原始视觉信号,与语义信息的联系相对松散,同时也是许多高层视觉问题的预处理步骤。本届CVPR有关低中层视觉问题的论文有很多,涵盖去模糊、超分辨率、物体分割、色彩恒定性(Color constancy)等多个方面,方法仍以深度学习为主。

分享嘉宾:黄靖佳,北京大学深圳研究生院信息工程学院二年级博士生。

其中在超分辨率有关的工作中,较为值得关注来自Twitter的Ledig等人所著文章[1]。这是第一篇将生成对抗网络(Generative Adversarial Network,简称GAN)思想用于图像超分辨率的研究(具体结构见下图)。以前的超分辨率方法,大都使用平均平方误差(Mean Square Error,简称MSE)导出的损失函数(loss)模糊,这是MSE本身设计问题导致的。

视频中的行为检测是当下的热点研究任务,该任务要求从一段未经修剪的(untrimmed)视频中找出目标行为发生的时间区间。由于目标行为可能发生的时间点以及目标行为的持续时间均是不确定的,使得在完成这项任务时往往需要花费大量的计算资源对不同时间尺度(长度),不同起点的视频片段进行判断。为了避免这种低效的检测方法,我们提出了一种可以自适应调整检测窗口大小及位置的方法,对视频进行高效的检测。

威尼斯在线平台 3

  • 第 58 期,基于课程学习的强化多标签图像分类算法。

[1]Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network. Ledig C, Theis L, Huszár F, et al. In Proceedings of CVPR 2017.

虽然后来阿斯利康DNA测序机构的Johnson与斯坦福大学的Alahi等人[2]在ECCV 2016时中提出使用Perceptual loss替代MSE loss,获得了细节更丰富的超分辨率结果,但仍然有进步的空间。而Ledig等人的这篇论文在Perceptual Loss基础上加入GAN loss,约束超分辨率结果需符合自然图像分布规律,使超分辨率结果获得了非常逼真的细节效果。此方法也并非全无缺点,由于GAN loss考虑的是自然图像的整体分布,与具体输入图像(即测试图像)无关,因此恢复的图像细节可能并不忠实于原图,类似「捏造」出假细节,因此不适用于一些追求细节真实性的应用。

分享嘉宾:何诗怡,北京大学计算机视觉硕士,优必选悉尼AI研究院学生。

威尼斯在线平台 4

与单标签图像分类相比,多标签图像分类是一种更符合真实世界客观规律的方法,尤其在图像和视频的语义标注,基于内容的图像检索等领域有着广泛的应用。因此,本次公开课,何诗怡将分享她用强化学习解决多标签图像分类问题的方法和经验

[2] Perceptual Losses for Real-Time Style Transfer and Super- Resolution. Johnson J, Alahi A, Fei-Fei L. In Proceedings of ECCV 2016.

  • 第 59 期,深度学习在点云分割中的应用。

使用GAN loss生成的结果(黄色方框)能够落在自然图像分布上(红色方框集合)。MSE loss虽能获得平均意义上的最小误差(蓝色方框),但却没落在自然图像分布上(红色方框的集合),因而丢失了很多图像细节。

未来,将GAN loss引入到视频超分辨率的解决方案中是一个很自然的扩展,相信很快会有研究工作出现。值得一提的是,Twitter的这批研究人员在本届CVPR还有一篇关于视频超分辨率的论文[3],虽未引入GAN Loss,但通过更好帧间对齐方法提升了视频超分辨率的可视化效果。

分享嘉宾:王薇月,南加州大学计算机系在读博士。

[3] Real-Time Video Super-Resolution with Spatio-Temporal Networks and Motion Compensation. Caballero J, Ledig C, Aitken A, et al. In Proceedings of CVPR 2017.

随着激光雷达,RGBD相机等3D传感器在机器人,无人驾驶领域的广泛应用,深度学习在三维点云数据的研究在近两年取得了广泛关注。点云分割、识别、检测成为学术界、工业界的热门话题之一。是在本次公开课中,讲者将分享其关于点云分割的最新工作。

二、图像/视频描述生成

  • 第 60 期,基于残差密集网络的图像超分辨率 (CVPR 2018 亮点论文)。

Image or Video Captioning

粗略统计,本届CVPR有16篇视觉描述生成相关论文,其中有8篇图像描述生成相关论文,其他论文多集中在视频描述生成方向。我们重点关注了其中几个较有代表性的研究:

分享嘉宾:张宇伦,美国东北大学计算机工程在读博士,Adobe 公司深度学习研究实习生

1)SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning

图像超分辨率技术作为底层计算机视觉任务,有着广泛的应用场景,比如:手机图像增强,视频监控,医疗影像,卫星图像,低分辨率人脸识别。因此,图像超分辨率技术吸引了众多来自学术界与工业界的研究兴趣。但是,当前图像超分辨率技术仍然面临一些难题,比如,对高放大倍数的图像超分辨,难以恢复丢失的细节;对已经恢复出的细节,也有着模糊等效应,其质量有待提升。因此,本次公开课,张宇伦同学设计一种新的网络结构,得到更强的表达能力,不仅将之前方法难以恢复的细节恢复出来了,而且,结果更清晰。最终,在不同图像退化模型下都达到了当前较好的结果。

这篇论文由腾讯AI Lab和浙江大学等机构合作完成,主要讨论了视觉注意力模型在空间与通道上的作用。该模型能动态提取随时间变化的上下文注意力信息。传统的注意力模型通常是针对空间设计的,例如在产生图像的描述的过程中,模型的注意力模型会注意图像的不同区域。但会忽略CNN中的通道和多层中的信息。这篇论文提出了一个全新模型SCA-CNN,可针对CNN中的空间和通道信息设计新的注意力模型。在图像描述生成任务中,该模型表现出了良好性能。

  • 第 61 期,网格曲面的神经网络 (CVPR 2018 oral: Surface Networks)。

威尼斯在线平台 5

2)Self-Critical Sequence Training for Image Captioning

分享嘉宾:姜仲石,纽约大学科朗数学研究所(NYU Courant) 二年级博士生。

IBM Watson研究院发表的这篇论文直接优化了CIDEr评价标准(Consensus-based image description evaluation)。由于此目标函数不可微,论文中借鉴基础的强化学习算法REINFORCE 来训练网络。 该文提出了一个新的算法SCST(Self-critical Sequence Training),将贪婪搜索(Greedy Search )结果作为 REINFORCE 算法中的基线(Baseline),而不需要用另一个网络来估计基线的值。这样的基线设置会迫使采样结果能接近贪婪搜索结果。在测试阶段,可直接用贪婪搜索产生图像描述,而不需要更费时的集束搜索(又名定向搜索,Beam Search)。

网格是几何数据的常用高效表示, 在几何曲面构建的机器学习方法对计算机图形学,3D计算机视觉以及几何分析和处理有着重要的意义。

除了SCST,此论文也改进了传统编码器-解码器框架中的解码器单元,基于Maxout网络,作者改进了LSTM及带注意力机制的LSTM。综合这两个改进,作者提出的方法在微软的图像描述挑战赛MS COCO Captioning Challenge占据榜首长达五个月,但目前已被其他方法超越。

  • 第 63 期,任中正:利用合成数据的跨领域的多任务视觉特征学习。

3)Deep Reinforcement Learning-based Image Captioning with Embedding Reward

由Snapchat与谷歌合作的这篇论文也使用强化学习训练图像描述生成网络,并采用Actor-critic框架。此论文通过一个策略网络(Policy Network)和价值网络(Value Network)相互协作产生相应图像描述语句。策略网络评估当前状态产生下一个单词分布,价值网络评价在当前状态下全局可能的扩展结果。这篇论文没有用CIDEr或BLEU指标作为目标函数,而是用新的视觉语义嵌入定义的Reward,该奖励由另一个基于神经网络的模型完成,能衡量图像和已产生文本间的相似度。在MS COCO数据集上取得了不错效果。

分享嘉宾:任中正,现UIUC攻读计算机博士。

威尼斯在线平台 6

现在的神经网络可以通过监督学习学到很好的迁移学习本领,然而却需要百万级别的手工标注数据。自监督(self-supervised)任务就是一种为了取代标注数据的方式。 然而已有的自监督方法大部分是单任务,导致模型容易在这个任务上过拟合。任博士分享了用合成数据做多任务特征学习的工作,以及如何使用domain adaptation来让学到的特征更好的迁移到真实世界的视觉任务上。

4)Knowing When to Look: Adaptive Attention via a Visual Sentinel for Image Captioning

  • 第 64 期,Direction-aware Spatial Context Features for Shadow Detection。

弗吉尼亚理工大学和乔治亚理工大学合作的这篇论文主要讨论自适应的注意力机制在图像描述生成中的应用。在产生描述语句的过程中,对某些特定单词,如the或of等,不需要参考图像信息;对一些词组中的单词,用语言模型就能很好产生相应单词。因此该文提出了带有视觉哨卡(Visual Sentinel)的自适应注意力模型,在产生每一个单词的时,由注意力模型决定是注意图像数据还是视觉哨卡。

威尼斯在线平台 7

威尼斯在线平台 ,分享嘉宾:胡枭玮,香港中文大学二年级博士生。

在图像描述生成方面,本届CVPR还有很多其他方面的研究工作。包括在《Incorporating Copying Mechanism in Image Captioning for Learning Novel Objects》中,微软亚洲研究院将复制功能(Copying Mechanism)引入图像描述生成学习新物体,《Attend to You: Personalized Image Captioning With Context Sequence Memory Networks》一文用记忆网络(Memory Network)来定制个性化的图像描述生成。

阴影检测是计算机视觉中基础并富有挑战性的问题。检测阴影区域,为进一步获取图像中的光照情况、物体的形状与位置,以及摄像机的参数提供了可能,同时阴影的存在为目标的检测与跟踪带来了障碍。检测阴影区域需要理解图像全局的语义信息,本文提出通过方向性地分析图像空间上下文信息来理解阴影,同时设计了DSC模型用于检测、去除阴影,并在两个阴影检测数据集以及两个阴影去除数据集上都达到了顶尖的性能。这篇论文已被CVPR 2018收录,并做口头报告(Oral)。

近年来,由于视频数据大大丰富,也有一系列的工作讨论视频描述生成,包括复旦大学与英特尔合作的《Weakly Supervised Dense Video Captioning》,和杜克大学与微软合作的《Semantic Compositional Networks for Visual Captioning》等。

  • 第 68 期,室内场景的结构化重建。

三、3D计算机视觉

3D Computer Vision

分享嘉宾:刘晨,圣路易斯华盛顿大学计算机系在读博士。

近年来,3D计算机视觉快速发展,被广泛应用在无人驾驶、AR或VR等领域。在本届CVPR,该研究方向亦受到广泛关注,并体现出两大特点:一方面其在传统多视图几何如三维重建等问题上有所突破,另一方面它也和现今研究热点,如深度强化学习等领域紧密结合。我们将对以下两个方向做进一步介绍:

随着增强现实,家务机器人等应用的普及,室内场景重建研究正在得到越来越广泛的关注。与传统底层密集重建方法不同,讲者的研究集中在分析重建场景中的高层结构化信息。在本次公开课中,讲者将分享其结构化重建的最新工作。返回搜狐,查看更多

1) Exploiting Symmetry and/or Manhattan Properties for 3D Object Structure Estimation From Single and Multiple Images

责任编辑:

这篇论文为腾讯AI Lab、约翰霍普金斯大学及加州大学洛杉矶分校合作发表,作者主要讨论从二维图像中进行人造物体(如汽车、飞机等)的三维结构重建问题。事实上,绝大多数人造物体都有对称性以及曼哈顿结构,后者表示我们可以很容易在欲重建的人造物体上找到三个两两垂直的轴。如在汽车上,这三个轴可为两个前轮、两个左轮及门框边缘。作者首先讨论了基于单张图片的物体三维结构重建,并证明了仅用曼哈顿结构信息即可恢复图像的摄像机矩阵;然后结合对称性约束,可唯一地重建物体的三维结构,部分结果如下图所示。

威尼斯在线平台 8

然而,在单张图像重建中,遮挡和噪声等因素会对重建结果造成很大影响。所以论文后半部分转到了多张图像基于运动恢复结构(Structure from Motion, 简称SfM)及对称信息的物体三维重建中。事实上,SfM算法涉及到对二维特征点进行矩阵分解,而添加对称性约束后,我们并不能直接对两个对称的二维特征点矩阵直接进行矩阵分解,因为这样不能保证矩阵分解得到同样的摄像机矩阵以及对称的三维特征点坐标。在文章中,作者通过进一步利用对称性信息进行坐标轴旋转解决了这个问题。实验证明,该方法的物体三维结构重建及摄像机角度估计均超出了之前的最好结果。

2) PoseAgent: Budget-Constrained 6D Object Pose Estimation via Reinforcement Learning

本文由德国德累斯顿工业大学(TU Dresden)与微软联合发表,主要通过强化学习估计物体6D姿态。传统姿态估计系统首先对物体姿态生成一个姿态假设池(a Pool of Pose Hypotheses),接着通过一个预先训练好的卷积神经网络计算假设池中所有姿态假设得分,然后选出假设池中的一个姿态假设子集,作为新假设池进行Refine。以上过程迭代,最后返回得分最高的假设姿态作为姿态估计的结果。

但传统方法对姿态假设池Refinement的步骤非常耗时,如何选择一个较好姿态假设子集作为姿态假设池就变得尤为重要。本文作者提出了一同基于策略梯度的强化学习算法来解决这个问题。该强化学习算法通过一个不可微的奖励函数来训练一个Agent,使其选取较好的姿态假设,而不是对姿态假设池中的所有姿态进行Refine。

威尼斯在线平台 9

强化学习的步骤如上图所示。首先给强化学习Agent输入一个较大初始姿态假设池,然后该Agent通过对其策略采样,选择一个新的强化学习池,并对其进行Refine。上述过程达到一定次数后,最后求得的姿态假设池中得分最高的姿态假设即为所求得姿态。实验表明该方法在大大提高运行速度时,还得到超出此前最佳算法的估计结果。

四、计算机视觉与机器学习

Computer Vision & Machine Learning

计算机视觉与机器学习历来联系紧密,随着深度学习近年来在视觉领域取得的空前成功,机器学习更是受到更广泛的重视。作为机器学习一个分支,深度学习依然是计算机视觉领域绝对主流。但与前几年不同的是,纯粹用深度学习模型「单打独斗」解决某个视觉问题似乎不再流行。

从近两届CVPR论文看,深度学习模型与其它传统的机器学习分支模型的融合渐成趋势,既利用深度学习模型的优异性能,又利用传统模型的成熟理论基础,取长补短,进一步提高性能并增加了深度学习模型透明度。本届CVPR上这种融合趋势可分为两个具体方向:一个是传统机器学习模型方法与深度学习模型深度融合,让后者能设计更好模型;另一个是用传统机器学习理论解释或阐述深度学习模型性能。我们关注到相关的重点论文如下:

1、传统机器学习模型方法与深度学习模型深度融合

1)On Compressing Deep Models by Low Rank and Sparse Decomposition

矩阵的低秩稀疏分解是经典机器学习方法,假设一个大规模矩阵可分解为两个或多个低维度矩阵的乘积与一个稀疏矩阵的和,从而大大降低原矩阵表示元素个数。在这篇由优必选悉尼AI研究所、新加坡理工大学和悉尼大学共同完成的论文中,该方法被用来模拟深度学习的滤波参数矩阵,在保证模型性能同时,大大降低了参数个数,这对深度学习模型的进一步推广,尤其是智能手机端应用会有很大推动作用。类似文章还有杜克大学的这篇[1]。

威尼斯在线平台 10

[1] A compact DNN: approaching GoogLeNet-Level accuracy of classification and domain adaptation

2)Unsupervised Pixel–Level Domain Adaptation with Generative Adversarial Networks

领域自适应(Domain Adaptation)是迁移学习(Transfer Learning)的一种,思路是将不同领域(如两个不同的数据集)的数据特征映射到同一个特征空间,这样可利用其它领域数据来增强目标领域训练。深度学习模型训练需要大规模数据,这篇由谷歌发表的文章,提出的思路是对真实物体进行渲染(Rendering),制造大量人造渲染图像,从而帮助深度学习模型训练。

然而,渲染图像与真实图像之间有很大差异(比如背景差异),直接用渲染图像训练得到的深度学习模型并没有产生很好识别性能。本文将渲染图像和真实图像看作两个领域,并结合当前流行的生成对抗网络修正渲染图像,得到更加贴近真实图像的渲染图像(如下图所示:加上类似的背景)。最后再利用这些修正后的渲染图像训练深度学习模型,取得了很好效果。

威尼斯在线平台 11

本文由威尼斯在线平台发布于威尼斯在线平台,转载请注明出处:享用纪念,LabComputer视觉团队

关键词:

威尼斯在线平台席卷欧洲,学术论文必须开放免

原标题:开放获取“S计划”席卷欧洲,誓要打破“付费墙”! 原标题:学术论文必须开放免费获取!欧洲11国研究资...

详细>>

区块链和物联网将在未来五到十年内达到成熟,

1、民主化人工智能 概括来说,AI普惠化是指基于AI平台即服务、人工通用智能、自动驾驶、自动移动机器人、AI会话平...

详细>>

威尼斯在线平台两分钟看透人类轮子进化史,为

原标题:两分钟看透人类轮子进化史 技术是人类体验的核心组成部分,从一开始,我们就一直在创造工具来帮助我们...

详细>>

等离子激元复合纳米质地商讨新进展,嵌段共聚

原标题:磁性/等离子激元复合纳米材料研究新进展,或可用于信息加密及传感 具有高度各向异性光电子性质的一维纳...

详细>>