CVPR2021竞赛结果出炉,阿里淘系多媒体算法包揽3项国际冠军_阿里巴巴淘系技术团队官网博客的博客-程序员宅基地

技术标签: 算法  计算机视觉  深度学习  人工智能  大数据  

在刚刚落下帷幕的计算机视觉与模式识别领域顶级会议 CVPR 2021 上,各项国际挑战赛的竞赛结果已全部揭晓。


阿里巴巴淘系技术多媒体算法&视频内容理解算法团队,一举斩获

???? 3 项国际冠军 ????

???? 1 项国际亚军 ????

???? 1 项国际季军 ????

技术域包括图像描述生成、大规模实例级物体识别、多模态视频情感理解以及视频人物交互关系。

作为业界多媒体算法相关领域的领先团队,淘系技术的这支队伍着眼打造“端云一体、跨模态理解”的视频内容感知与理解算法平台;重点构建AR直播、3D数字场、内容智能生产、审核、检索和高层语义理解等技术领域;支持着淘宝直播、逛逛、点淘等淘系内容业务,通过自研的内容中台为整个阿里集团的内容业务提供能力支持。

以下是本次3项国际冠军的竞赛内容详情&我们的攻克方法。

???? 冠军 ????

VizWiz Image Captioning

  题目

Workshop:CVPR 2021 VizWiz Grand Challenge Workshop

TRACK:Image Captioning

  参赛者

宏黎,宏吉,咏亮,玉琦,少麟,定人

  技术领域

图像描述生成

  比赛背景介绍

VizWiz Grand Challenge比赛从2018年开始举办,旨在利用计算机视觉技术帮助有视觉障碍的盲人“看见”世界。

该任务的输入是由盲人拍摄的图像,输出是图像的描述。 

与其他Image Caption数据不同,该比赛的数据是由视觉有障碍的盲人拍摄,图像质量比较差,因此任务难度更高。

  我们的成绩

我们以 CIDEr-D score 94.06的成绩取得第一名,远超第2名的 CIDEr-D score 71.98。

总分也超过去年冠军 IBM 的CIDEr-D score 81.04。

  任务难点

该任务主要有两个难点:

  1. 图像质量较差:含各种室内、室外的场景,同时由于拍摄者视觉障碍,拍摄图像会出现失焦模糊、拍摄不全、遮挡等问题;

  2. 许多图像描述需要理解图像中的文字,不同物体,颜色等信息,需要OCR,物体检测等细节理解能力。

  我们通过以下途径解决这些困难


  1. 针对VizWiz数据图像特性,采用swin-transformer抽取图像的grid feature替换object feature,以充分表征不同图像区域的特性;

  2. 考虑到OCR及物体信息会对image caption生成产生正向引导,我们抽取了OCR及目标检测类别信息,作为特征补充;

  3. 并不是所有的图像都含有OCR信息,我们采用多种模型互补融合,用视觉模态模型强化那些不含OCR的数据,用视觉+文本(OCR+物体类别)多模态模型强化含有OCR信息较丰富的数据;

  4. 针对多种模型生成的结果,考虑到最终的衡量指标是CIDEr,我们通过self-cider、ocr maximization 多种策略融合的方式进行结果融合。

  可应用的场景

Image captioning需要视觉理解与文本生成,是视觉和NLP任务的结合,可应用于互联网产品的内容标题自动生成,另外也可以帮助盲人和视觉受损用户提升他们对世界的感知能力。

  赛事链接

  1. workshop:

    https://vizwiz.org/workshops/2021-workshop/  

  2. challenge:

    https://eval.ai/web/challenges/challenge-page/739/overview

???? 冠军 ????

Herbarium 2021 - Half-Earth Challenge

  题目

Workshop:The Eight Workshop on Fine-Grained Visual Categorization

Task:fine-grained plant species identification

  参赛者

元年,兰枻,琉潇,有邻,暖雨,济宇,篱悠

  技术领域

大规模实例级物体识别

  比赛背景介绍

Herbarium 2021属于 CVPR2021 FGVC8 workshop的一项比赛,该workshop针对实例级细粒度识别问题,已经连续举办第八届。

Herbarium 2021 比赛数据集为从多个大型植物园收集的美洲、大洋洲等半个地球的6.5W类2.5M张植物样本图片,用于训练植物识别算法,辅助植物学家进行植物识别,发现和保护新物种。

该数据集存在长尾分布,样本数目最少的类别仅有3张样本,同时,不同植物间视觉非常相似,同时同一植物的不同样本有较大差异,给实例级识别带来很大挑战。

  我们的成绩

我们以F1 score 0.757的成绩在该项比赛上取得了第一名的成绩,远超第二名的0.735和第三名的 0.689。

  任务难点

该任务主要存在以下两个难点:

  1. 植物种类多、类别细,不同植物间视觉非常相似,而同一植物的不同样本存在差异,导致类间易混淆,区分难度大;

  2. 数据集的样本分布不均衡,存在长尾分布,样本数目最少的类别仅有3张样本,如何提升长尾类别准确率至关重要。

  我们通过以下途径解决这些困难

将自然场景中实例级植物识别问题转换成大规模细粒度特征表达问题,提出self-attention pooling进行局部特征增强提升特征表达能力;通过引入Imbalanced Sampler和自适应类别loss解决类别分布不平衡问题;此外,基于混合精度的大规模多机多卡训练能力,实现近三百万数据规模下的快速迭代能力。

实现高效万级在线难样本挖掘,极大提升了特征在复杂场景下的泛化能力。最终凭借领先亚军2.2%的优势,一举获得冠军。

  可应用的场景

实例级的细粒度识别技术可辨别物体间细微的视觉差异从而实现精细的物体识别,广泛应用于商品识别、动植物识别、行人识别、地标识别等领域。

  赛事链接

  1. Workshop:

    https://sites.google.com/view/fgvc8/home                               

  2. Challenge:

    https://sites.google.com/view/fgvc8/competitions/herbariumchallenge2021  

  3. Kaggle leadboard:

    https://www.kaggle.com/c/herbarium-2021-fgvc8/leaderboard

???? 冠军 ????

ActivityNet Home Action Genome Challenge

  题目

Workshop:International Challenge on Activity Recognition

Task:Home Action Genome Challenge

  参赛者

少麟,廖越(北航),咏亮,叶盈,篱悠,刘偲(北航)

  技术领域

视频人物交互关系

  比赛背景介绍


Home Action Genome Challenge今年首次在CVPR2021 ActivityNet Workshop举办, 由斯坦福大学李飞飞教授课题组主办,比赛提供了一个大规模多视角的视频数据集,通过多模态视频分析,检测视频中存在的人物交互关系。

  我们的成绩

我们以准确率76.5%的成绩在该项比赛上取得了第一名的成绩,大幅领先第二名的68.4%和第三名的65.7%。

Home Action Genome Challenge 获奖证书

  任务难点

该任务主要有3个难点:

  1. 数据集的日常家居场景复杂,人体和物体的目标检测难度大

  2. 人物关系包含动作关系和空间关系,关注不同的视觉特征

  3. 每一组人体和物体都存在多个人物关系,评估时必须完全正确才计一次正确

  我们通过以下途径解决这些困难

  1. 采用更好的检测模型:我们采用Swin-Transformer和ResNeSt为backbone的性能SOTA的检测模型,并通过多种数据增强策略训练和多尺度融合推理,提升目标检测的准确率。

  2. 强化人物关系的视觉特征:我们设计了融合两阶段和一阶段关系检测网络的方案,首先将Swin-Transformer融入两阶段关系检测网络进行端到端训练,然后改进一阶段关系检测网络,直接提取<人,物>二元组,再通过cascade结构判定关系,给出<人,物,关系>三元组。策略上,我们通过视觉特征判定动作关系,空间位置作为输入辅助判定空间关系。

  3. 基于统计偏置的生成策略:我们在生成最终的人物交互关系组时,采用了融合<人,物,关系>三者共生概率和统计偏置加权的多种策略。

  可应用的场景

视频人物交互关系检测,检测视频中动态的<人,物,关系>的结构化信息,未来可应用于视频信息结构化,人机交互等应用场景。

  赛事链接


  1. Challenge:

    https://homeactiongenome.org/results.html

  2. Workshop:

    http://activity-net.org/challenges/2021/challenge.html


除上述3项冠军以外,我们也在 Hotel-ID 2021-Hotel Recognition Challenge 比赛中取得第二名,以及在 Evoked Expressions from Videos (EEV) Challenge 比赛中取得第三名的好成绩,在多媒体算法领域内排名前列。

淘系技术多媒体算法参赛团队表示:“随着视频流量在媒体表征方面占比越来越高,视频信息对个人和平台而言,都存在信息过载的问题。视频内容的多维度结构化表示将会是视觉领域的热点研究方向之一。未来我们也会融合文本、语音和视觉等多模态的信息做好视频内容理解,让用户可以更多看到自己喜欢的内容,降低用户信息选择的时间成本,为用户带来更好的视觉体验。”

✿  拓展阅读

作者|淘系技术

编辑|橙子君

出品|阿里巴巴新零售淘系技术

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/Taobaojishu/article/details/118401275

智能推荐

RMQ区间最值问题_July1101的博客-程序员宅基地

RMQ区间最值问题问题描述基本思想1区间询问2区间长度询问总结问题描述RMQ ( Range Minimum / Maximum Query ) 问题是指:对于长度为 n 的数列 A,回答若干询问 RMQ (A , i , j ) ( i , j ≤ n),返回数列A中下标在 i , j 里的最小(大)值,也就是说,RMQ问题是指求区间最值的问题。PIPI1475题:http://pipioj.online/problem.php?id=1475基本思想这类题有两种问法1区间询问给定区间[l,

L1-051. 打折 C++_Zero_979的博客-程序员宅基地

题目地址:https://www.patest.cn/contests/gplt/L1-051题目:去商场淘打折商品时,计算打折以后的价钱是件颇费脑子的事情。例如原价 ¥988,标明打 7 折,则折扣价应该是 ¥988 x 70% = ¥691.60。本题就请你写个程序替客户计算折扣价。输入格式:输入在一行中给出商品的原价(不超过1万元的正整数)和折扣(为[1, 9]区间内的整数),其间以空格分隔...

【8.0】数学建模 | 图论最短路径问题详解_Cohen_ina的博客-程序员宅基地_数学建模最短路径模型

前言本篇文章主要学习图论中的最短路径问题,根据图的不同,主要学习两种不同的算法,分别是迪杰斯特拉Dijkstra算法和Bellman-Ford(贝尔曼-福特)算法Matlab作图代码%% Matlab作无向图% (1)无权重(每条边的权重默认为1)% 函数graph(s,t):可在 s 和 t 中的对应节点之间创建边,并生成一个图% s 和 t 都必须具有相同的元素数;这些节点必须都是从1开始的正整数,或都是字符串元胞数组。s1 = [1,2,3,4];t1 = [2,3,1,1];G1

oracle卸载ogg,OGG-卸载_矢锋的博客-程序员宅基地

1.停止所有进程stop *stop mgr2.删除OGG目录rm -rf /u01/app/oracle/ogg3.删除用户,触发器删除触发器drop trigger ggs_ddl_trigger_before;https://www.cndba.cn/Expect-le/article/2915https://www.cndba.cn/Expect-le/article/2915删除用户dr...

PHP 使用 phpmailer 发送电子邮件_LifeZealot的博客-程序员宅基地_php phpmailer/phpmailer/src/smtp.php line 389

来源:https://www.runoob.com/w3cnote/php-phpmailer.html参考上面链接的教程就可以实现了,但如果通过非composer方式安装,可能会出现下面问题。Parse error:syntax error,unexoected ‘use’ (T_USE) in …Fatal error:Class ‘PHPMailer’ not found in ...

itoa() 函数和 atoi() 函数_Tanner_SL的博客-程序员宅基地

 atoi() 函数原型:int atoi (const char * str);功能:将字符串转化成int型整数参数:将要转化成整数的字符串返回值:返回转化成int型的整数值itoa() 函数原型:char *  itoa ( int value, char * buffer, int radix );功能:将整数转化成字符串value:是要转换的数字buff...

随便推点

微信小程序 实现背景色渐变(css实现)_Jxufe渣渣斯的博客-程序员宅基地_微信小程序渐变背景

参考链接:(1)微信小程序用CSS(.wxss)设置背景颜色渐变的方法https://blog.csdn.net/qq15577969/article/details/102662424(1)核心代码-webkit-linear-gradient()(2)app.wxss/**app.wxss**/page { background: -webkit-linear-gradient(top,rgb(244,157,4),#FACF94,white);}参数值描述

公有云和私有云的主要区别在哪里,公有云会不会带来隐私泄露的问题?_NicolasLearner的博客-程序员宅基地_私有企业云服务是否会泄露信息

云计算(cloud computing),是一种基于互联网的计算方式,通过这种方式,共享的软件、硬件资源和信息可以按需提供给计算机和其他设备。简单来说,它有点像架设在互联网上的分布式系统,终端用户使用PC或者手机,发起一项计算任务,分布在云端的计算单元可以同时参与计算,最终将计算结果返回给终端用户。从用户端的使用感受来看,就好像只使用了一台普通PC甚至是手机完成了一项需要超级计算机才能完成的计算任务。目前市面上主要的服务形式有三种:SaaS 软件即服务,它是用户通过Internet租用服务商基于w

阿里云中通过docker-compose 创建 MySQL 外部无法连接_新垣不结衣的博客-程序员宅基地

在阿里云服务器上通过docker-compose 创建 MySQL 外部无法连接,进入容器内部通过命令可以连接,查看进程运行也正常,外部通过各种连接工具都无法进行连接,百度了半个小时,发现同样的问题有很多种解决方法,我的报错信息是通过SQLyog连接的时候报“2003“异常docker-compose.ymlversion: '3.1'services: db: image: mysql restart: always environment: MYSQL_R

centos 7 网络设置_a13925565657的博客-程序员宅基地

今天安装完带图形界面的CentOS 7后,在Terminal中运行yum安装命令时报了以下错误:?123456789101112131415161718192021222324252627Could not retrieve mirr...

决策树问题汇总_Seven_0507的博客-程序员宅基地_决策树常见问题

文章目录1. 决策树如何剪枝?ID3、C4.5和CART三种决策树的区别?1. 决策树如何剪枝?(1)前剪枝( Pre-Pruning)前剪枝原则有:a.节点达到完全纯度;b.树的深度达到用户所要的深度;c.节点中样本个数少于用户指定个数;d.不纯度指标下降的最大幅度小于用户指定的幅度。(2) 后剪枝( Post-Pruning)首先构造完整的决策树,允许决策树过度拟...

推荐文章

热门文章

相关标签