在刚刚落下帷幕的计算机视觉与模式识别领域顶级会议 CVPR 2021 上,各项国际挑战赛的竞赛结果已全部揭晓。
阿里巴巴淘系技术多媒体算法&视频内容理解算法团队,一举斩获
???? 3 项国际冠军 ????
???? 1 项国际亚军 ????
???? 1 项国际季军 ????
技术域包括图像描述生成、大规模实例级物体识别、多模态视频情感理解以及视频人物交互关系。
作为业界多媒体算法相关领域的领先团队,淘系技术的这支队伍着眼打造“端云一体、跨模态理解”的视频内容感知与理解算法平台;重点构建AR直播、3D数字场、内容智能生产、审核、检索和高层语义理解等技术领域;支持着淘宝直播、逛逛、点淘等淘系内容业务,通过自研的内容中台为整个阿里集团的内容业务提供能力支持。
以下是本次3项国际冠军的竞赛内容详情&我们的攻克方法。
???? 冠军 ????
VizWiz Image Captioning
Workshop:CVPR 2021 VizWiz Grand Challenge Workshop
TRACK:Image Captioning
宏黎,宏吉,咏亮,玉琦,少麟,定人
图像描述生成
VizWiz Grand Challenge比赛从2018年开始举办,旨在利用计算机视觉技术帮助有视觉障碍的盲人“看见”世界。
该任务的输入是由盲人拍摄的图像,输出是图像的描述。
与其他Image Caption数据不同,该比赛的数据是由视觉有障碍的盲人拍摄,图像质量比较差,因此任务难度更高。
我们以 CIDEr-D score 94.06的成绩取得第一名,远超第2名的 CIDEr-D score 71.98。
总分也超过去年冠军 IBM 的CIDEr-D score 81.04。
该任务主要有两个难点:
图像质量较差:含各种室内、室外的场景,同时由于拍摄者视觉障碍,拍摄图像会出现失焦模糊、拍摄不全、遮挡等问题;
许多图像描述需要理解图像中的文字,不同物体,颜色等信息,需要OCR,物体检测等细节理解能力。
针对VizWiz数据图像特性,采用swin-transformer抽取图像的grid feature替换object feature,以充分表征不同图像区域的特性;
考虑到OCR及物体信息会对image caption生成产生正向引导,我们抽取了OCR及目标检测类别信息,作为特征补充;
并不是所有的图像都含有OCR信息,我们采用多种模型互补融合,用视觉模态模型强化那些不含OCR的数据,用视觉+文本(OCR+物体类别)多模态模型强化含有OCR信息较丰富的数据;
针对多种模型生成的结果,考虑到最终的衡量指标是CIDEr,我们通过self-cider、ocr maximization 多种策略融合的方式进行结果融合。
Image captioning需要视觉理解与文本生成,是视觉和NLP任务的结合,可应用于互联网产品的内容标题自动生成,另外也可以帮助盲人和视觉受损用户提升他们对世界的感知能力。
workshop:
https://vizwiz.org/workshops/2021-workshop/
challenge:
https://eval.ai/web/challenges/challenge-page/739/overview
???? 冠军 ????
Herbarium 2021 - Half-Earth Challenge
Workshop:The Eight Workshop on Fine-Grained Visual Categorization
Task:fine-grained plant species identification
元年,兰枻,琉潇,有邻,暖雨,济宇,篱悠
大规模实例级物体识别
Herbarium 2021属于 CVPR2021 FGVC8 workshop的一项比赛,该workshop针对实例级细粒度识别问题,已经连续举办第八届。
Herbarium 2021 比赛数据集为从多个大型植物园收集的美洲、大洋洲等半个地球的6.5W类2.5M张植物样本图片,用于训练植物识别算法,辅助植物学家进行植物识别,发现和保护新物种。
该数据集存在长尾分布,样本数目最少的类别仅有3张样本,同时,不同植物间视觉非常相似,同时同一植物的不同样本有较大差异,给实例级识别带来很大挑战。
我们以F1 score 0.757的成绩在该项比赛上取得了第一名的成绩,远超第二名的0.735和第三名的 0.689。
该任务主要存在以下两个难点:
植物种类多、类别细,不同植物间视觉非常相似,而同一植物的不同样本存在差异,导致类间易混淆,区分难度大;
数据集的样本分布不均衡,存在长尾分布,样本数目最少的类别仅有3张样本,如何提升长尾类别准确率至关重要。
将自然场景中实例级植物识别问题转换成大规模细粒度特征表达问题,提出self-attention pooling进行局部特征增强提升特征表达能力;通过引入Imbalanced Sampler和自适应类别loss解决类别分布不平衡问题;此外,基于混合精度的大规模多机多卡训练能力,实现近三百万数据规模下的快速迭代能力。
实现高效万级在线难样本挖掘,极大提升了特征在复杂场景下的泛化能力。最终凭借领先亚军2.2%的优势,一举获得冠军。
实例级的细粒度识别技术可辨别物体间细微的视觉差异从而实现精细的物体识别,广泛应用于商品识别、动植物识别、行人识别、地标识别等领域。
Workshop:
https://sites.google.com/view/fgvc8/home
Challenge:
https://sites.google.com/view/fgvc8/competitions/herbariumchallenge2021
Kaggle leadboard:
https://www.kaggle.com/c/herbarium-2021-fgvc8/leaderboard
???? 冠军 ????
ActivityNet Home Action Genome Challenge
Workshop:International Challenge on Activity Recognition
Task:Home Action Genome Challenge
少麟,廖越(北航),咏亮,叶盈,篱悠,刘偲(北航)
视频人物交互关系
Home Action Genome Challenge今年首次在CVPR2021 ActivityNet Workshop举办, 由斯坦福大学李飞飞教授课题组主办,比赛提供了一个大规模多视角的视频数据集,通过多模态视频分析,检测视频中存在的人物交互关系。
我们以准确率76.5%的成绩在该项比赛上取得了第一名的成绩,大幅领先第二名的68.4%和第三名的65.7%。
Home Action Genome Challenge 获奖证书
该任务主要有3个难点:
数据集的日常家居场景复杂,人体和物体的目标检测难度大
人物关系包含动作关系和空间关系,关注不同的视觉特征
每一组人体和物体都存在多个人物关系,评估时必须完全正确才计一次正确
采用更好的检测模型:我们采用Swin-Transformer和ResNeSt为backbone的性能SOTA的检测模型,并通过多种数据增强策略训练和多尺度融合推理,提升目标检测的准确率。
强化人物关系的视觉特征:我们设计了融合两阶段和一阶段关系检测网络的方案,首先将Swin-Transformer融入两阶段关系检测网络进行端到端训练,然后改进一阶段关系检测网络,直接提取<人,物>二元组,再通过cascade结构判定关系,给出<人,物,关系>三元组。策略上,我们通过视觉特征判定动作关系,空间位置作为输入辅助判定空间关系。
基于统计偏置的生成策略:我们在生成最终的人物交互关系组时,采用了融合<人,物,关系>三者共生概率和统计偏置加权的多种策略。
视频人物交互关系检测,检测视频中动态的<人,物,关系>的结构化信息,未来可应用于视频信息结构化,人机交互等应用场景。
Challenge:
https://homeactiongenome.org/results.html
Workshop:
http://activity-net.org/challenges/2021/challenge.html
除上述3项冠军以外,我们也在 Hotel-ID 2021-Hotel Recognition Challenge 比赛中取得第二名,以及在 Evoked Expressions from Videos (EEV) Challenge 比赛中取得第三名的好成绩,在多媒体算法领域内排名前列。
淘系技术多媒体算法参赛团队表示:“随着视频流量在媒体表征方面占比越来越高,视频信息对个人和平台而言,都存在信息过载的问题。视频内容的多维度结构化表示将会是视觉领域的热点研究方向之一。未来我们也会融合文本、语音和视觉等多模态的信息做好视频内容理解,让用户可以更多看到自己喜欢的内容,降低用户信息选择的时间成本,为用户带来更好的视觉体验。”
✿ 拓展阅读
作者|淘系技术
编辑|橙子君
出品|阿里巴巴新零售淘系技术
为什么80%的码农都做不了架构师?>>> ...
题目大意:给你一棵树,每条边有一个最大容量,根结点可以流出无限的流,叶子结点可以接收无限多的流,问你以哪一个点为原点整棵树的总容量最大。其实就是在问以那个点为原点最大流最大,数据很大肯定不是用最大流算法来跑 n 遍,因为整体结构是一棵树,容易想到两次DFS处理出每一个点作为根节点的最大流,再找答案。(所谓两次扫描换根法就是两次DFS扫描得到每一个点作为根结点的解,了解之后发现就是自己用过的东...
n%d+m%d≥dn \% d + m \% d \geq dn%d+m%d≥d 可以写成 n−⌊nd⌋∗d+m−⌊md⌋∗d≥dn - \lfloor\frac{n}{d}\rfloor * d +m - \lfloor\frac{m}{d}\rfloor * d \geq dn−⌊dn⌋∗d+m−⌊dm⌋∗d≥d移项一下可以得出:⌊nd⌋+⌊md⌋+1≥⌊n+md⌋\lfloor\f..._(m+n)dm,n≥1
如果没有条件 ∣x−y∣≤m|x-y|\leq m∣x−y∣≤m,那么这题可以直接按 二进制位 枚举 x,yx,yx,y,满足 0≤x≤a,0≤y≤b0 \leq x \leq a,0 \leq y \leq b0≤x≤a,0≤y≤b,且 x⨁y=nx \bigoplus y =nx⨁y=n。对于条件 :∣x−y∣≤m|x-y|\leq m∣x−y∣≤m 可以拆分为:m+y−x≥0m + y - x \geq 0m+y−x≥0 m+x−y≥0m + x - y \geq 0m+x−y≥0由于有加减法.._cometoj contest 12
分享内容:推荐大家一个靠谱的论文检测平台。重复的部分有详细出处以及具体修改意见,能直接在文章上做修改,全部改完一键下载就搞定了。他们现在正在做毕业季活动, 赠送很多免费字数,可以说是十分划算了!地址是:https://www.paperpass.com/...
本文主要介绍基于点源算法的计算全息3D显示_点源法求全息图
什么是Log4J ?Log4j是Apache下的一款开源的日志框架,通过在项目中使用Log4j,我们可以控制日志信息输出到控制台、文件、甚至是数据库中。我们可以控制每一条日志的输出格式,通过定义日志的输出级别,可以更灵活的控制日志的输出过程,方便项目的调试▎快速入门案例1. 引入maven依赖(为了方便测试,同步也引入junit)<dependencies> <dependency> <groupId>juni_log4j debug模式
本章通过一个简单的例子,来了解 MyBatis 执行一条 SQL 语句的大致过程是怎样的。案例代码如下所示:public class MybatisTest { @Test public void selectByPrimaryKey() throws IOException { // 3 StudentDao st..._mybatis源码 执行sql
网站数据防护方式之 URL 参数加密,逆向破解 ~_广东省公共资源交易平台js逆向
override func viewDidLoad() { super.viewDidLoad() // Do any additional setup after loading the view, typically from a nib. //函数是执行特定任务的代码自包含块,给定函数名称标示。 //函__swift_getfunctionreplacement 没有定义
Hi i need To print from a to zzz upto 3 letters , for example my output should be嗨我需要從a到zzz打印最多3個字母,例如我的輸出應該是AB...ZAAAB..AZBABB...ZZAAAAAB....ZZZI was trying hard for past 5 hours , I cant find any lo..._aaazz
从体绘制绕路过来的,三维重建,网格处理,鼠标交互,开始找不到路,边走边问,最后到了光栅渲染器,应该是这里吧?这个坑挖好久了,试试能填多少_光栅初始化