当分割一切遇见图像修复！Inpaint Anything来了！单击实现物体移除、内容填补、场景替换...-程序员宅基地

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

转载自：机器之心

这次，强大的「分割一切」模型——Segment Anything Model，在图像修补任务上碰撞出了火花。

4 月初，Meta 发布了史上首个图像分割基础模型--SAM（Segment Anything Model）[1]。作为分割模型，SAM 的能力强大，操作使用方式也十分友好，比如用户简单地点击来选择对应物体，物体就会立即被分割出来，且分割结果十分精准。截至 4 月 15 号，SAM 的 GitHub 仓库的 Star 数高达 26k。

如何利用好如此强大的「分割一切」模型，并拓展到更加有实际需求的应用场景至关重要。例如，当 SAM 遇上实用的图像修补（Image Inpainting）任务会碰撞出什么样的火花？

来自中国科学技术大学和东方理工高等研究院的研究团队给出了令人惊艳的答案。基于 SAM，他们提出「修补一切」（Inpaint Anything，简称 IA）模型。区别于传统图像修补模型，IA 模型无需精细化操作生成掩码，支持了一键点击标记选定对象，IA 即可实现移除一切物体（Remove Anything）、填补一切内容（Fill Anything）、替换一切场景（Replace Anything），涵盖了包括目标移除、目标填充、背景替换等在内的多种典型图像修补应用场景。

论文链接：http://arxiv.org/abs/2304.06790
代码库链接：https://github.com/geekyutao/Inpaint-Anything

方法介绍

尽管当前图像修补系统取得了重大进展，但它们在选择掩码图和填补空洞方面仍然面临困难。基于 SAM，研究者首次尝试无需掩码（Mask-Free）图像修复，并构建了「点击再填充」（Clicking and Filling）的图像修补新范式，他们将其称为修补一切（Inpaint Anything）（IA）。IA 背后的核心思想是结合不同模型的优势，以建立一个功能强大且用户友好的图像修复系统。

IA 拥有三个主要功能：(i) 移除一切（Remove Anything）：用户只需点击一下想要移除的物体，IA 将无痕地移除该物体，实现高效「魔法消除」；(ii) 填补一切（Fill Anything）：同时，用户还可以进一步通过文本提示（Text Prompt）告诉 IA 想要在物体内填充什么，IA 随即通过驱动已嵌入的 AIGC（AI-Generated Content）模型（如 Stable Diffusion [2]）生成相应的内容填充物体，实现随心「内容创作」；(iii) 替换一切（Replace Anything）：用户也可以通过点击选择需要保留的物体对象，并用文本提示告诉 IA 想要把物体的背景替换成什么，即可将物体背景替换为指定内容，实现生动「环境转换」。IA 的整体框架如下图所示：

Inpaint Anything（IA）示意图。用户可以通过单击来选择图像中的任何物体。借助强大的视觉模型，如 SAM [1]、LaMa [3] 和 Stable Diffusion (SD) [3]，IA 能够平滑移除选定物体（即 Remove Anything）。进一步地，通过向 IA 输入文本提示，用户可以用任何想要的内容填充物体（即 Fill Anything）或者任意替换对象的物体（即 Replace Anything）。

移除一切

移除一切（Remove Anything）示意图

「移除一切」步骤如下：

第 1 步：用户点击想要移除的物体；
第 2 步：SAM 将该物体分割出来；
第 3 步：图像修补模型（LaMa）填补该物体。

填补一切

填补一切（Fill Anything）示意图，图中使用的文本提示：a teddy bear on a bench

「填补一切」步骤如下：

第 1 步：用户点击想要移除的物体；
第 2 步：SAM 将该物体分割出来；
第 3 步：用户通过文本示意想要填充的内容；
第 4 步：基于文本提示的图像修补模型（Stable Diffusion）根据用户提供的文本对物体进行填充。

替换一切

替换一切（Replace Anything）示意图，图中使用的文本提示：a man in office

「填补一切」步骤如下：

第 1 步：用户点击想要移除的物体；
第 2 步：SAM 将该物体分割出来；
第 3 步：用户通过文本示意想要替换的背景；
第 4 步：基于文本提示的图像修补模型（Stable Diffusion）根据用户提供的文本对物体的背景进行替换。

模型结果

研究者随后在 COCO 数据集 [4]、LaMa 测试数据集 [3] 和他们自己用手机拍摄的 2K 高清图像上对 Inpaint Anything 进行测试。值得注意的是，研究者的模型还支持 2K 高清图和任意长宽比，这使得 IA 系统在各种集成环境和现有框架中都能够实现高效的迁移应用。

移除一切实验结果

填充一切实验结果

文本提示：a camera lens in the hand

文本提示：an aircraft carrier on the sea

文本提示：a sports car on a road

文本提示：a Picasso painting on the wall

替换一切实验结果

文本提示：sit on the swing

文本提示：breakfast

文本提示：a bus, on the center of a country road, summer

文本提示：crossroad in the city

总结

研究者建立这样一个有趣的项目，来展示充分利用现有大型人工智能模型所能获得的强大能力，并揭示「可组合人工智能」（Composable AI）的无限潜力。项目所提出的 Inpaint Anything (IA) 是一种多功能的图像修补系统，融合了物体移除、内容填补、场景替换等功能（更多的功能正在路上敬请期待）。

IA 结合了 SAM、图像修补模型（例如 LaMa）和 AIGC 模型（例如 Stable Diffusion）等视觉基础模型，实现了对用户操作友好的无掩码化图像修复，同时支持「点击删除，提示填充」的等「傻瓜式」人性化操作。此外，IA 还可以处理具有任意长宽比和 2K 高清分辨率的图像，且不受图像原始内容限制。

目前，项目已经完全开源。最后，欢迎大家分享和推广 Inpaint Anything (IA) ，也很期待看见更多基于 IA 所拓展的新项目。未来，研究者将进一步挖掘 Inpaint Anything (IA) 的潜力以支持更多实用的新功能，如细粒度图像抠图、编辑等，并将其应用到更多现实应用中。

参考文献

[1] Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao,Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C Berg, Wan-Yen Lo, et al. Segment anything. arXiv preprint arXiv:2304.02643, 2023.

[2] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern

Recognition, pages 10684–10695, 2022.

[3] Roman Suvorov, Elizaveta Logacheva, Anton Mashikhin, Anastasia Remizova, Arsenii Ashukha, Aleksei Silvestrov, Naejin Kong, Harshith Goka, Kiwoong Park, and Victor Lempitsky. Resolution-robust large mask inpainting with fourier convolutions. In Proceedings of the IEEE/CVF winter conference on applications of computer vision, pages 2149–2159, 2022.

[4] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Doll´ar, and C Lawrence Zitnick. Microsoft coco: Common objects in context. In Computer Vision–ECCV 2014: 13th European Conference,

Zurich, Switzerland, September 6-12, 2014, Proceedings, Part V 13, pages 740–755. Springer, 2014.

点击进入—>【图像分割】微信技术交流群

最新CVPR 2023论文和代码下载

后台回复：CVPR2023，即可下载CVPR 2023论文和代码开源的论文合集

后台回复：Transformer综述，即可下载最新的3篇Transformer综述PDF

图像分割交流群成立
扫描下方二维码，或者添加微信：CVer333，即可添加CVer小助手微信，便可申请加入CVer-图像分割 微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注：研究方向+地点+学校/公司+昵称（如图像分割+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer333，进交流群
CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉，已汇集数千人！

▲扫码进星球
▲点击上方卡片，关注CVer公众号

整理不易，请点赞和在看

本文链接：https://blog.csdn.net/amusi1994/article/details/130279100

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

使用UmcFramework和unimrcpclient.xml连接多个SIP设置的配置指南及C代码示例

在多媒体通信领域，MRCP（Media Resource Control Protocol）协议被广泛用于控制语音识别和合成等媒体资源。UniMRCP是一个开源的MRCP实现，提供了客户端和服务端的库。UmcFramework是一个基于UniMRCP客户端库的示例应用程序框架，它帮助开发者快速集成和测试MRCP客户端功能。本文将详细介绍如何使用UmcFramework和unimrcpclient.xml配置文件连接到多个SIP设置，以及如何用C代码进行示例说明。

java.net.ProtocolException: Server redirected too many times (20)-程序员宅基地

文章浏览阅读3k次。报错：java.net.ProtocolException: Server redirected too many times (20)1.没有检查到cookie，一直循环重定向。解决：CookieHandler.setDefault(new CookieManager(null, CookiePolicy.ACCEPT_ALL));URL url = new URL(url); ..._java.net.protocolexception: server redirected too many times (20)

springboot启动报错 Failed to scan *****/derbyLocale_ja_JP.jar from classloader hierarchy_failed to scan from classloader hierarchy-程序员宅基地

文章浏览阅读4.1k次。问题这是部分报错信息2019-07-11 14:03:34.283 WARN [restartedMain][DirectJDKLog.java:175] - Failed to scan [file:/D:/repo/org/apache/derby/derby/10.14.2.0/derbyLocale_ja_JP.jar] from classloader hierarchyjava...._failed to scan from classloader hierarchy

MATLAB-ones函数_matlab中ones函数-程序员宅基地

文章浏览阅读2.8k次，点赞3次，收藏7次。在MATLAB中，ones函数用于创建一个指定大小的由1组成的矩阵或数组。_matlab中ones函数

解决PS等软件出现应用程序无法正常启动(0xc000007b)_photoshop应用程序无法正常启动0xc000007b。请单击“确认”关闭应用程序。-程序员宅基地

文章浏览阅读3.9w次，点赞2次，收藏9次。　　在使用电脑办公过程中，安装应用程序时难免遇到无法安装或者无法正常启动的问题，这对我们使用电脑带来了诸多不便。那遇到应用程序无法正常启动的问题要如何解决呢?相信大家肯定都是十分疑问的，每次都是只能忍痛重新安装软件。今天，小编就和大家探讨下应用程序无法正常启动的解决方法，帮助大家排忧解难。0xc000007b电脑图解1　　第一种方案：SFC检查系统完整性来尝试修复丢失文件　　1、打开电脑搜索输入cmd.exe，选择以管理员身份运行，跳出提示框时选择继续。0xc000007b电脑图解2_photoshop应用程序无法正常启动0xc000007b。请单击“确认”关闭应用程序。

oracle介质恢复和实例恢复的异同-程序员宅基地

文章浏览阅读396次。1、概念 REDO LOG是Oracle为确保已经提交的事务不会丢失而建立的一个机制。实际上REDO LOG的存在是为两种场景准备的：实例恢复（INSTANCE RECOVERY）；介质恢复（MEDIA RECOVERY）。实例恢复的目的是在数据库发生故障时，确保BUFFER CACHE中的数据不会丢失，不会造成数据库的..._oracle 实例恢复和介质恢复