LISA: Reasoning Segmentation via Large Language Model

news/2024/10/3 23:32:37

Motivation & Abs

现有的感知系统依赖人类的指示,难以主动推理以理解人类意图。

新任务:reasoning segmentation,模型需要根据给定的复杂 / 具有隐含意义的文本输出相应的seg mask。

新的benchmark:包含1000张左右图像的数据集(image-instruction-mask)。

模型:LISA,既有LLM的语言生成能力,又有生成分割mask的能力。训练好的模型在非reasoning的数据集上也有着较强的zs能力,同时仅仅使用少量reasoning data对模型进行ft就可以大幅提升性能。

Reasoning Segmentation

reasoning segmentation相当于更加困难的referring segmentation,查询的文本是更复杂的表达或者更长的句子,涉及到对现实世界知识的推理。数据集:文本为短语和长句子,图像总计1218张,包含239张训练图像,200张验证图像以及779张测试图像。

Method

Architecture

Embedding as Mask. 之前的方法如LLaVA以及BLIP2等仅能接受图片输入同时输出文本,无法输出细粒度的分割mask。VisionLLM提供了一种解决方案,将掩码表示为一系列的多边形顶点,使之能够用文本描述,然而使用多边形序列的端到端训练优化困难,并且可能会损害泛化能力,除非使用大量数据和计算资源。为此,作者提出了使用embedding作为mask的范式从而将分割能力融入LLM,对LLM的词汇表进行扩充,额外添加了<SEG> token, 用来代表输出的分割结果。

截屏2024-06-11 17.36.54

给定文本指令\(\hat{y}_{txt}\)以及输入图像\(x_{img}\),作者将其输入多模态LLM \(\mathcal{F}\),得到输出\(\hat{y}_{txt}\)(包含<SEG>标记)。同时将SAM image encoder给出的dense feature与<SEG>送入SAM的decoder即可得到分割mask。

损失函数:

截屏2024-06-12 14.51.57

截屏2024-06-12 14.52.10

这种方式能够支持端到端的训练,比两阶段的方法更加有效。

训练

训练数据形式。

Semantic Set Dataset:训练时对每张图片随机选择几个类别,类别对应的mask为GT。QA模版如同:“USER: <IMAGE> Can you segment the {class name} in this image? ASSISTANT: It is <SEG>.”

Vanilla Referring Segmentation Dataset:数据包含图片和对应物体的文本描述。QA模版:“USER: <IMAGE> Can you segment {description} in this image? ASSISTANT: Sure, it is <SEG>.”

Visual Question Answering Dataset:目的是保持MLLM的VQA能力。

可学习参数。用lora微调LLM,冻住image encoder,训练mask decoder、LLM token embedding、LLM head、projection layer。

为什么不会发生灾难遗忘:训练使用了VQA数据。

实验

截屏2024-06-12 15.10.01

Metric: gIoU和cIoU,gIoU 为所有图像IoU的平均值,而 cIoU 由累积并集上的累积交集定义。由于cIoU高度偏向于大面积物体,而且波动太大,所以首选gIoU。截屏2024-06-12 15.25.17

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hjln.cn/news/44527.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈,一经查实,立即删除!

相关文章

Navicat 索引类型、索引方法使用

选择索引类型(有四种)1. Normal(普通索引): - 普通索引是最常见的索引类型。 - 它用于加速查询操作,提高查询性能。 - 允许重复值,可以在一个字段上创建多个普通索引。 2. Unique(唯一索引): - 唯一索引要求索引列的值是唯一的,不允许重复值。 - 它用于保证…

Photoshop 2024 mac/win版:探索图像处理的全新境界

Photoshop 2024是Adobe推出的最新图像处理与设计软件,它在继承了前作所有优秀特性的基础上,实现了多个方面的质的飞跃。这款软件凭借其卓越的图像处理性能、丰富的创意工具以及精确的选区编辑功能,成为了图像处理领域的佼佼者。 →→↓↓载Photoshop 2024 mac/win版 在功能…

MoneyPrinterPlus:AI自动短视频生成工具,赚钱从来没有这么容易过

MoneyPrinterPlus使用AI大模型技术,一键批量生成各类短视频。一键混剪短视频,批量生成短视频不是梦。自动把视频发布到抖音,快手,小红书,视频号上。这是一个轻松赚钱的项目。 短视频时代,谁掌握了流量谁就掌握了Money! 所以给大家分享这个经过精心打造的MoneyPrinterPlus项目…

基于压电陶瓷传感器的智能枕头非侵入式生命体征监测

一、摘要 在家中睡眠期间对人体生命体征进行实时监测对于实现及时检测和救援至关重要。然而,现有的用于监测人类生命体征的智能设备存在高复杂性、高成本、侵入性或低准确性的缺点。因此,迫切需要开发一种简化、无干扰、舒适、低成本的睡眠实时监测系统。在本研究中,基于低成…

如何实现pdf转ofd?

Ofd格式是一种开放的文档格式,它具有更高的安全性、更好的跨平台性等优点。并广泛应用于各种文档管理和电子商务应用,比如:合同、报告、手册等。 我们日常办公中用到的发票大多是PDF格式,如何将pdf转换成安全性更高的ofd格式呢?今天小编给大家分享几个pdf转换成ofd格式的方…

高一高考集训欢乐赛

2024.6.12 高一高考集训欢乐赛记录大石碎胸口——万能青年旅店久违的头图渔王还想 继续做渔王 而海港已经 不知去向 此刻他醉倒 在洗浴中心 没有潮汐的梦 胸口已暮色苍茫 肥胖的城市 递给他一个 传统的方法 来克制恐慌 卖掉武器 风暴喉咙 换取饮食 背叛能让你获得自由 停电之后…

全国省市区县列表最新JSON2024最新

2024最新JSON数据,2024年更新 中国总共有23个省、5个自治区、4个直辖市、2个特别行政区。 最近需要用到中国城市列表的json串数据,费了不少时间,终于得到了比较全面的数据 暂时应该没有比我更全的了~~~ 得出以下数据json格式,XML格式(包含省市,县级市,县),总数:2893个 …