关于rs大图处理的论文调研

提出Background Token Pruning策略，通过语义相似性聚类有效压缩冗余背景tokens。设计Anchored Token Selection方法，利用[CLS] token注意力图保留关键目标信息tokens。

首个同时支持常规和UHR遥感图像的统一VLM。涵盖分类、检测、定位、问答等多任务。突破现有模型仅专注单一分辨率域或任务类型的限制，实现真正的多任务学习。

一个综合基准测试，用于评估MLM在超高分辨率RS场景下的感知与推理能力。
目前最大、最清晰的遥感多模态 benchmark 涉及VQA，grounding

聚焦于大尺寸遥感图像的冗余token，提出一种粗到细（Coarse-to-Fine）文本引导的 Token 剪枝框架，通过文本查询的语义信息引导，分阶段筛选遥感影像中的有效视觉 token，剔除冗余背景 token
构建了一个benchmark LRS-VQA

面向地理空间任务的多模态评估基准 GEOBench-VLM，设计了 6 类核心地理空间任务（包括地物分类、目标检测、视觉接地、地理空间 VQA、跨模态检索、多轮对话推理）

提出 GeoChat，首个支持高分辨率遥感图像多任务对话的 VLM，可处理图像级与区域级查询，并通过空间坐标实现目标视觉定位，构建遥感多模态指令数据集，基于 LLaVA-1.5 微调，建立多任务对话基准并验证零样本性能。

首个统一支持遥感视觉定位中水平框（HBB）、定向框（OBB）与分割掩码（mask）三类输出的多模态大模型，通过 Text-Mask 范式将像素级信息转化为文本序列，配合混合监督训练与大规模指令数据集 refGeo，实现灵活输出与跨任务一致

面向遥感轻量化 MLLM 需求，提出 TinyRS – R1，通过模型蒸馏、token 稀疏化与 LoRA 微调，在保证性能的前提下压缩模型规模与 token 数量，支持空间定位与场景理解等任务

针对视觉 token 冗余导致的计算成本高问题，提出 VisionZip，通过上下文 token 合并与信息性 token 选择，减少视觉 token 数量，在保持性能的同时提升推理速度，适配图像与视频理解任务

发送评论 编辑评论