GeoLLaVA-8K: Scaling Remote-Sensing Multimodal Large Language Models to 8K Resolution
提出Background Token Pruning策略,通过语义相似性聚类有效压缩冗余背景tokens。设计Anchored Token Selection方法,利用[CLS] token注意力图保留关键目标信息tokens。
Co-Training Vision Language Models for Remote Sensing Multi-task Learning
首个同时支持常规和UHR遥感图像的统一VLM。涵盖分类、检测、定位、问答等多任务。突破现有模型仅专注单一分辨率域或任务类型的限制,实现真正的多任务学习。
XLRS-Bench: Could Your Multimodal LLMs Understand Extremely Large Ultra-High-Resolution Remote Sensing Imagery?
一个综合基准测试,用于评估MLM在超高分辨率RS场景下的感知与推理能力。
目前最大、最清晰的遥感多模态 benchmark 涉及VQA,grounding
When Large Vision-Language Model Meets Large Remote Sensing Imagery: Coarse-to-Fine Text-Guided Token Pruning
聚焦于大尺寸遥感图像的冗余token,提出一种粗到细(Coarse-to-Fine)文本引导的 Token 剪枝框架,通过文本查询的语义信息引导,分阶段筛选遥感影像中的有效视觉 token,剔除冗余背景 token
构建了一个benchmark LRS-VQA
GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks
面向地理空间任务的多模态评估基准 GEOBench-VLM,设计了 6 类核心地理空间任务(包括地物分类、目标检测、视觉接地、地理空间 VQA、跨模态检索、多轮对话推理)
GeoChat: Grounded Large Vision-Language Model for Remote Sensing
提出 GeoChat,首个支持高分辨率遥感图像多任务对话的 VLM,可处理图像级与区域级查询,并通过空间坐标实现目标视觉定位,构建遥感多模态指令数据集,基于 LLaVA-1.5 微调,建立多任务对话基准并验证零样本性能。
GeoGround: A Unified Large Vision-Language Model. for Remote Sensing Visual Grounding
首个统一支持遥感视觉定位中水平框(HBB)、定向框(OBB)与分割掩码(mask)三类输出的多模态大模型,通过 Text-Mask 范式将像素级信息转化为文本序列,配合混合监督训练与大规模指令数据集 refGeo,实现灵活输出与跨任务一致
TinyRS – R1: Compact Multimodal Language Model for Remote Sensing
面向遥感轻量化 MLLM 需求,提出 TinyRS – R1,通过模型蒸馏、token 稀疏化与 LoRA 微调,在保证性能的前提下压缩模型规模与 token 数量,支持空间定位与场景理解等任务
VisionZip: Efficient Token Compression for Vision – Language Models
针对视觉 token 冗余导致的计算成本高问题,提出 VisionZip,通过上下文 token 合并与信息性 token 选择,减少视觉 token 数量,在保持性能的同时提升推理速度,适配图像与视频理解任务