分类: 未分类

16 篇文章

关于毕设“基于视觉语言学习的跨模态事件链推理”初步调研与想法
首先,应当做一部分的论文阅读。 InternVideo2:视频基础模型家族,强调多任务、多范式统一 TimeSformer:纯 Transformer 的时空建模代表作 ViCLIP:视频版 CLIP 表征 VideoChat:视频对话系统,强调时空推理/定位/因果等能力 Video-LLaVA(EMNLP 2024):视频与图像统一对齐再投影的策…
重新预处理数据
python D:\research\research_training\17\extract_multiactor_pairs_dataset.py  --data_root "D:\research\research_training\10\test\test"--out_root "D:\research\research…
轨迹交互关系:从大模型微调到传统机器学习
1. 任务与数据 任务:给定两智能体轨迹,预测关系 ∈ {yields to, bypasses, overtakes}。 数据集: 2. 大模型路线 2.1 数据组织(SFT) 组织为 chat 数据: system:固定指令 user:轨迹采样帧 + event summary assistant:{"relation": "..."} JSO…
关于数据集问题的汇报
本周针对原本的任务,首先采用传统监督学习方法进行建模验证是否数据集可用。在数据处理阶段,将原始轨迹序列转换为固定维度特征向量,主要包括车辆航向角变化统计量、关键帧之间的相对变化特征以及轨迹点分布特征等。在模型选择上,尝试了多项逻辑回归进行三分类训练。实验结果表明,两类模型在训练集上也没有正常收敛,抛出了异常ValueError: Input con…
关于微调的汇报
CUDA_VISIBLE_DEVICES=2,3python -m vllm.entrypoints.openai.api_server--model /netcache/huggingface/Qwen2.5-7B-Instruct--tensor-parallel-size 2--host 0.0.0.0--port 18001--gpu-me…
关于rs大图处理的论文调研
GeoLLaVA-8K: Scaling Remote-Sensing Multimodal Large Language Models to 8K Resolution 提出Background Token Pruning策略,通过语义相似性聚类有效压缩冗余背景tokens。设计Anchored Token Selection方法,利用[CLS]…
无微调基准测试
CUDA_VISIBLE_DEVICES=6,7,8,9python -m vllm.entrypoints.openai.api_server--model /netcache/huggingface/Qwen2.5-14B-Instruct--tensor-parallel-size 4--host 0.0.0.0--port 18001--g…
论文阅读与处理数据集
论文阅读 Trajectory-LLM: A Language-based Data Generator for Trajectory Prediction in Autonomous Driving 提出Trajectory-LLM(Traj-LLM) 这一基于大语言模型的自动驾驶车辆轨迹生成方法,通过创新的 “交互 - 行为 - 轨迹” 三阶段…
关于思维链
论文阅读 Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 文章提出思维链提示(Chain-of-Thought Prompting) 这一简单方法,通过在少样本示例中提供中间推理步骤,显著提升大语言模型在算术、常识和符号推理任务中的表现。该能力是模…
关于tokens压缩的论文阅读
论文阅读 TokenSkip: Controllable Chain-of-Thought Compression in LLMs 提出TokenSkip方法,针对大语言模型(LLMs)中思维链(CoT)推理存在的长序列导致推理延迟高的问题,基于 CoT tokens 语义重要性差异的核心洞察,通过修剪低重要性 tokens 并微调模型,实现可控的…