关于毕设“基于视觉语言学习的跨模态事件链推理”初步调研与想法

首先，应当做一部分的论文阅读。

InternVideo2：视频基础模型家族，强调多任务、多范式统一

TimeSformer：纯 Transformer 的时空建模代表作

ViCLIP：视频版 CLIP 表征

VideoChat：视频对话系统，强调时空推理/定位/因果等能力

Video-LLaVA（EMNLP 2024）：视频与图像统一对齐再投影的策略

LLaVA-Video：用高质量合成数据做视频指令微调的数据路线

VideoMind：长视频推理的 agentic workflow

关于任务：

任务 A：Next Event Retrieval

任务 B：Next Event Generation

主要是应当想出一种新的方法，选取合适的baseline，看看能不能在其基础上提升。首先完成论文阅读，获取方法和想法。

发送评论编辑评论

发送评论 编辑评论