首先,应当做一部分的论文阅读。
InternVideo2:视频基础模型家族,强调多任务、多范式统一
TimeSformer:纯 Transformer 的时空建模代表作
ViCLIP:视频版 CLIP 表征
VideoChat:视频对话系统,强调时空推理/定位/因果等能力
Video-LLaVA(EMNLP 2024):视频与图像统一对齐再投影的策略
LLaVA-Video:用高质量合成数据做视频指令微调的数据路线
VideoMind:长视频推理的 agentic workflow
关于任务:
任务 A:Next Event Retrieval
任务 B:Next Event Generation
主要是应当想出一种新的方法,选取合适的baseline,看看能不能在其基础上提升。首先完成论文阅读,获取方法和想法。