Cross-Modal Causal Relational Reasoning for Event-Level Visual Question Answering
提出跨模态因果关系推理框架(CMCIR),该框架包含因果感知视觉语言推理(CVLR)、时空 Transformer(STT)、视觉语言特征融合(VLFF)三大核心模块,通过前门和后门因果干预解开视觉与语言的虚假关联、捕捉细粒度的模态交互并自适应融合全局语义特征;在SUTD-TrafficQA、TGIFQA、MSVD-QA、MSRVTT-QA四个事件级数据集(what huo等的问答数据集)上的实验验证了 CMCIR 的优越性,其在因果结构发现和鲁棒的事件级视觉问答上表现突出,同时消融实验、参数敏感性分析等也证实了各模块的有效性,该研究也是首次为事件级视觉问答任务探索跨模态因果结构。
主要是提出了新的架构,然后在qa数据集上跑sota,在因果结构发现上表现突出。
InterVid
1 提出了一个数据集,高语义相关的视频 – 文本数据集
2 用一个基于clip的vit-l架构构建的viclip作为基线,用不同数据集训练,在零样本动作识别和视频检索大幅度超越(从而证明数据集有效性)
3 刷sota的数据集分别是Kinetics 系列(零样本动作识别)和MSR-VTT(公开视频描述数据集)LSMDC(Large Scale Movie Description Challenge)(基于电影片段的视频检索 / 描述数据集)等视频检索任务数据集,还有部分SomethingSomethingV2(SthSthV2)/SomethingSomethingV2(SthSthV2)等辅助验证的数据集。
intervid2
1 6B 参数多模态视频理解基础模型
2 构建了含402M 条数据条目的大规模多模态视频训练集
3 在60 + 音视频任务上取得SOTA性能,尤其在长视频理解、视频对话、时序动作识别、视频检索等任务表现突出
4 核心方法是三阶段渐进式训练与模型架构,6B 参数的视频编码器,基于 Vision Transformer(ViT)构建,加入注意力池化和3D 位置嵌入;输入视频采用稀疏采样 8 帧、14×14 空间下采样,生成时空 token 后进行后续训练
关于毕设的一些想法
首先是主任务
主任务 A:因果/时序
NExT-QA(NExT-QA: Next Phase of Question-Answering to Explaining Temporal Actions (CVPR’21))
Causal-VidQA数据集[CVPR 2022] A large-scale public benchmark dataset for video question-answering, especially about evidence and commonsense reasoning.
主任务 B:事件级因果图/事件链发现
MECD / MECD+
构建事件因果图
CausalVQA(physically grounded)
物理因果问答 反事实/假设/预测推理
我的目标:
把视频拆成一串事件(event segments),再建一个事件之间的关系结构(链/图),最后用这个结构去回答问题(QA)或做因果/时间推理。
部分论文调研:
EC-GNNs(2023):把“dense caption(密集事件字幕)”作为新模态,引入图网络做跨模态推理(caption/video/question 三图 + cross-modal attention + 多步推理融合),在 TGIF-QA / MSVD-QA 上验证事件信息有用
用事件/字幕做第三模态,然后图推理
CLanG(2024):强调“multi-object event graph representation learning”,面向 NExT-QA / TGIF-QA-R 等,核心是把视频里的对象-事件组织成图,并做表示学习与推理
多对象事件图
ENTER(2025):明确提出 event-based interpretable reasoning:用模型生成event graphs,再用 LLM 基于图做推理,在 NExT-QA 这类基准给出很强的 zero-shot 结果
用 LLM 把视频变成事件图,再推理
ICE-Chain:Intervention-Consistent Event Chain Reasoning
把事件链当成“可干预的结构化中间变量”,并用“干预一致性(intervention consistency)”去学习哪些事件真的导致答案。
如何实现:
**对每个视频,构造事件序列 **
e1,e2,…,eN:
在 MECD 上:直接用数据集自带的事件片段与事件文本
每个事件节点做一个跨模态表示:
视觉:视频编码器输出(复用 NExT-QA/Causal-VidQA 官方/社区提供的特征管线,降低成本)
文本:事件描述(来自数据集或生成字幕)编码
构建两类边:
时间边:根据时间戳/切段顺序得到 before/after(确定性)
因果边(可学习):用“事件 Granger 风格的干预评分”学习
思路借鉴 MECD+ 的 Event Granger Test:比较“mask 某个前置事件”对“预测结果事件表示/答案概率”的影响,从而估计因果贡献
创新:把这个评分端到端地接到 VideoQA,让它为“选项判别”服务,而不是只做因果图任务。
关键创新:
Option-aware 链验证(专门对付多选偏置)
多选题的一个现实问题是:模型很容易走“选项-视觉相似度捷径”(EOB)
你的做法是:对每个候选选项 o_k 单独构造一条最支持它的事件链,再做“链验证”:
对每个选项 k:从事件图里检索/推理得到 top-1 或 top-K 条链
关键创新:Option-aware 链验证(专门对付多选偏置)
多选题的一个现实问题是:模型很容易走“选项-视觉相似度捷径”(EOB)([arXiv][11])
你的做法是:对每个候选选项 o_k 单独构造一条最支持它的事件链,再做“链验证”:
- 对每个选项 k:从事件图里检索/推理得到 top-1 或 top-K 条链
[
\text{chain}k = (e{a}\rightarrow e_{b}\rightarrow \dots \rightarrow e_{t})
] - 把(视频、问题、选项、链)一起输入到答案打分器,得到 score_k
- 最终选 argmax(score_k)
这样做的意义:
- 如果负选项被 GroundAttack 变得“视觉上也合理”,你依然可以靠因果链一致性筛掉它,而不是靠“这选项太离谱了”
用三个 loss(从易到难):
L_QA:VideoQA 交叉熵(主任务)
L_graph:因果边监督/弱监督
用 MECD 的“causality / complete causality”当监督信号,训练你的因果边预测器
L_intervene:干预一致性正则(论文亮点)
随机 mask 掉链上的事件 vs mask 非链事件
约束:mask 链事件应显著降低正确选项得分;mask 非链事件影响更小
这会让你学到“必要事件链”,并提升可解释性与鲁棒性(也更像“因果”而不是“注意力热力图”)。
MECD / MECD+:用来学“事件级因果结构”
NExT-QA:用来做“通用因果/时间 VideoQA”的主对比
在 EOB-free(GroundAttack 生成) 或那个vtuber数据生成的 hard negatives 上再评测一次
baselines
HCRN / HGA / HME / B2A 这类 VideoQA backbone
NExT-QA repo
因果/鲁棒方向 baselines
MCR(CVPR 2023):典型“多模态因果推理”框架,明确在 Causal-VidQA 与 NExT-QA 上做对比并报告提升
事件图/LLM-based baselines
ENTER(event graph + LLM reasoning):可以作为“结构化事件图 + LLM 推理”的强基线/上界参考

- 先跑通 NExT-QA / Causal-VidQA 的一个经典 baseline(确保管线没问题)
- 实现 ICE-Chain 的最简版本:均匀切段=事件;只做时间边;链检索用 attention/Top-K
- 加 MECD 监督:训练因果边预测器(先在 MECD 上把边预测做好)
- 把因果边迁移到 QA:加入 L_intervene 干预一致性,让链真正“影响答案”
- 做去偏置验证:拿 GroundAttack/EOB-free(若拿得到标注或自己生成 hard negatives)评测一次,写成亮点
- 视频编码器:用现成预训练/预提取特征(?)
- 文本编码器:BERT 类(或轻量 Transformer)
- 事件图推理:2~4 层 Graph Transformer / GAT / GCN
- 选项打分:MLP 或 cross-attention head
or
- 事件链/事件图被序列化成结构化文本(例如 JSON/YAML 风格的 event list + edges)
- 把它作为额外提示输入大模型,或者用 adapter 把图表征注入 LMM