关于毕设的初次思考 – 伶衣の博客

提出跨模态因果关系推理框架（CMCIR），该框架包含因果感知视觉语言推理（CVLR）、时空 Transformer（STT）、视觉语言特征融合（VLFF）三大核心模块，通过前门和后门因果干预解开视觉与语言的虚假关联、捕捉细粒度的模态交互并自适应融合全局语义特征；在SUTD-TrafficQA、TGIFQA、MSVD-QA、MSRVTT-QA四个事件级数据集（what huo等的问答数据集）上的实验验证了 CMCIR 的优越性，其在因果结构发现和鲁棒的事件级视觉问答上表现突出，同时消融实验、参数敏感性分析等也证实了各模块的有效性，该研究也是首次为事件级视觉问答任务探索跨模态因果结构。

主要是提出了新的架构，然后在qa数据集上跑sota，在因果结构发现上表现突出。

InterVid

1 提出了一个数据集，高语义相关的视频 – 文本数据集
2 用一个基于clip的vit-l架构构建的viclip作为基线，用不同数据集训练，在零样本动作识别和视频检索大幅度超越（从而证明数据集有效性）
3 刷sota的数据集分别是Kinetics 系列（零样本动作识别）和MSR-VTT（公开视频描述数据集）LSMDC（Large Scale Movie Description Challenge）（基于电影片段的视频检索 / 描述数据集）等视频检索任务数据集，还有部分SomethingSomethingV2（SthSthV2）/SomethingSomethingV2（SthSthV2）等辅助验证的数据集。

intervid2

1 6B 参数多模态视频理解基础模型
2 构建了含402M 条数据条目的大规模多模态视频训练集
3 在60 + 音视频任务上取得SOTA性能，尤其在长视频理解、视频对话、时序动作识别、视频检索等任务表现突出
4 核心方法是三阶段渐进式训练与模型架构，6B 参数的视频编码器，基于 Vision Transformer（ViT）构建，加入注意力池化和3D 位置嵌入；输入视频采用稀疏采样 8 帧、14×14 空间下采样，生成时空 token 后进行后续训练

关于毕设的一些想法

首先是主任务

主任务 A：因果/时序
NExT-QA（NExT-QA: Next Phase of Question-Answering to Explaining Temporal Actions (CVPR’21)）
Causal-VidQA数据集[CVPR 2022] A large-scale public benchmark dataset for video question-answering, especially about evidence and commonsense reasoning.

主任务 B：事件级因果图/事件链发现

MECD / MECD+

构建事件因果图

CausalVQA（physically grounded）
物理因果问答反事实/假设/预测推理

我的目标：
把视频拆成一串事件（event segments），再建一个事件之间的关系结构（链/图），最后用这个结构去回答问题（QA）或做因果/时间推理。

部分论文调研：

EC-GNNs（2023）：把“dense caption（密集事件字幕）”作为新模态，引入图网络做跨模态推理（caption/video/question 三图 + cross-modal attention + 多步推理融合），在 TGIF-QA / MSVD-QA 上验证事件信息有用

用事件/字幕做第三模态，然后图推理

CLanG（2024）：强调“multi-object event graph representation learning”，面向 NExT-QA / TGIF-QA-R 等，核心是把视频里的对象-事件组织成图，并做表示学习与推理

多对象事件图

ENTER（2025）：明确提出 event-based interpretable reasoning：用模型生成event graphs，再用 LLM 基于图做推理，在 NExT-QA 这类基准给出很强的 zero-shot 结果

用 LLM 把视频变成事件图，再推理

ICE-Chain：Intervention-Consistent Event Chain Reasoning

把事件链当成“可干预的结构化中间变量”，并用“干预一致性（intervention consistency）”去学习哪些事件真的导致答案。

如何实现：

**对每个视频，构造事件序列 **
e1,e2,…,eN：

在 MECD 上：直接用数据集自带的事件片段与事件文本

每个事件节点做一个跨模态表示：

视觉：视频编码器输出（复用 NExT-QA/Causal-VidQA 官方/社区提供的特征管线，降低成本）

文本：事件描述（来自数据集或生成字幕）编码

构建两类边：

时间边：根据时间戳/切段顺序得到 before/after（确定性）

因果边（可学习）：用“事件 Granger 风格的干预评分”学习

思路借鉴 MECD+ 的 Event Granger Test：比较“mask 某个前置事件”对“预测结果事件表示/答案概率”的影响，从而估计因果贡献

创新：把这个评分端到端地接到 VideoQA，让它为“选项判别”服务，而不是只做因果图任务。

关键创新：

Option-aware 链验证（专门对付多选偏置）

多选题的一个现实问题是：模型很容易走“选项-视觉相似度捷径”（EOB）
你的做法是：对每个候选选项 o_k 单独构造一条最支持它的事件链，再做“链验证”：

对每个选项 k：从事件图里检索/推理得到 top-1 或 top-K 条链

关键创新：Option-aware 链验证（专门对付多选偏置）

多选题的一个现实问题是：模型很容易走“选项-视觉相似度捷径”（EOB）([arXiv][11])
你的做法是：对每个候选选项 o_k 单独构造一条最支持它的事件链，再做“链验证”：

对每个选项 k：从事件图里检索/推理得到 top-1 或 top-K 条链
[
\text{chain}k = (e{a}\rightarrow e_{b}\rightarrow \dots \rightarrow e_{t})
]
把（视频、问题、选项、链）一起输入到答案打分器，得到 score_k
最终选 argmax(score_k)

这样做的意义：

如果负选项被 GroundAttack 变得“视觉上也合理”，你依然可以靠因果链一致性筛掉它，而不是靠“这选项太离谱了”

用三个 loss（从易到难）：

L_QA：VideoQA 交叉熵（主任务）

L_graph：因果边监督/弱监督

用 MECD 的“causality / complete causality”当监督信号，训练你的因果边预测器

L_intervene：干预一致性正则（论文亮点）

随机 mask 掉链上的事件 vs mask 非链事件

约束：mask 链事件应显著降低正确选项得分；mask 非链事件影响更小

这会让你学到“必要事件链”，并提升可解释性与鲁棒性（也更像“因果”而不是“注意力热力图”）。

MECD / MECD+：用来学“事件级因果结构”

NExT-QA：用来做“通用因果/时间 VideoQA”的主对比
在 EOB-free（GroundAttack 生成）或那个vtuber数据生成的 hard negatives 上再评测一次

baselines

HCRN / HGA / HME / B2A 这类 VideoQA backbone

NExT-QA repo

因果/鲁棒方向 baselines

MCR（CVPR 2023）：典型“多模态因果推理”框架，明确在 Causal-VidQA 与 NExT-QA 上做对比并报告提升

事件图/LLM-based baselines

ENTER（event graph + LLM reasoning）：可以作为“结构化事件图 + LLM 推理”的强基线/上界参考

先跑通 NExT-QA / Causal-VidQA 的一个经典 baseline（确保管线没问题）
实现 ICE-Chain 的最简版本：均匀切段=事件；只做时间边；链检索用 attention/Top-K
加 MECD 监督：训练因果边预测器（先在 MECD 上把边预测做好）
把因果边迁移到 QA：加入 L_intervene 干预一致性，让链真正“影响答案”
做去偏置验证：拿 GroundAttack/EOB-free（若拿得到标注或自己生成 hard negatives）评测一次，写成亮点
视频编码器：用现成预训练/预提取特征（?）
文本编码器：BERT 类（或轻量 Transformer）
事件图推理：2～4 层 Graph Transformer / GAT / GCN
选项打分：MLP 或 cross-attention head

事件链/事件图被序列化成结构化文本（例如 JSON/YAML 风格的 event list + edges）
把它作为额外提示输入大模型，或者用 adapter 把图表征注入 LMM

Cross-Modal Causal Relational Reasoning for Event-Level Visual Question Answering

InterVid

intervid2

关于毕设的一些想法

发送评论 编辑评论

发送评论编辑评论