新的思考 – 伶衣の博客

事件图/GNN/子图检索本身”已经不够当主创新

2024 的多对象事件图表示学习 CLanG
2025 的 event-graph 可解释推理 ENTER
2026 的 GraphThinker
event-graph thing
或者把事件图当成长视频语义压缩的接口 SEG preprint

显式的事件链像是基础设施，不足以作为新论文的主要创新？

近年的新方向

agentic video reasoning：LVAgent 把长视频理解做成 selection–perception–action–reflection 的动态协作，VideoMind 用 planner / grounder / verifier / answerer 的角色化流程，VideoMultiAgents 直接把视觉、场景图、文本 agent 交给 organizer 协调，STAR 和 VITAL 又把工具调用顺序和时空检索调度做成了核心机制，类似于，什么时候看哪段、调用哪个专家、如何验证
长视频记忆与检索。LongVideoBench、Video-MME、MLVU、LVBench 都在强调：长上下文、长时序、跨片段依赖正在成为新战场；而 MemVid、LVNet 这类方法说明，性能不只是模型大小问题，还高度依赖记忆组织、关键片段选择、检索策略。（和最近组里发的那篇方向近似）
事件链或许可以升级为共享事件记忆？
过程级监督/验证与去偏评测。MINERVA 提供了手工 reasoning traces，VRBench 支持过程与结果双层评测，VIPER 甚至提出了 process-outcome consistency；与此同时，GroundAttack 说明多选 VideoQA 里确实存在 easy-option bias，ReXTime 则专门考察跨时间段的因果/时序推理。也就是说，近年的论文不太满足于“accuracy 提高了”，而更关心过程对不对、证据有没有真的落到视频上、模型是不是在吃 benchmark 偏置。

题目升级成
基于可调度多智能体与共享事件记忆的跨模态视频因果–时序推理

把事件链改成“共享工作台/共享记忆”
不同 agent 在上面做 temporal grounding、causal linking、counterfactual simulation 和 answer verification

多次和ai交流后，感觉可能比较靠谱的结构：

共享事件记忆（保留原主体）
先把视频切成事件单元，建立层次化 event memory：clip -> event -> sub-event，每个节点带时间戳、视觉特征、文本描述、对象交互和置信度；边包括 temporal、causal、support-to-option。原来的事件链/事件图主体就放在这里，但角色从“最终推理器”变成“结构化记忆层”。这一步和 ENTER / MECD+ / SEG 的思路有亲缘性，但重点不是单纯建图，而是把它做成后续 agent 可读写的共享状态。
调度器 / Organizer（这是主创新）
给问题先做题型识别和不确定度估计，然后让 scheduler 决定调用哪些 agent、按什么顺序调用、看多少片段、花多少预算。比如 description 类问题只走 grounder + answerer；explanation/causal 类问题走 grounder + causal linker + verifier；counterfactual/prediction 再加 simulator。这样做的是角色分工 + 调度，不是简单让 3 个同构 LLM 争论。
角色化 agents（不做同构 debate）
最少放四个：
- Temporal Grounder：定位相关时段
- Causal Linker：在事件记忆上抽关键因果链
- State / Object Tracker：补充对象状态变化、细粒度交互
- Verifier：检查“证据链是否真的支持答案”
  这类角色化设计比 generic MAD 更稳。2025 的系统评估表明，同构 multi-agent debate 往往并不能稳定胜过简单 CoT / self-consistency，真正更关键的是异构性和角色差异。
验证器驱动的过程一致性（第二个创新点）
verifier 不只判答案对错，而要判三件事：关键链是否覆盖到正确时间段链条里的因果/时序关系是否自洽删除关键事件后，答案是否应发生变化
这其实是把原来的 intervention consistency 升级成process-aware verification。训练时可以加 L_ans + L_edge + L_sched + L_verify + L_cf + L_cost，其中 L_cost 约束 agent 调用次数和看片预算，保证“调度”是真正有价值的，而不是无限堆算力。这个方向和 VerIPO、MINERVA、VIPER 的想法一致。
可选蒸馏（第三个小创新，可做可不做）
一个很适合期刊叙事的做法是：用多智能体系统产生高质量 schedule / chain / verification traces，再把它们蒸馏给一个更小的 student。这样最终推理主体仍然是轻量模型，但训练信号来自 agent teacher。AoTD 已经证明“agent-based reasoning chain -> 单模型蒸馏”在 video-LLM 上是可行方向。

关于为什么保留事件链，目前毕设题目是事件链，需要保证毕设的完成。

因此当前计划：
先跑通最基准的baseline，然后按照之前看得mecd+那个论文构建好因果边
之后再加一层多智能体调度用来回答问题，具体多智能体的具体组织方式之后进一步调研。

CUDA_VISIBLE_DEVICES=0 torchrun –rdzv_endpoint 127.0.0.1:1234 –nproc_per_node 1 eval.py –model 7B –max_seq_len 128 –batch_size 8 –epochs 5 –warmup_epochs 2 –bias 3.5 –tau 100. –max_feats 10 –dataset nextqa –blr 9e-2 –weight_decay 0.14 –output_dir ./output/nextqa_eval –accum_iter 2 –vaq –qav –resume ./checkpoint/nextqa.pth

CUDA_VISIBLE_DEVICES=0
torchrun –rdzv_endpoint 127.0.0.1:1234 –nproc_per_node 1 eval.py
–model 7B
–max_seq_len 384
–batch_size 2
–epochs 5
–warmup_epochs 2
–bias 3
–tau 100.
–max_feats 10
–dataset dramaqa
–blr 9e-2
–weight_decay 0.10
–output_dir ./output/dramaqa_eval
–accum_iter 8
–vaq –qav
–resume ./checkpoint/dramaqa.pth

发送评论 编辑评论

发送评论编辑评论