新的思考
  • 事件图/GNN/子图检索本身”已经不够当主创新

2024 的多对象事件图表示学习 CLanG
2025 的 event-graph 可解释推理 ENTER
2026 的 GraphThinker
event-graph thing
或者把事件图当成长视频语义压缩的接口 SEG preprint

显式的事件链像是基础设施,不足以作为新论文的主要创新?

近年的新方向

  1. agentic video reasoning:LVAgent 把长视频理解做成 selection–perception–action–reflection 的动态协作,VideoMind 用 planner / grounder / verifier / answerer 的角色化流程,VideoMultiAgents 直接把视觉、场景图、文本 agent 交给 organizer 协调,STAR 和 VITAL 又把工具调用顺序和时空检索调度做成了核心机制,类似于,什么时候看哪段、调用哪个专家、如何验证
  2. 长视频记忆与检索。LongVideoBench、Video-MME、MLVU、LVBench 都在强调:长上下文、长时序、跨片段依赖正在成为新战场;而 MemVid、LVNet 这类方法说明,性能不只是模型大小问题,还高度依赖记忆组织、关键片段选择、检索策略。(和最近组里发的那篇方向近似)
    事件链或许可以升级为共享事件记忆?
  3. 过程级监督/验证与去偏评测。MINERVA 提供了手工 reasoning traces,VRBench 支持过程与结果双层评测,VIPER 甚至提出了 process-outcome consistency;与此同时,GroundAttack 说明多选 VideoQA 里确实存在 easy-option bias,ReXTime 则专门考察跨时间段的因果/时序推理。也就是说,近年的论文不太满足于“accuracy 提高了”,而更关心过程对不对、证据有没有真的落到视频上、模型是不是在吃 benchmark 偏置。

题目升级成
基于可调度多智能体与共享事件记忆的跨模态视频因果–时序推理

把事件链改成“共享工作台/共享记忆
不同 agent 在上面做 temporal grounding、causal linking、counterfactual simulation 和 answer verification

多次和ai交流后,感觉可能比较靠谱的结构:

  • 共享事件记忆(保留原主体)
    先把视频切成事件单元,建立层次化 event memory:clip -> event -> sub-event,每个节点带时间戳、视觉特征、文本描述、对象交互和置信度;边包括 temporal、causal、support-to-option。原来的事件链/事件图主体就放在这里,但角色从“最终推理器”变成“结构化记忆层”。这一步和 ENTER / MECD+ / SEG 的思路有亲缘性,但重点不是单纯建图,而是把它做成后续 agent 可读写的共享状态。
  • 调度器 / Organizer(这是主创新)
    给问题先做题型识别和不确定度估计,然后让 scheduler 决定调用哪些 agent、按什么顺序调用、看多少片段、花多少预算。比如 description 类问题只走 grounder + answerer;explanation/causal 类问题走 grounder + causal linker + verifier;counterfactual/prediction 再加 simulator。这样做的是角色分工 + 调度,不是简单让 3 个同构 LLM 争论。
  • 角色化 agents(不做同构 debate)
    最少放四个:
    • Temporal Grounder:定位相关时段
    • Causal Linker:在事件记忆上抽关键因果链
    • State / Object Tracker:补充对象状态变化、细粒度交互
    • Verifier:检查“证据链是否真的支持答案”
      这类角色化设计比 generic MAD 更稳。2025 的系统评估表明,同构 multi-agent debate 往往并不能稳定胜过简单 CoT / self-consistency,真正更关键的是异构性和角色差异。
  • 验证器驱动的过程一致性(第二个创新点)
    verifier 不只判答案对错,而要判三件事:关键链是否覆盖到正确时间段链条里的因果/时序关系是否自洽删除关键事件后,答案是否应发生变化
    这其实是把原来的 intervention consistency 升级成process-aware verification。训练时可以加 L_ans + L_edge + L_sched + L_verify + L_cf + L_cost,其中 L_cost 约束 agent 调用次数和看片预算,保证“调度”是真正有价值的,而不是无限堆算力。这个方向和 VerIPO、MINERVA、VIPER 的想法一致。
  • 可选蒸馏(第三个小创新,可做可不做)
    一个很适合期刊叙事的做法是:用多智能体系统产生高质量 schedule / chain / verification traces,再把它们蒸馏给一个更小的 student。这样最终推理主体仍然是轻量模型,但训练信号来自 agent teacher。AoTD 已经证明“agent-based reasoning chain -> 单模型蒸馏”在 video-LLM 上是可行方向。

关于为什么保留事件链,目前毕设题目是事件链,需要保证毕设的完成。

因此当前计划:
先跑通最基准的baseline,然后按照之前看得mecd+那个论文构建好因果边
之后再加一层多智能体调度用来回答问题,具体多智能体的具体组织方式之后进一步调研。

CUDA_VISIBLE_DEVICES=0 torchrun –rdzv_endpoint 127.0.0.1:1234 –nproc_per_node 1 eval.py –model 7B –max_seq_len 128 –batch_size 8 –epochs 5 –warmup_epochs 2 –bias 3.5 –tau 100. –max_feats 10 –dataset nextqa –blr 9e-2 –weight_decay 0.14 –output_dir ./output/nextqa_eval –accum_iter 2 –vaq –qav –resume ./checkpoint/nextqa.pth

CUDA_VISIBLE_DEVICES=0
torchrun –rdzv_endpoint 127.0.0.1:1234 –nproc_per_node 1 eval.py
–model 7B
–max_seq_len 384
–batch_size 2
–epochs 5
–warmup_epochs 2
–bias 3
–tau 100.
–max_feats 10
–dataset dramaqa
–blr 9e-2
–weight_decay 0.10
–output_dir ./output/dramaqa_eval
–accum_iter 8
–vaq –qav
–resume ./checkpoint/dramaqa.pth

alt text
alt text
alt text
alt text
暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇