论文阅读
TokenSkip: Controllable Chain-of-Thought Compression in LLMs
提出TokenSkip方法,针对大语言模型(LLMs)中思维链(CoT)推理存在的长序列导致推理延迟高的问题,基于 CoT tokens 语义重要性差异的核心洞察,通过修剪低重要性 tokens 并微调模型,实现可控的 CoT 压缩
具体实现
Token修剪 tokenSkip会根据每个token的语义重要性进行排序,然后根据设定的压缩比例,保留最重要的token
训练 用修剪后的思维链数据对大模型进行微调(训练数据包好不同压缩比例的思维链,让大模型学会不同压缩比例下的推理)
推理 TokenSkip会让大模型根据设定的压缩比例,自动跳过那些不重要的token,生成压缩后的思维链
核心在于,判定语义重要性,这里利用LLMLingua-2
LLMLingua-2 由清华与微软团队联合提出(LLMLingua-2: Data Distillation for Efficient and Faithful Task-Agnostic Prompt Compression),是针对 “长文本提示词效率问题” 的优化方案。
LLMLingua-2 首先利用 GPT-4 对大规模文本(含提示词、CoT 序列)进行人工级标注
以 “GPT-4 标注的重要性标签” 为监督信号,让双向bert模型学习 “判断 token 对任务结果的贡献度”
根据用户指定的压缩比,执行以下操作:
对输入文本的所有 tokens 按 “重要性概率” 降序排序;
计算 “压缩比对应的分位数阈值”(如压缩比 0.6 对应 “前 60% 重要性 tokens 的最低概率值”);
保留所有重要性概率 ≥ 阈值的 tokens,修剪低于阈值的冗余 tokens,生成压缩后文本。
可用性分析:第一篇论文的工作用于cot压缩,目前只是利用大模型生成三元组,无显式输出cot,经查询,目前部署的qwen1.5-14b-chat也无隐式思维链,无法利用该论文做token压缩;第二篇论文可用于压缩提示词,然而目前原本的输入就是轨迹序列,几乎无法压缩。
数据集调研
基于全球AIS的多源航迹关联数据集(MTAD)
多源航迹关联数据集(Multi-source Track Association Dataset, MTAD)是由全球AIS航迹数据经栅格划分、自动中断和噪声添加处理步骤构建。
查看数据集说明和具体文件内容后发现,数据集聚焦于同一个体的轨迹拼接,不涉及船舶行为关系,无法使用
琼州海峡船舶交互数据集
专门针对多船会遇、避碰等核心交互行为构建的数据集 然而未开源
InterHub
可提取车辆与车辆、车辆与行人等多类交通个体的跟驰、避让等交互关系,还能捕捉多主体连锁交互行为。