论文阅读

TokenSkip: Controllable Chain-of-Thought Compression in LLMs

提出TokenSkip方法，针对大语言模型（LLMs）中思维链（CoT）推理存在的长序列导致推理延迟高的问题，基于 CoT tokens 语义重要性差异的核心洞察，通过修剪低重要性 tokens 并微调模型，实现可控的 CoT 压缩

具体实现

Token修剪 tokenSkip会根据每个token的语义重要性进行排序，然后根据设定的压缩比例，保留最重要的token

训练用修剪后的思维链数据对大模型进行微调（训练数据包好不同压缩比例的思维链，让大模型学会不同压缩比例下的推理）

推理 TokenSkip会让大模型根据设定的压缩比例，自动跳过那些不重要的token，生成压缩后的思维链

核心在于，判定语义重要性，这里利用LLMLingua-2

LLMLingua-2 由清华与微软团队联合提出（LLMLingua-2: Data Distillation for Efficient and Faithful Task-Agnostic Prompt Compression），是针对 “长文本提示词效率问题” 的优化方案。

LLMLingua-2 首先利用 GPT-4 对大规模文本（含提示词、CoT 序列）进行人工级标注

以 “GPT-4 标注的重要性标签” 为监督信号，让双向bert模型学习 “判断 token 对任务结果的贡献度”

根据用户指定的压缩比，执行以下操作：
对输入文本的所有 tokens 按 “重要性概率” 降序排序；
计算 “压缩比对应的分位数阈值”（如压缩比 0.6 对应 “前 60% 重要性 tokens 的最低概率值”）；
保留所有重要性概率 ≥ 阈值的 tokens，修剪低于阈值的冗余 tokens，生成压缩后文本。

可用性分析：第一篇论文的工作用于cot压缩，目前只是利用大模型生成三元组，无显式输出cot，经查询，目前部署的qwen1.5-14b-chat也无隐式思维链，无法利用该论文做token压缩；第二篇论文可用于压缩提示词，然而目前原本的输入就是轨迹序列，几乎无法压缩。

数据集调研

基于全球AIS的多源航迹关联数据集（MTAD）

多源航迹关联数据集（Multi-source Track Association Dataset, MTAD）是由全球AIS航迹数据经栅格划分、自动中断和噪声添加处理步骤构建。

查看数据集说明和具体文件内容后发现，数据集聚焦于同一个体的轨迹拼接，不涉及船舶行为关系，无法使用

琼州海峡船舶交互数据集

专门针对多船会遇、避碰等核心交互行为构建的数据集然而未开源

InterHub

可提取车辆与车辆、车辆与行人等多类交通个体的跟驰、避让等交互关系，还能捕捉多主体连锁交互行为。

论文阅读

TokenSkip: Controllable Chain-of-Thought Compression in LLMs

数据集调研

发送评论 编辑评论

发送评论编辑评论