关于思维链 – 伶衣の博客

论文阅读

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

文章提出思维链提示（Chain-of-Thought Prompting） 这一简单方法，通过在少样本示例中提供中间推理步骤，显著提升大语言模型在算术、常识和符号推理任务中的表现。该能力是模型规模扩大后的涌现特性，仅在约 1000 亿参数规模的模型（如 PaLM 540B）中有效，在 GSM8K 数学题基准上超越微调模型达到 SOTA，且对标注者风格、示例顺序等具有鲁棒性，同时存在推理路径不保证正确、依赖大模型规模等局限性。

思维链提示定义与特性

定义：提示由⟨输入、思维链、输出⟩ triples 组成，思维链是引导至答案的中间自然语言推理步骤
关键特性
涌现性：仅当模型参数≥100B 时生效，小模型（<10B）生成逻辑混乱的推理步骤
可解释性：推理过程透明，便于定位错误（如语义理解偏差、步骤缺失）
通用性：适用于任何人类可通过语言推理解决的任务
便捷性：无需微调，仅通过修改提示即可应用于现有大模型

Self-Consistency Improves Chain of Thought Reasoning

核心结论：10-100B 模型可通过自一致性采样小幅提升性能，但仍无法媲美 100B + 模型。

自一致性采样（Self-Consistency）：新型解码策略，用于替代思维链提示（Chain-of-Thought Prompting）中的贪心解码，其核心是通过采样多样化的推理路径并聚合最一致的答案来提升语言模型的推理性能；该方法无需额外训练、标注或辅助模型，完全无监督且即插即用。

简单来说就是：
对同一个问题、用同一个 CoT 提示，随机采样多条推理路径（temperature>0，生成 5～40 次）。
每条路径都会得到一个最终答案，把答案集合起来。
多数投票（或加权/聚类）选出出现频率最高的答案作为最终输出

CUDA_VISIBLE_DEVICES=5,6,7,8
python -m vllm.entrypoints.openai.api_server
–model /netcache/huggingface/Qwen3-14B
–tensor-parallel-size 4
–host 0.0.0.0
–port 18001
–gpu-memory-utilization 0.9
–dtype bfloat16

思维链没用明显提升，或许是因为14b规模太小

关于数据集，确实是没有找到涉及轨迹和关联的数据集，如果需要的话，目前找到InterHub数据集可提取车辆与车辆、车辆与行人等多类交通个体的跟驰、避让等交互关系。但是格式完全不同，内容复杂，数据规模也很大，也没找到现成的预处理代码，或许需要较长时间自己写代码，将它转化成目前从轨迹到关联的形式。

论文阅读

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

Self-Consistency Improves Chain of Thought Reasoning

发送评论 编辑评论

发送评论编辑评论