Machine Report编辑器的心脏:张Qian在思想链中的步骤很重要,但比其他步骤更重要,尤其是在相对较长的思想链中。找到这些步骤将使您能够更好地了解LLM的内部推理机制,并提高模型的解释性,纯化和安全性。但是,这些步骤并不容易。这是因为生成的每个令牌都取决于以前的所有令牌,并且它们的计算很难分解。在最近的一项研究中,杜克大学和Aiphabhet大学的研究人员提出,在祈祷水平上分析推理的痕迹可能是一种有前途的方法。文档标题:思想锚:LLM的哪些推理步骤很重要?纸质链接:https://arxiv.org/pdf/2506.19143作者指出,句子比令牌比令牌更一致,并且通常与llm fy LLM的推论stepsextract相吻合。与段落相比,陈述不太可能混淆推理pRocedures,可用作连接不同过程的有效对象。作者提出了三种互补方法来分析LLM的推理过程。 LLM的目的是确定推理过程中的关键步骤,即,SO所谓的“思想锚”对后推理过程有重大影响。第一个是黑匣子方法。它通过背景分析来衡量祈祷对最终反应的影响。换句话说,通过比较包括句子的最终响应分布来评估最终响应中句子的效果,并不包括语句。第二个是白现金法。通过注意模式识别重要的句子,并揭示重要的陈述如何影响推理轨迹。第三是因果关系的道路。通过抑制注意力,我们直接衡量句子的因果关系,即对特定句子的关注如何影响每个后续句子的logit。每种方法都提供了有关心理锚的存在的证据。这些推论程序非常重要,并且对随后的推论过程产生不成比例的影响。这些思想锚通常是计划或挫折声明。作者的方法提供了可视化食物的开源工具。开源工具链接:http://thought-anchors.com/measurement向后句子影响比其他句子更重要的句子,但是最重要的句子取决于它们的定义和度量。作者将祈祷级别的重要性描述为无偿案例的CTO。声明如何影响模型的后续步骤和最终退出?以前的研究通常通过对推理过程中每个句子的位置中的最终响应进行建模,从而近似胁迫句子的重要性。此方法称为“强制响应”(第三次AS如图所示)。这种方法的局限性是,对于某些最终响应,可能需要陈述,但是LLM通常在推理过程中以后生成语句。这意味着,对于所有出现的句子,所需的响应将不那么精确,这使得无法确定这些第一步的重要性。考虑推理的轨迹,该推论由祈祷和最终回应A组成。作者通过对负责答案的祈祷来定义规模。作者称这一措施是对抗性的重要性。通过三个推理轨迹的采样步骤来激励和定义该指标。特定语句的S_I生成100个推理轨迹。在一种情况下,包括声明(干预条件),在另一种情况下,具有不同语义的声明t_i被S_I(基本条件)取代。分布比较。计算最终响应分布的KL差异n在两个条件下。这引起了标量,该标量衡量声明S_I更改答案的程度。作者称其为重制的重要性。语义过滤问题的重要性是,除去剂的重要性是,如果T_i与S_I相同或相似,则不可能知道S_I是否重要。因此,作者在替代语句中排除了T_IS,这些语句与原始语句S_I语义不同,以计算声明的COSEN相似性和建立相似性的阈值。 Andsto导致由替代声明与原始声明过于相似的替代声明引起的分析偏差。避免了它,因此更精确地评估了S_i对最终响应的影响。作者示例S_I之后的所有步骤,因此避免了所需响应方法的先前限制。在数据集中,我们发现计划生成的逆势重要性d不确定性的管理,例如后坐力,这些句子总是比其他类别的句子(例如搜索事实和主动计算)更具反事实重要性(请参见图3B)。这支持了高层有组织的句子可以修复,组织和指导推理轨迹的想法。作者认为,这种方法比强制性响应的重要性和基于令牌的先前措施的重要性更有益。 IM对祈祷的测量率通过集中注意力提出了一个假设,即重要的句子可以从下游句子中引起更多关注。尽管注意力的重量并不一定意味着因果关系,但高度关注是一种合理的机制,重要的句子可能会影响后续句子。作者还推测,对重要句子的重视可以由私人护理经理驱动,并且在跟踪这些头时可能是可能的ible确定重要的句子。作者评估了不同头部将注意力集中在特定句子上的程度。首先,对于每个推断轨迹,我们平均每个令牌令牌的护理权重矩阵到每个注意力头,以形成一个祈祷句的矩阵,其中每个元素是两个句子。根据每个护理矩阵,他们计算对角线以下的平均列,以测量从每个句子获得的所有下游句子获得的注意水平。只有至少四个句子分隔的句子之间的平均值才能集中在远程连接上。这会产生每个头部的分布(例如,图4a),每个头部关注特定句子的程度通常可以通过该分布的底漆来量化(每个推断轨迹都是通过轨迹计算并平均)。为每个头部绘制co缩图表明,某些注意力头将其聚焦为A在特定的祈祷中,强烈地对推理的轨迹很重要(图4b)。图5显示,计划产生,不确定性管理和自我验证的句子始终是接收头的最大关注(见图5)。在与这一发现的额外协议中,根据最新方法,受到高头关注的句子往往会对下游句子产生重大影响。这些发现与推理轨迹围绕高级句子构建的想法是一致的。这些语句发起的计算可以连接到高级语句,但可能对一般推理路线产生最小影响。由于“抑制关注”自然,句子的重要性自然而然地衡量句子的重要性,存在着固有的局限性来检查注意力的重量。因果关系无法衡量。另外,接收PTION头不一定足以确定声明与以下单一陈述之间的关联。因此,作者将重点关注互密的单位的因果分析。虽然这些单元可以检查这些单元,但分配逻辑连接时的精度有限。这是因为背景重要性反映了另一种祈祷(直接和间接影响)中祈祷的一般影响。该文档方法旨在隔离语句的直接影响,因此有望实现对逻辑连接的更精确的建模。作者在抑制特定陈述中抑制所有注意力(所有层和头)后观察其对陈述的影响。具体而言,影响的范围定义为代币的logit logit和基线logit的差异(如果未删除)。随后的陈述的总效果计算为其令牌log kl Compositi的平均差异在。此方法基于两个假设。 TokenLogits可以准确捕获语句的语义内容。震惊不关注对外部行为的干扰。因此,必须检查抑制注意力与最新方法之间的相关性。后者不那么精确,但不相信上述假设。注意抑制矩阵与REJUO矩阵的值有显着的相关性。在20个推理轨迹中,有19个显示正相关。如果仅分析推理轨迹的五个句子(也许捕获直接效应会更好),则相关性更强。考虑到这些方法衡量因果关系的不同原因,并在恢复方法本身中包括随机噪声,两个相关系数非常重要。此结果允许简历方法。案例研究中使用的三种技术涵盖了I级别I级别的归因分析nentry轨迹。然后,作者通过模型对特定问题的响应来展示这些技术的实用性和互补性。选定示例中的问题是“ Si Hexadecimal 666666_16成为二进制表示,是否有几个二进制位(位)?”解决此问题的拆卸模型的想法是,要考虑66666_16首先包含五个进度进展,每个十六进制位可以用四个二进制位来表示。基于这种逻辑,思想链发生到“ 20位”。但是,第一个响应忽略了6_16确实对应于110_2(否0110_2,因为第一个0是无效的),因此正确的答案必须为“ 19位”。在声明13中,在开始计算转换66666_16为十进制时,该模型会更改为正确的答案,然后将其转换为二进制。 REJUO方法揭示了此初始误差轨迹和关键拐点(图2A中的非常弯曲点)。具体Lly,预期的精度继续在6和12个句子之间降低,而祷告13急剧提高了偶然的精度。请记住,祈祷13的关键作用被视为一种评估方法,迫使该模型立即产生响应(如现有研究所示)。此方法仅获得0的精度。接收头模型的推理轨迹获得最终的正确响应可以分解为多个计算模块(请参见图6流程图)。首先,该模型建立了一个公式,该公式将6666_16转换为十进制数字(语句13-19)。接下来,我们计算此方程,并获得对应于66666_16的小数值为419,430(判断20-33)。接下来,通过提出和解决新公式,可以确定正确的答案是“ 19位”(判断34-41)。在这一点上,该模型对“ 20位”的初始响应做出了响应(42我们与-45有矛盾),因此我们开始编译验证两个因素。首先,验证十进制数字的60种精度(判断46-58),然后验证校正二进制转换(句子59-62)。在提高对“ 19位”响应的可靠性之后,该模型最终发现了“ 20位”的第一个错误的根本原因:“第一个0不计算位数的数量”(祈祷66)。以前的过程基于对作者注意模式的分析。接收器的头完全找到了开始计算或状态的重要结论的句子,从而将推理轨迹分为不同的重要模块(图6)。除了在计算模块中进行组织外,推理过程还显示了与Interdescub依赖关系相关的框架结构(图6)。结构特征是一种自动校正模型,其中包括虚假建议,冲突发现和最终解决方案。具体而言,第一个模型道具对“ 20位”(祈祷12)的反应不正确,并决定重新确认它。这导致通过十进制转换来计算。对“ 19位”的响应是不一致的(声明43-44)。在重新评估接受“ 19位”响应的操作后,该模型返回到不一致的位置(步骤65),最后解释了为什么“ 20位”的响应不正确(步骤66)。这可以看作是初步的思想链循环。两个矛盾的结论造成了冲突,并鼓励模型解决冲突。与先前计算的验证相比,这种出色的扩展框架具有更深的依赖性。具体而言,第一个模型将66666_16的计算转换为小数为419,430(声明32),并决定并验证转换结果(声明46),最后确认原始值是正确的(声明59)。这可以看作是思想链电路的附加反映。作者ID基于上面在文档中描述的注意力抑制矩阵赋予这些重要连接,该矩阵在这些相关位置中呈现局部最大值(12→43、43→65、12→66; 32→46、32→59)。值得注意的是,抑制注意力技术的大多数陈述都与收到头部的感兴趣的陈述相叠加。与接受者头部的结论相比,注意力抑制技术指导了这些重要句子之间的推论轨迹。使新闻如何流动。有关更多信息,请参见原始文档。