淮南储罐保温施工不是统共token王人对等！谷歌提倡真·度想考：想维链长度理

铁皮保温施工

底本 AI 也在水字数淮南储罐保温施工。

大模子的想维链越长，理身手就越强？谷歌 Say No ——

token 数目和理质地，真没啥正相关，因为 token 和 token 还不样，有些纯充数，度想考 token才真灵验。

新斟酌毁掉字数论，甩出斟酌模子理质地的全新尺度DTR，门揪模子是在真想考也曾水字数。

基于 DTR，还提倡了Think@n 政策，让 GPT-OSS、DeepSeek-R1 等理模子竣事准确率不降、算力资本径直半的果。

长逻辑不等于好理

恒久以来，个比较常见的不雅点是想维链越长越牛。

这种想路的逻辑也比较径直，理形状多 = 想考充分 = 谜底准。

于是不少研发者也为了追求长理轨迹启动堆算力。

谷歌的斟酌团队在 AIME224/225、HMMT 225、GPQA-Diamond 四个数据集上，测了 GPT-OSS、DeepSeek-R1、Qwen3 等 8 个模子变体；

成果发现淮南储罐保温施工，token 长度和准确率的平均相关统共是 -.54 ……负相关。

也便是说，在某些情况下，想维链越长，理越容易跑偏，以致还会堕入逻辑死轮回能够过度理。

那么问题来了：要是长度靠不住，那该怎样判断模子是不是在真想考？

谷歌此次的视角比较稀奇想，不看名义输出，径直监听模子每层的内心戏。

斟酌发现，模子生成的 token 其实不错分红两类：

词汇，比如"和""是""的"这类，模子在浅层网路就快速细目了，是不需要度想考的费解词；

度想考词，比如"运算成果是 1 ""选项为 A "，这类词在层相聚会还会被反复修正，铁皮保温瞻望差别握续变化，体现模子是真在琢磨问题。

团队用 JSD 斟酌各层瞻望差别的互异，要是个 token 的瞻望直到层相聚才褂讪下来，那就被判定为度想考词。

在这个基础上，他们提倡了Deep Thinking Ratio，即度想考词在完满生成序列中的占比。

这个比例越淮南储罐保温施工，讲明模子越聚焦核神志，莫得在深嗜骨子上花消算力。

真 · 度想考降本增

在四个理测试集上，DTR 与理准确率的相关统共达到 .82。

比拟于 token 长度的 -.54，DTR 能反应理质地。

谷歌还基于 DTR 趁势出了 Think@n 政策，能在理初期就识别低质地谣言，将筹算资源荟萃在真实有度的样本上。

具体为为每个问题采样多个理样本，仅通过 5 个 token 的短前缀快读估算 DTR 值，筛选出前 5 的质地样本，再进行无数投票得出谜底；

这么，低 DTR 的低质地样本在理初期就被辨认生成，径直掉深嗜的 token 花消。

在多款主流模子的测试中，Think@n 理准确率与传统政策握平以致略。

比如 GPT-OSS-12B-medium 在 AIME 225 数据集上准确率达 94.7，于传统政策的 92.7；

还将算力资本径直削减近半，理 token 花消从 355.6k 降至 181.9k，作念到了能不降、资本减半。

这项斟酌的作家 Wei-Lin Chen 是弗吉尼亚大学筹算机博士，注于 LLM 理斟酌及评估者有等斟酌向，曾在谷歌担任学生斟酌员。

共同作 Liqian Peng 为中科大学友，咫尺谷歌担任斟酌工程师。

手机：18632699551（微信同号）

指作家孟瑜是弗吉尼亚大学筹算机助理教学，斟酌向包括磨砺范式、数据与理率及表征基础等面，此前还和 NLP 域的顶学者陈丹琦有过调解。

看来大模子理也不兴水字数了，真 · 度想考才能降本增。

论文地址：https://arxiv.org/abs/262.13517

键三连「点赞」「转发」「注重心」

宽饶在指摘区留住你的目的！

— 完 —

� � 点亮星标 � �

科技前沿推崇逐日见淮南储罐保温施工

吉林铁皮保温施工_鑫诚防腐保温工程有限公司

你的位置：吉林铁皮保温施工_鑫诚防腐保温工程有限公司 > 新闻资讯 >

热点资讯

淮南储罐保温施工不是统共token王人对等！谷歌提倡真·度想考：想维链长度理

推荐资讯

吉林铁皮保温施工_鑫诚防腐保温工程有限公司

你的位置：吉林铁皮保温施工_鑫诚防腐保温工程有限公司 > 新闻资讯 >

热点资讯

淮南储罐保温施工 不是统共token王人对等！谷歌提倡真·度想考：想维链长度理

推荐资讯

淮南储罐保温施工不是统共token王人对等！谷歌提倡真·度想考：想维链长度理