
底本 AI 也在水字数淮南储罐保温施工。
大模子的想维链越长,理身手就越强?谷歌 Say No ——
token 数目和理质地,真没啥正相关,因为 token 和 token 还不样,有些纯充数,度想考 token才真灵验。
新斟酌毁掉字数论,甩出斟酌模子理质地的全新尺度DTR,门揪模子是在真想考也曾水字数。
基于 DTR,还提倡了Think@n 政策,让 GPT-OSS、DeepSeek-R1 等理模子竣事准确率不降、算力资本径直半的果。
长逻辑不等于好理
恒久以来,个比较常见的不雅点是想维链越长越牛。
这种想路的逻辑也比较径直,理形状多 = 想考充分 = 谜底准。
于是不少研发者也为了追求长理轨迹启动堆算力。
谷歌的斟酌团队在 AIME224/225、HMMT 225、GPQA-Diamond 四个数据集上,测了 GPT-OSS、DeepSeek-R1、Qwen3 等 8 个模子变体;
成果发现淮南储罐保温施工,token 长度和准确率的平均相关统共是 -.54 ……负相关。
也便是说,在某些情况下,想维链越长,理越容易跑偏,以致还会堕入逻辑死轮回能够过度理。
那么问题来了:要是长度靠不住,那该怎样判断模子是不是在真想考?
谷歌此次的视角比较稀奇想,不看名义输出,径直监听模子每层的内心戏。
斟酌发现,模子生成的 token 其实不错分红两类:
词汇,比如"和""是""的"这类,模子在浅层网路就快速细目了,是不需要度想考的费解词;
度想考词,比如"运算成果是 1 ""选项为 A ",这类词在层相聚会还会被反复修正,铁皮保温瞻望差别握续变化,体现模子是真在琢磨问题。
团队用 JSD 斟酌各层瞻望差别的互异,要是个 token 的瞻望直到层相聚才褂讪下来,那就被判定为度想考词。
在这个基础上,他们提倡了Deep Thinking Ratio,即度想考词在完满生成序列中的占比。
这个比例越淮南储罐保温施工,讲明模子越聚焦核神志,莫得在深嗜骨子上花消算力。
真 · 度想考降本增
在四个理测试集上,DTR 与理准确率的相关统共达到 .82。
比拟于 token 长度的 -.54,DTR 能反应理质地。
谷歌还基于 DTR 趁势出了 Think@n 政策,能在理初期就识别低质地谣言,将筹算资源荟萃在真实有度的样本上。
具体为为每个问题采样多个理样本,仅通过 5 个 token 的短前缀快读估算 DTR 值,筛选出前 5 的质地样本,再进行无数投票得出谜底;
这么,低 DTR 的低质地样本在理初期就被辨认生成,径直掉深嗜的 token 花消。
在多款主流模子的测试中,Think@n 理准确率与传统政策握平以致略。
比如 GPT-OSS-12B-medium 在 AIME 225 数据集上准确率达 94.7,于传统政策的 92.7;
还将算力资本径直削减近半,理 token 花消从 355.6k 降至 181.9k,作念到了能不降、资本减半。
这项斟酌的作家 Wei-Lin Chen 是弗吉尼亚大学筹算机博士,注于 LLM 理斟酌及评估者有等斟酌向,曾在谷歌担任学生斟酌员。
共同作 Liqian Peng 为中科大学友,咫尺谷歌担任斟酌工程师。
手机:18632699551(微信同号)指作家孟瑜是弗吉尼亚大学筹算机助理教学,斟酌向包括磨砺范式、数据与理率及表征基础等面,此前还和 NLP 域的顶学者陈丹琦有过调解。
看来大模子理也不兴水字数了,真 · 度想考才能降本增。
论文地址:https://arxiv.org/abs/262.13517
键三连「点赞」「转发」「注重心」
宽饶在指摘区留住你的目的!
— 完 —
� � 点亮星标 � �
科技前沿推崇逐日见淮南储罐保温施工
相关词条:罐体保温 塑料挤出设备 钢绞线 超细玻璃棉板 万能胶
