赤峰铁皮保温工程破解自动驾驶测试「跷跷板」清贫：个模子遍历从保守到激进的抵御活动

发布日期：2026-02-28 02:31:59|点击次数：156

自动驾驶系统的落地离不开大限制的安全测试。为了责罚真确路测中"长尾分散"和"寥落"清贫赤峰铁皮保温工程，抵御场景生成成为了种的仿真测试时代。

关联词，现存的法面对经典"跷跷板"清贫：要么生成的场景具报复但物理上不真确，要么过于保守而失去了测试价值，难以涉及系统的长尾失鸿沟。

重要的是，传统法时常只可学习个固定的量度点，旦实验完成其活动样式即被固化。若需诊治测试的难度或者适配不同的被测算法，时常需要再行实验模子，斥逐了测试率和机动。

针对这些问题，近日被ICLR 226招揽的职责SAGE（Steerable Adversarial scenario GEnerator）建议了种全新的范式：将可控抵御生成重构为多筹画偏好对王人问题。SAGE 模仿了 LLM 中多筹画偏好对王人的想想，通过测试时权重插值，杀青了在需再行实验的情况下，理阶段对生成场景的"报复"和"真确"进行一语气、及时的操控。

为什么需要"可操控"的生成？

在自动驾驶抵御测试域，商酌团队时常但愿生成的抵御轨迹既能诱发失，又顺应东谈主类驾驶风俗和物理端正。关联词现存的主流法时常将多个筹画线加权化，存在两点局限：

1. 筹画龙套致样式坍塌：报复与真确筹画本体上是梯度龙套的。传统的线标量法时常致模子坍塌到端解，容易堕入为了报复而视物理端正的局部。

2. 衰败理时机动：在闭环实验中 Agent 的武艺是动态进化的。初期需要通俗的场景陶冶，后期需要端的场景压力测试。固定模子法高慢动态课程学习的需求。

△ 图 1：现存抵御生成法的局限（左）与 SAGE 框架（右）。中枢法

SAGE 的中枢想想是不再试图实验个的单模子，而是特征空间实验偏好流形，并通过权重插值查询中间景色。

阶段：离线对王人——档次化分组偏好化

为了让模子学会相识"什么是好的抵御场景"，商酌团队欺诈预实验的透露生成模子看成基座，进行偏好化微调。

为了责罚多筹画龙套的问题，团队建议了种离线对王人算法HGPO（Hierarchical Group-based Preference Optimization）。不同于传统的 DPO，HGPO 通过分层盘算将硬护士与软护士解耦，并收受分组采样：

1. 分层盘算：将舆图合规视为硬护士，报复和拟东谈主化视为"软偏好"。

2. 分组采样：赤峰铁皮保温工程

a. 可行先：任何顺应舆图护士的轨迹于违法轨迹。

b. 可行域内择：在顺应护士的聚首中，比拟励得分低。

分层盘算避了模子在化经由中为追求陈述而梗阻可行，铁皮保温施工提了样本率。通过 HGPO，商酌团队分袂得到两个模子：个大化报复，个大化真确和合规。

阶段二：在线可控——测试时权重交融

在微调完成后，SAGE 不需要在理时再行实验。相悖，成功在权重空间结合这两个偏好"端点"的旅途上进行线插值：

用户只需要诊治偏好扫数就能赢得个新的羼杂模子，生成处于两者格调之间的场景。通过次离线实验即可得到笼罩从"保守"到"激进"的一语气生成谱系，访佛完好意思的 Pareto 前沿。

为什么权重插值是有的？

直观上，对两个神经网络的参数成功求平均会梗阻模子的非线结构致能坍弛。为什么在 SAGE 中这种作念法不仅有，甚而比成功羼杂输出成果好？

商酌团队引入了线样式连通（Linear Mode Connectivity, LMC）表面来解释这原意。

由于两个都是从同个预实验模子微调而来的，它们位于参数空间中同个 low-loss basin。LMC 表面指出，结合这两个的澄莹径上，模子照旧保握低 loss。商酌团队跳跃解说：当 reward landscape 在插值旅途上呈现凹，权重插值就于输出羼杂。

△ 图 2：LMC 教化凭据以及权重空间的偏好向量抑制。实验考据

商酌团队在 Waymo Open Motion Dataset （WOMD）上进行了大都的实验与征询。

开环生成能赤峰铁皮保温工程

在生成质料上 SAGE 展现出了著的势。SAGE 在保证报复得胜率的同期，大幅镌汰了舆图和物理违法率，何况生成的轨迹加连贯、顺应透露学护士。

△ 图 3：SAGE 抑制的抵御车辆大略引申变谈加塞等顺应东谈主类逻辑的风险博弈活动。

△ 图 4：SAGE 生成多类抵御活动。

可控上，在测试时仅更正偏好扫数即可杀青在 Pareto 前沿上一语气抑制生成的活动样式。

△ 图 5： ( a ) SAGE 生成的 Pareto 前沿著于其他法。 ( b ) 碰撞率和真确一语气且单调可控。

△ 图 6：通过更正抵御权重，SAGE 产生的轨迹从当然驾驶活动过渡到抵御活动。闭环实验用：鲁棒的自动驾驶计谋

商酌团队将 SAGE 集成到闭环强化学习实验中，欺诈其可操控盘算了双轴课程学习计谋，同期抑制抵御强度和频率。

△ 表 3：不同抵御实验法得到的驾驶计谋能对比。

基于 SAGE 实验的 Agent 在安全、任务完成度和舒限定上均取得了佳均衡。这种"秩序渐进"的抵御实验式有缓解了可怜渐忘，让 Agent 既能处理端 Corner Case，又不会在平日驾驶中变得过度保守。

回首

地址：大城县广安工业区

SAGE 将可控抵御场景生成视为测试时偏好对王人问题。通过引入偏好化和权重空间插值，杀青了老本测试时操控，仅需个标量即可遍历从"保守"到"激进"的活动谱系。

SAGE 不仅为自动驾驶的安全考据提供了可控测试器具，也为何如机动抑制生成模子的活动提供了个通用的框架。曩昔商酌团队将探索将这范式彭胀到复杂的场景和万般化的筹画。

论文题目：

ICLR 226 | SAGE：测试时偏好对王人杀青自动驾驶"可操控"抵御场景生成

作家：

Tong Nie, Yuewen Mei, Yihong Tang, Junlin He, Jie Sun, Haotian Shi, Wei Ma, Jian Sun

单元：

香港理工大学，同济大学，麦吉尔大学

论文辩论：

https://openreview.net/forum?id=lYNsZdKn5R

键三连「点赞」「转发」「防范心」

宽待在挑剔区留住你的主义！

— 完 —

咱们正在招聘名眼疾手快、柔顺 AI 的学术剪辑实习生 � �

感兴致的小伙伴宽待柔顺 � � 了解确定

� � 点亮星标 � �

科技前沿推崇逐日见赤峰铁皮保温工程

相关词条:铝皮保温施工隔热条设备钢绞线玻璃棉卷毡保温护角专用胶

上一篇：呼伦贝尔铁皮保温施工队 11银行年报先看！浦发、中信规模冲破1万亿青岛银行增速跑下一篇：十堰罐体保温工程媒体东谈主：男篮遑急得太差没信心不敢投的球员就别带了

推荐资讯

赤峰铁皮保温工程 破解自动驾驶测试「跷跷板」清贫：个模子遍历从保守到激进的抵御活动

赤峰铁皮保温工程破解自动驾驶测试「跷跷板」清贫：个模子遍历从保守到激进的抵御活动