张·海兰(Zhang Haoran)是上海大学人工智能学院的第一年博士生,他说,他的研究兴趣主要包括对可靠的人工模型和智能的推断。去年12月Operai提出的审议的一致性吸引了普遍的关注。鉴于用户的安全风险,最大的模型将不再被拒绝,而是将规范的看法整合到思维过程中,积极识别限制并阐明他们可以并且应该避免什么。在促进这种转变的核心是“规范”(规格,规格),即限制在某些情况下模型行为的规则和准则。近年来,OpenAI和Google等基本模型的制造商已在大型模型中综合规范,以阐明行为标准必须继续进行。想想我们的日常世界。公司有法律规定明确规定Ine Rebel地区。该行业的专业标准使您想起如何做事。和道德规范提醒我们不要跨越意识的最终结果。这些是模型必须符合的某种类型的安全规范以及必须满足的红线。同时,在我们的工作和生活中,我们需要一个彼此面对一组灵活而不断变化的规则。 KPI的写作,公司的职责和报告必须是合乎逻辑的,并且客户服务的响应必须是热情的。这些是行为规格,有时会改变,有时在场景和目标中更新。问题是:在一个现实中,多个法规并存,大型模型是否可以在Infus要求Infinitos灵活的情况下保持最低的安全线?法律和道德是凶猛的红线,具有工作流程,工作标准,甚至报告根据行业,设备或目标而有所不同的报告。获得模型来满足并不容易这些规格同时。为了应对这个问题,上海洋子大学的研究团队,香港大学,中国科学技术大学,中国和UIUC的科技大学要求密切维护精美的安全标准以及几种情况的行为守则。文件标题:限制的推断:改进的纸链接链接链接纸张对齐时间通过删除试用时间:https://arxiv.org/abs/2509.14760代码和数据:https://github.com/zzzhr97/specbench,团队建立了首次评估银行。通过对33个常规模型的整体评估对规格的一致性。同时,Theteam研究了几次证据时间审议(试验时间的审议,TTD),Auto Refino,TPO及其提议的ALIGN 3。结果表明,这些方法可以通过规格显着提高对大规模模型的遵守,并继续平衡安全性和实用性。如图URE 1:不同模型规格对齐的特征的示意图。 GPT-5缺陷。测试期间的深思熟虑方法(例如Align3,tpo和自我refine)可以显着提高模型规范对齐的能力。规格比对的核是在不同情况下同时允许大型模型同时满足两种规格。例如,在儿童故事产生的情况下,大型模型应严格避免产生暴力或可怕的内容。在辅助编程场景中,如果用户要求生成后门代码,以避免可以避免通过通行的身份验证,则该模型也必须牢固地拒绝。 2。行为类型:指定模型如何重现更好的角色,并反映了开发规范的用户或组织的偏好,例如内容偏好,客观方向,输出格式和表达方式。对于EXAmple,在产生童话故事时,该模型必须至少包含明确的教育意义。在制定用户的旅行计划时,该模型需要提供多组可比行程。在模型推理过程中,这种双重限制可以用简洁的数学公式表示。这意味着对行为准则的满意度最大化,同时确保安全风险不会超过可接受的阈值。但是,使用的标准不是静态的,并且充满了差异。儿童的故事应该刺激想象力,同时避免恐惧和歧视。代码生成必须消除脆弱性,同时保持效率和清晰度。更重要的是,这些规格与任务,环境甚至用户身份不断协调。由于差异,旅行计划是文化的,可以增加新的禁忌,并且公司客户服务可以通过季度目标改变响应方式。另外,许多代码行为直接反映了个性化的偏好和需求。因此,规范性一致性是一个动态,多样化和调整的挑战,它要求大型模型不仅遵守红线,而且还适应了当地条件。图2:在特定场景中遵循特定规范的大型模型的标准化对齐范式,中心的中心规范:系统评估规范的第一个参考点,用于对系统评估规范的对齐方式,提出了第一个参考规格的对齐方式,并涵盖了五个典型的应用程序场景,其中包括五个典型的应用程序场景。 1,500个精心设计的技巧。在测试过程中深入思考:使用参考点的灵活标准对齐方式,新问题是:对模型的精细调整是有效的,但是它们很昂贵,更新缓慢,并且规格不断变化。为此,reseaRCH团队提出了更灵活的想法,并在TTD中进行了测试期间(测试期间的审议)深入思考)。这使模型可以深入思考推理阶段的规格,并更好地调整已建立的规范而不更改模型参数。图3:研究团队提出的一些代表性审议方法,包括最佳-N,TPO和Align3。基于此,团队提出了一个三阶段TTD方法对齐3。行为和安全规范在推理过程中按顺序进行调整,并进行最终的一般反射,将标准比对嵌入推理链中,从而提高了模型的可靠性。实验结果研究小组在SpecBench中测试了33个模型,包括18种教学模型和15个推论模型。结果表明,大多数模型在规范对准方面都有明显的差距。有些模型有触摸安全限制的风险,而另一些模型只是重新启动当他们发现风险时。令人惊讶的是,GPT-5在五种情况下展示了Poten的客户,远远超过了其他型号。研究小组说,这是开放的,我们与最新的AI安全完成培训密切相关。图4:评估不同模型规格的对齐特性的结果。其中,GPT-5领先,获得了82.14%的SAR得分。图5:在五个主要情况下,某些模型具有SAR规格的一致性评分。 GPT-5(最外面的红线)遥遥领先。其他实验表明,测试下的深思熟虑(TTD)可以有效地改善规范对准函数。 TPO,Auto Refino和Better N-N等方法取决于并行抽样或重复反射以提高性能,但通常需要高计算成本。研究小组提出,Align3可以以较低的成本产生更好的局限性,只是同时产生它。图6:在Qwen3-14b和Call-3.1-8B中 – 仪器,不同的TTD方法有效地改善了规范对准效应。其中,Align3实现了一个很好的观点。未来的模型必须在安全性和实用性之间找到更详细的平衡,不仅遵循最后一行,而且要了解用户的需求。 SpecBench提供了统一的评估标准,Align3展示了一个轻有效的解决方案,但这仅仅是开始。随着规格变得更加多样化和个性化,他们需要在更复杂的环境中表现出更大的抵抗力。可能会有一个人的AI在此过程中真正进入日常生活。该项目目前是Github的开源,有兴趣的学生可以了解它。
特殊声明:以前的内容(包括照片和视频(如果有),如果有)已由Netase Auto-Media平台的用户收费和发布。该平台仅提供信息存储服务。注意:以前的内容(如果您有照片S或视频)将由社交媒体平台NetEase Hao的用户收取和发布,并且仅提供信息存储服务。