💡 今日研究速览 (Daily Summary)

每日调研汇总

LLM的RL

今天的RL LLM对齐研究展示了向处理不确定性和个性化的复杂转变。关键的发展是从单一奖励模型转向可以分解和建模人类偏好中固有的不确定性的框架。提出的不确定性感知变分奖励因子分解(VRF)代表了一个重要步骤,将奖励成分视为概率基础。这可以通过捕捉不同用户或上下文认为有价值的内容的变异性来实现更细致的个性化,直接解决创建稳健且适应性强的对齐模型的核心挑战。

代理

自主LLM代理的前沿正在两个关键方面得到推动:架构设计和运营完整性。从架构上来说,我们看到了通过不对称行动者-批评者等框架实现持续的、多回合推理的创新,该框架将动作生成和运行时批评的组件进行了分解和专门化。这促进了自我进化和更稳定的长期任务。与此同时,人们非常重视构建值得信赖的现实世界系统,符合隐私的代理推理新框架就证明了这一点。这些系统引入了正式的机制来处理相互冲突的证据并遵守合规性约束,这对于将代理从受控基准转移到实际、可靠的部署至关重要。

多模式

多模态大型模型(MLLM)的安全性比对正在超越简单的输入过滤或事后校正。新出现的趋势是走向深度集成的有条件生成策略,将安全考虑直接纳入解码过程。所提出的条件解码方法(CASA)证实了这一点,旨在通过允许模型根据安全条件动态调整其输出来创建更强大的安全层。这代表着从仅仅检测不安全内容到从结构上防止其生成的主动转变,这对于负责任地部署日益强大的多模式系统来说是至关重要的发展。


1. 通过LLM个性化的概率偏好基进行具有不确定性的变分奖励因子分解

作者: Gyuseok Lee, Wonbin Kweon, Zhenrui Yue, SeongKu Kang, Jiawei Han, Dong Wang

机构: Unknown Institution

摘要: arXiv:2604.00997v1宣布类型:新摘要:奖励因子分解通过将奖励分解为共享基函数和特定于用户的权重来个性化大型语言模型(LLM)。然而,现有方法从稀缺数据中孤立地估计用户权重,作为确定性点,从而导致不准确和不可靠的推断。我们引入了变分奖励因子分解(VRF),这是一种不确定性感知框架,将每个用户的偏好表示为共享偏好空间中的变分分布。VRF通过变分编码器推断用户分布,通过与共享概率基的Wasserstein距离匹配来推导权重,并通过方差衰减损失来降低不确定估计的权重。在三个基准上,VRF在可见和不可见的用户、少数镜头场景和不同的不确定性水平上优于所有基线,收益延伸到下游对齐。

阅读原文


2. 多回合LLM Agent的非对称Actor-Critical

作者: Shuli Jiang, Zhaoyang Zhang, Yi Zhang, Shuo Yang, Wei Xia, Stefano Soatto

机构: Unknown Institution

摘要: arXiv:2604.00304v1宣布类型:新摘要:大型语言模型(LLM)展现出强大的推理和对话能力,但确保多轮交互中的可靠行为仍然具有挑战性。在许多现实世界的应用程序中,代理必须在不可能重新尝试的一次性设置中取得成功。现有的方法要么依赖于反思或事后评估,这需要额外的尝试,要么假设完全可训练的模型,而无法利用专有的LLM。我们为可靠的对话代理提出了一个不对称的行为者-批评者框架。一个强大的专有LLM充当参与者,而一个较小的开源评论家提供运行时监督,监控参与者的行为并干预相同的交互轨迹。与基于培训的演员-批评者方法不同,我们的框架监督在开放式对话环境中运作的固定演员。该设计利用了一代验证的不对称性:虽然高质量的一代需要大型模型,但有效的监督通常可以通过较小的模型来实现。我们进一步引入了一个数据生成管道,该管道为评论家微调产生监督信号,而无需修改参与者。在$\tau$-长凳和userBench上的实验表明,我们的方法比强大的单代理基线显着提高了可靠性和任务成功率。此外,轻量级开源评论家在评论家角色上可以与更大的专有模型相媲美或超越,并且评论家的微调比几种最先进的方法产生了额外的收益。

阅读原文


3. 关怀:证据不一致的隐私合规推理

作者: Haochen Liu, Weien Li, Rui Song, Zeyu Li, Chun Jason Xue, Xiao-Yang Liu, Sam Nallaperuma, Xue Liu, Ye Yuan

机构: Unknown Institution

摘要: arXiv:2604.01113v1宣布类型:新摘要:大型语言模型(LLM)系统越来越多地用于支持高风险决策,但当可用证据内部不一致时,它们的表现通常会更差。这种情况存在于现实世界的医疗保健环境中,患者报告的症状与医疗迹象相矛盾。为了研究这个问题,我们引入了MMIC-LOS,这是一个用于重症监护室(ICU)环境中短期器官功能障碍恶化预测的数据集。我们从广泛认可的MIIC-IV(一个公开的电子健康记录数据集)中推导出这个数据集,并专门从体征和症状之间存在不一致的病例中构建它。这种设置对现有的基于LLM的方法构成了巨大的挑战,单次LLM和代理管道经常难以协调此类相互冲突的信号。为了解决这个问题,我们提出了CARE:一个多阶段符合隐私的代理推理框架,其中远程LLM通过生成结构化类别和转换来提供指导,而无需访问敏感患者数据,而本地LLM使用这些类别和转换来支持证据获取和最终决策。从经验上看,与多个基线设置相比,CARE在所有关键指标上都实现了更强的性能,这表明CARE可以更稳健地处理相互冲突的临床证据,同时保护隐私。

阅读原文


4. 通过条件解码实现稳健的多模式安全

作者: Anurag Kumar, Raghuveer Peri, Jon Burnsky, Alexandru Nelus, Rohit Paturi, Srikanth Vishnubhotla, Yanjun Qi

机构: Unknown Institution

摘要: arXiv:2604.00310v1宣布类型:新摘要:当有害查询利用跨模式交互时,多模式大语言模型(MLLM)通常会出现安全一致性下降的情况。当扩展到两个或更多模式时,仅基于文本对齐的模型显示出更高的攻击成功率。在这项工作中,我们提出了一种简单的条件解码策略CASA(具有安全注意力的分类增强),它利用MLLM的内部表示来在响应生成之前预测二进制安全令牌。我们引入了一个新颖的安全注意模块,旨在增强模型检测恶意查询的能力。我们的设计确保了稳健的安全对准,无需依赖任何外部分类器或辅助头,也无需针对特定模式的安全微调。在MM-SafetyBench、JailbreakV-28 k和对抗性音频测试等各种基准测试中,CASA将各种模式和攻击类型的平均攻击成功率降低了97%以上。我们的实证评估还表明,CASA在良性输入中保持了很强的实用性,这一结果通过自动化和人工评估(通过13个经过训练的注释器)进行了验证。总之,这些结果突出了CASA作为一个简单的和可推广的框架,以提高多式联运LLM的安全性。

阅读原文