AMiD:具有$\Alpha$-混合物辅助分布的LLM知识蒸馏

arXiv:2510.15982v1宣布类型:新摘要:自回归大型语言模型(LLM)在许多任务中取得了显着的改进,但却带来了很高的计算和内存成本。知识提炼(KD)通过分布对齐将知识从大教师转移到小学生来缓解这个问题。之前的研究提出了各种差异指标,但源于LLM的多维输出的近零概率引起的容量差距和训练不稳定性仍然是根本限制。为了克服这些挑战,最近提出了几种隐式或显式地结合助理分配的方法。然而,过去的辅助分布建议是一种支离破碎的方法,没有对插值路径和分歧进行系统的研究。本文提出了$\Alpha$-混合辅助分布(一种新型的广义辅助分布族)和$\Alpha$-混合物蒸馏(由AMiD创造),这是一个使用辅助分布的KD的统一框架。$\Alpha$-混合辅助分布通过引入新的分布设计变量$\Alpha$(在之前的所有方法中都已修复)来提供辅助分布的连续扩展。此外,AMiD基于最优性概括了辅助分布使用的分歧族,这在之前的作品中也受到了限制。通过大量实验,我们证明AMiD通过利用更广泛且理论上基础的助理分发空间来提供卓越的性能和训练稳定性。

具有招聘学习的本地法学硕士

arXiv:2510.17358v1宣布类型:新摘要:我们提出了一种新颖的框架,用于训练具有连续可调整的内部表示的大型语言模型,该表示涵盖从本地化(可解释、基于规则)到分布式(可概括、高效)编码的全方位。关键创新是(1)局部拨盘,这是一种可调参数,可以在训练和推理期间动态控制局部化程度,而无需模型再训练,(2)信息理论招募机制,可以根据需要自适应地分配语义块,消除了初始化时对完整领域知识的要求,以及(3)分层招聘框架,将容量分配扩展到整个专业LLM,从而实现多粒度架构适应。这是通过对注意力机制的群体稀疏性惩罚、信息论锚点设计、动态规则注入以及基于具有明确单位的惩罚可能性的原则性招募标准来实现的。我们提供了严格的数学结果,建立了明确的阈值条件,在此条件下,注意力可证明集中在静止点的语义相关块上,并且注意力熵和指针保真度有精确的界限。分层招募机制在块级别(细粒度、LLM内)和LLM级别(粗粒度、跨域)提供收敛保证,确保系统发现平衡模型复杂性与数据编码效率的语义分区。该框架使从业者能够在可解释模式和高性能模式之间持续插入,同时适应多个粒度的架构能力,支持需要透明度和能力的监管领域中的应用程序。

MGTS-Net:探索用于增强时间序列预测的图形增强多峰融合

arXiv:2510.16350v1宣布类型:新摘要:时间序列预测的最近研究探索将多峰特征集成到模型中以提高准确性。然而,此类方法的准确性受到三个关键挑战的限制:细粒度时间模式的提取不充分、多峰信息的次优集成以及对动态多尺度特征的适应性有限。为了解决这些问题,我们提出MGTS-Net,这是一种用于时间序列预测的多模式图形增强网络。该模型由三个核心组件组成:(1)多模式特征提取层(MFE),根据时间、视觉和文本模式的特征优化特征编码器,以提取细粒度模式的时间特征;(2)多模式特征融合层(MFF),它构建了一个异类图来建模模式内时间依赖性和跨模式对齐关系,并动态聚合多模式知识;(3)多尺度预测层(MSP),通过动态加权和融合短期、中期和长期预测因子的输出来适应多尺度特征。大量实验表明MGTS-Net具有优异的性能、重量轻、效率高。与其他最先进的基线模型相比,我们的方法实现了卓越的性能,验证了所提出方法的优越性。

QSVD:低精度视觉语言模型中统一查询键值权重压缩的有效低秩近似

arXiv:2510.16292v1宣布类型:新摘要:视觉语言模型(VLM)是图像字幕和视觉问答等任务的组成部分,但由于大量内存占用和处理时间,它们的高计算成本限制了它们的可扩展性和实时适用性。在这项工作中,我们建议在联合查询(Q)、键(K)和值(V)权重矩阵上利用奇异值分解(DID)来减少KV缓存大小和计算负担。此外,我们还引入了一种高效的排名分配策略,该策略根据其对VLM准确性的影响动态调整DID排名,从而显着降低内存使用率和计算成本。最后,我们通过将量化应用于VLM权重和激活来扩展这种方法,从而产生高效的VLM。我们的方法优于之前仅依赖量化或奇异值分解的方法,在消耗更少的硬件成本的同时实现了超过10%的准确性改进,使其更适合在资源受限的设备上进行实时部署。我们在\href{https://github.com/SAI-Lab-NYU/QDID}{\textttt {https://github.com/SAI-Lab-NYU/QDID}上开放我们的代码。

从错误中学习:通过误判风险模式增强有害模因检测

arXiv:2510.15946v1宣布类型:新摘要:互联网模因已经成为一种流行的多模式媒体,但它们越来越被武器化,通过讽刺和隐喻等微妙的修辞手段来传达有害观点。现有的检测方法(包括基于MLLM的技术)难以应对这些隐性表达,从而导致频繁的误判。本文介绍了PatMD,这是一种新颖的方法,通过学习并主动减轻这些潜在的误判风险来提高有害模因检测。我们的核心想法是超越表面的内容层面匹配,而是识别潜在的误判风险模式,主动指导MLLM避免已知的误判陷阱。我们首先构建一个知识库,其中每个模因都被解构为误判风险模式,解释为什么它可能会被误判,要么忽视有害的隐含因素(假阴性),要么过度解释良性内容(假阳性)。对于给定的目标模因,PatMD检索相关模式并利用它们动态指导MLLM的推理。在6 626个模因的5个有害检测任务上进行的实验表明,PatMD的F1得分平均提高了8.30%,准确率平均提高了7.71%,表现出较强的泛化能力,提高了有害模因的检测能力.

端到端听、看、说和表演

arXiv:2510.16756v1宣布类型:新摘要:人类互动本质上是多模式和双环的:我们边看边听,边行动边说话,并流畅地适应轮流和中断。实现这些功能对于构建模拟人类的模型至关重要。我们介绍了ELLSA(端到端听、看、说和动作),据我们所知,它是第一个双环、端到端模型,可以在单一架构内同时感知和生成视觉、文本、语音和动作,从而实现以前遥不可及的交互模式,产生更自然、更像人的行为。其核心是一种新型的SA-MoE架构(Self-Attention Mixture-of-Experts),它将每种模式路由给专业专家,并通过统一的注意力主干将它们融合。这为联合多模式感知和并发生成提供了一种可推广的解决方案,利用强大的预训练组件,同时实现高效的模式集成并减轻模式干扰。在语音交互和机器人操作基准上,ELLSA匹配特定于模式的基线,同时独特地支持高级多模式和双环行为,例如对话和动作轮流、有缺陷的指令拒绝、边说话、基于上下文的视觉问答和动作闯入。我们认为ELLSA代表了迈向更自然和通用的交互智能的一步,为人工通用智能的更广泛追求做出贡献。所有数据、代码和模型检查点将在接受后发布。

Stratos:分布式云环境下定制LLM的端到端蒸馏管道

arXiv:2510.15992v1宣布类型:新摘要:垂直、特定领域任务的兴起以及在延迟和预算等限制下优化性能的需要推动了对定制且具有成本效益的大型语言模型(LLM)的工业需求不断增长。知识蒸馏作为一种有效的模型压缩和转移技术,提供了可行的解决方案。然而,现有的蒸馏框架通常需要手动干预,并且很难满足如此复杂的用户定义的蒸馏要求。为了弥合这一差距,我们提出了Stratos,这是一种端到端LLM提炼管道,可以自动化服务器和模型选择、知识提炼和分布式云环境中的部署。鉴于用户对模型性能和系统预算的定义约束,Stratos自动选择帕累托最优服务器,动态匹配师生对,并根据任务复杂性调整蒸馏策略以优化云托管。实验表明,Stratos创建了一个学生模型,在一项罕见的、特定领域的麻将推理任务中,其准确性是GPT-4 o教师基线的四倍,采用反向合成数据和知识注入。此外,它还在不影响准确性的情况下减少了延迟和成本。这些结果凸显了其对垂直域LLM部署的承诺。

ProtoMol:通过原型引导的多模式学习增强分子性质预测

arXiv:2510.16824v1宣布类型:新摘要:多模式分子表示学习联合对分子图及其文本描述进行建模,通过整合结构和语义信息来实现对药物毒性、生物活性和物理化学性质的更稳健和可靠的预测,从而增强了预测准确性和可解释性。然而,现有的多模式方法存在两个关键局限性:(1)它们通常仅在最终编码器层执行跨模式交互,从而忽略了分层语义依赖性;(2)它们缺乏统一的原型空间来实现模式之间的鲁棒对齐。为了解决这些限制,我们提出了ProtoMol,这是一个原型引导的多模式框架,可以实现分子图和文本描述之间的细粒度集成和一致的语义对齐。ProtoMol融合了双分支分层编码器,利用图神经网络来处理结构化分子图,利用变形金刚来编码非结构化文本,从而产生全面的分层表示。然后,ProtoMol引入了逐层双向跨模式注意力机制,该机制可以逐步调整跨层的语义特征。此外,还构建了一个具有可学习的、特定于类的锚点的共享原型空间,以引导两种模式实现连贯和区分性的表示。对多个基准数据集的广泛实验表明,ProtoMol在各种分子性质预测任务中始终优于最先进的基线。

学习游戏:3D游戏的多模式代理

arXiv:2510.16774v1宣布类型:新摘要:我们认为,3D第一人称视频游戏对于实时多模式推理来说是一个具有挑战性的环境。我们首先描述我们的人类游戏玩法数据集,该数据集在大量3D第一人称游戏中收集,与之前公开披露的数据集相比,该数据集既大又多样化,并且包含文本指令。我们证明,我们可以从这个数据集学习逆动力学模型,这使我们能够在缺乏记录动作的公开可用的人类游戏视频的更大数据集上估算动作。然后,我们使用行为克隆训练一个文本条件代理进行游戏玩,该代理具有能够在消费级图形处理器上进行实时推理的自定义架构。我们表明生成的模型能够玩各种3D游戏并响应文本输入。最后,我们概述了一些剩余的挑战,例如长期任务和大量游戏的量化评估。

VisuoAlign:通过多模式树搜索实现LVLM的安全对齐

arXiv:2510.15948v1宣布类型:新摘要:大型视觉语言模型(LVLM)在多模式感知和生成方面取得了显着的进步,但它们的安全性对齐仍然是一个严峻的挑战。现有的防御系统很容易受到多模式越狱的影响,因为视觉输入引入了新的攻击面,推理链缺乏安全监督,并且对齐通常在模式融合下会退化。为了克服这些限制,我们提出了VisuoAlign,通过预算引导树搜索实现多模式安全对齐的框架。VisuoAlign通过视觉-文本交互提示将安全约束嵌入到推理过程中,采用蒙特卡洛树搜索(MCTS)系统地构建多样化的安全关键提示轨迹,并引入基于预算的扩展,以确保实时风险检测和合规响应。大量实验表明,VisuoAlign主动暴露风险,实现全面的数据集生成,并显着提高LVLM针对复杂跨模式威胁的稳健性。

SimpleVSF:用于端到端自动驾驶轨迹预测的VLM评分融合

arXiv:2510.17191v1宣布类型:新摘要:端到端自动驾驶已成为实现稳健和智能驾驶政策的一个有希望的范式。然而,现有的端到端方法仍然面临重大挑战,例如复杂场景下的次优决策。在本文中,我们提出了SimpleVSF(简单VLM-Scoring Fusion),这是一个新颖的框架,通过利用视觉语言模型(VLM)的认知能力和先进的轨迹融合技术来增强端到端规划。我们利用传统的评分器和新型的VLM增强评分器。我们利用强大的权重模糊性进行定量聚合,并利用强大的基于LM的模糊性进行定性、上下文感知的决策。作为ICCV 2025 NAVSIM v2端到端驾驶挑战赛的领先方法,我们的SimpleVSF框架展示了最先进的性能,实现了安全性、舒适性和效率之间的卓越平衡。

大脑中的载体量化:世界模型中的网格式代码

arXiv:2510.16039v1宣布类型:新摘要:我们提出了类网格代码量化(GCQ),这是一种受大脑启发的方法,用于使用吸引子动力学中的类网格模式将观察动作序列压缩为离散表示。与对静态输入进行操作的传统载体量化方法不同,GCQ通过动作条件码本执行时空压缩,其中代码字源自连续吸引子神经网络,并基于动作动态选择。这使得GCQ能够共同压缩空间和时间,作为统一的世界模型。生成的表示支持长期预测、目标导向规划和逆建模。跨不同任务的实验证明了GCQ在紧凑编码和下游性能方面的有效性。我们的工作既提供了高效序列建模的计算工具,也提供了神经系统中网格状代码形成的理论视角。

Mos-VLA:具有一次性技能改编的视觉-语言-动作模型

arXiv:2510.16617v1公告类型:新摘要:在大型机器人数据集上训练的视觉-语言-动作(VLA)模型承诺跨不同领域和实施例的通用、鲁棒控制。然而,现有的方法在部署在新颖的环境、实施例或任务中时经常开箱即用地失败。我们引入了技能混合VLA(Mos-VLA),这是一个将机器人操纵策略表示为有限组学习的基函数的线性组合的框架。在预训练期间,Mos-VLA在Open X-Embassent项目的数据集中联合学习这些基本功能,从而产生结构化技能空间。在测试时,适应新任务只需要一个专家演示。然后通过轻量级凸优化问题来推断相应的技能表示,该问题最小化L1动作误差,而不需要梯度更新。这种无梯度适应所产生的费用最小,同时能够快速实例化新技能。从经验上看,Mos-VLA在五个未见数据集中的五个上实现了较低的动作预测误差,并且在模拟和真实机器人任务中都取得了成功,而预训练的VLA模型完全失败。项目页面:mos-vla.github.io/

用于领域增量学习的持续知识整合LORA

arXiv:2510.16077v1宣布类型:新摘要:领域增量学习(DIL)是一个持续学习子分支,旨在解决永无休止的新领域出现的问题,而不会出现灾难性的遗忘问题。尽管出现了参数高效微调(PEFT)方法,但现有作品创建了针对任务的特定LoRA,忽略了任务之间的共享知识。推理期间对特定任务的LORA的不准确选择会导致准确性显着下降,而现有的作品依赖于线性或基于原型的分类器,这些分类器的概括能力次优。我们的论文提出了解决DIL问题的持续知识整合低等级适应(CONEC-LoRA)。CONEC-LoRA是从任务共享LORA之间的整合中开发的,以提取共同知识,而特定任务LORA则以拥抱特定领域知识。与现有方法不同,CONEC-LoRA集成了随机分类器的概念,其参数从分布中采样,从而提高了正确分类的可能性。最后但并非最不重要的是,部署辅助网络来最佳预测特定于任务的LoRA以进行推理,并实现不同深度网络结构的概念,其中每一层都与本地分类器连接,以利用中间表示。该模块集成了球发生器损失和转换模块,以解决合成样本偏差问题。我们严格的实验证明了CONEC-LoRA在4个流行的基准问题中相对于现有技术的优势,利润率超过5%。

EEschemic:基于多模块LLM的人工智能代理,用于模拟电路原理图生成

arXiv:2510.17002v1宣布类型:新摘要:电路原理图在模拟集成电路设计中发挥着至关重要的作用,是人类理解和验证电路功能的主要媒介。虽然最近基于大型语言模型(LLM)的方法在电路布局生成和设备尺寸方面表现出了希望,但大多数方法仅依赖于文本表示,例如SPICE网表,这对电路设计师来说缺乏视觉解释性。为了解决这一局限性,我们提出了EEscheme,这是一种基于多模式大型语言模型(MLLM)自动生成模拟原理图的AI代理。EEschemic集成了文本、视觉和符号模式,将SPICE网表翻译为以人类可编辑格式表示的逻辑示意图。该框架使用六个模拟子结构示例进行少镜头放置,并使用视觉思维链(VCoT)策略来迭代地细化放置和布线,增强原理图的清晰度和对称性。对代表性模拟电路的实验结果表明,EE原理图具有高视觉质量和结构正确性,其中包括一个典型的模拟电路,其中包括一个互补晶体管运算跨导放大器(5 T-OTA)和一个可伸缩的共源共栅放大器。

Graph4 MM:利用结构信息编织多模式学习

arXiv:2510.16990v1宣布类型:新摘要:现实世界的多模式数据通常表现出复杂的结构关系,超出了图像标题对等传统的一对一映射。跨模式的实体以复杂的方式交互,图像和文本通过上下文依赖性和共同引用形成不同的相互关联。图形为建模模式内和模式间关系提供强大的结构信息。然而,之前的作品未能区分多跳邻居并将图视为独立的模式,这破坏了总体理解。这种限制带来了多模式学习中的两个关键挑战:(1)将来自多跳邻居的结构信息集成到基础模型中,以及(2)以有原则的方式融合特定于模式的信息。为了应对这些挑战,我们重新审视了基础模型时代图在多模式学习中的作用,并提出了基于图的多模式学习框架Graph 4 MM。具体来说,我们引入了跳跃扩散注意力,通过因果掩盖和跳跃扩散将多跳跃结构信息整合到自我注意力中。此外,我们设计了MM-QFormer,一个用于跨模式融合的多映射查询Transformer。通过理论和实证分析,我们表明,利用结构来整合模式内和模式间的交互可以改善多模式理解,而不仅仅是将它们视为独立的模式。生成任务和区分任务的实验表明,Graph 4 MM优于更大的VLM、LLM和多模式图基线,实现了6.93%的平均改进。

长时间曝光:加速Shadowy Sparsity下LLM的参数高效微调

arXiv:2510.15964v1公告类型:新摘要:预训练的大型语言模型(LLM)通过微调适应不同的下游任务对于许多应用程序至关重要。然而,参数有效的微调(PEFT)技术的效率低下,提出了重大的挑战,在时间投资和运营成本方面。在本文中,我们首先介绍了一种细微差别的稀疏性形式,称为Shadowy稀疏性,它在微调方面很独特,并且没有得到充分的解决来加速。在Shadowy Sparsity下,我们提出了Long Exposure,这是一种加速LLC PEFT的有效系统。长曝光由三个关键组件组成:影子稀疏Exposer采用延长的传感范围来捕获影子稀疏下的更多稀疏细节;面向序列的预测器提供高效而准确的预测来处理大型序列输入和不断演变的参数;动态感知操作器促进更结构化的计算模式和合并的内存访问,解决动态稀疏操作。广泛的评估表明,Long Exposure的表现优于最先进的技术,端到端微调的加速速度高达2.49美元,在加速LLC的PEFT方面提供了有希望的进步。

SOLE:Softmax和LayerNorm的软硬件协同设计实现高效的Transformer推理

arXiv:2510.17189v1宣布类型:新摘要:变形金刚在自然语言处理(NLP)和计算机视觉(CV)任务中都表现出了出色的表现。然而,由于Softmax和层规范化(LayerNorm)的效率低下,它们的实时推理速度和效率受到限制。之前基于函数逼近的工作存在效率低下的问题,因为它们强调计算,而忽视了内存负载问题。此外,此类方法依赖于再培训来补偿逼近误差,这可能是昂贵且不方便的。 在本文中,我们介绍了SOLE,这是一种针对Softmax和LayerNorm的硬件-软件协同设计,由E2 Softmax和AILayerNorm组成。E2 Softmax利用指数函数的log 2量化和基于log的划分来逼近Softmax,而AILayerNorm则采用低精度统计计算。与最先进的设计相比,我们在Softmax和LayerNorm上实现了低精度计算和低比特宽度存储。实验表明,SOLE无需重新训练即可保持推理准确性,同时提供了相对于图形处理器的数量级加速和节能,分别比Softmax和LayerNorm的现有最先进的定制硬件实现了3.04倍、3.86倍的能源效率提高以及2.82倍、3.32倍的面积效率提高。

AMS-QUANT:用于浮点量化的自适应尾数共享

arXiv:2510.16045v1宣布类型:新摘要:大型语言模型(LLM)在各种任务中表现出了非凡的能力,而数十亿甚至万亿个参数则给推理带来了存储和效率瓶颈。众所周知,量化,特别是浮点量化,能够通过减少推理过程中的内存占用和数据移动来加速LLM推理。我们首次将浮点量化探索从整比特宽度推进到非整比特宽度,即AMS-Quant,以进一步接近量化最佳点。AMS-Quant结合了两种新颖的技术来实现它:(1)它提出了尾数位共享,它将k个量化权重分组,并让它们共享最低有效位,使我们能够进一步接近最小量化比特宽度而不会损失准确度。(2)它引入了自适应搜索,采用离线优化策略来最大限度地减少共享带来的准确性下降。此外,AMS-Quant还被设计为高效的CUDA Linear内核,它通过减少内存访问将内存节省转化为时钟延迟减少。对大规模数据集和模型的大量实验表明,AMS-Quant可以将模型初始化为FP-5.33-e2 m3和FP 4.25-e2 m2,并在FP 16推断(2.8x和3.2x)上显着加快LLM解码速度,准确性损失可以忽略不计。

OmniVIC:一款自我改进的可变阻抗控制器,具有视觉语言上下文学习功能,用于安全的机器人操纵

arXiv:2510.17150v1宣布类型:新摘要:我们介绍了OmniVIC,这是一种由视觉语言模型(VLM)增强的通用可变阻抗控制器(VIC),它可以提高任何接触丰富的机器人操纵任务的安全性和适应性,以增强安全的物理交互。传统的VIC在机器人与环境物理交互时表现出了优势,但在涉及接触或不确定性的通用任务场景中,缺乏不可见、复杂和非结构化的安全交互的概括性。为此,拟议的OmniVIC解释从图像和自然语言中推导出的任务上下文推理,并为VIC控制器生成自适应阻抗参数。具体来说,OmniVIC的核心是自我改进的检索增强生成(RAG)和上下文学习(ICL),其中RAG从结构化存储库中检索相关的先前经验,以向控制器通知类似的过去任务,ICL利用这些检索到的示例和当前任务的提示来查询VLM,以生成当前操作场景的上下文感知和自适应的阻抗参数。因此,自我改进的RAG和ICL保证OmniVIC在通用任务场景中工作。实时力/扭矩反馈进一步通知阻抗参数调节,以确保相互作用力保持在安全阈值内。我们证明,我们的方法在一系列复杂的接触丰富任务(无论是在模拟还是在现实世界的机器人任务中)上优于基线,并提高了成功率并减少了违反力的情况。OmniVIC朝着连接高级语义推理和低级合规控制迈出了一步,实现更安全、更通用的操作。总体而言,平均成功率从27%(基线)增加到61.4%(OmniVIC)。

在上下文学习中压缩多镜头

arXiv:2510.16092v1宣布类型:新摘要:事实证明,当通过上下文内学习(ICL)给出许多输入输出示例/演示时,大型语言模型(LLM)能够在无需显式微调的情况下学习不同的任务。增加示例的数量(称为“shots”)可以提高下游任务性能,但会产生更高的内存和计算成本。在这项工作中,我们研究了一种通过压缩多镜头提示来提高ICL推理的记忆力和计算效率的方法。给定许多镜头包括t个令牌,我们的目标是生成m个软令牌摘要,其中m < t。我们首先表明,现有的即时压缩方法对于多镜头压缩无效,并且简单地使用更少的镜头作为基线的效果出奇地强。为了实现有效的压缩,我们发现:(a)需要具有更多可训练参数的更强大的压缩器模型,并且(b)通过为每个层提供自己的压缩表示,在每个Transformer层压缩多镜头表示可以实现更细粒度的压缩。基于这些见解,我们提出了MemCom,一种分层压缩方法。我们系统地评估不同模型大小(2B和7 B)、架构(Gemma和Mistral)、多镜头序列长度(3 k-6 k令牌)和压缩比(3x到8x)的各种压缩器模型和训练方法。MemCom在具有大型标签集的多个分类任务上的所有压缩比都优于强大的基线。值得注意的是,虽然基线性能在更高的压缩比下急剧下降,通常下降超过20- 30%,但MemCom以最小的下降保持了高准确性,通常下降不到10%。

MISYS:利用网络推理进行多模式错误信息检测的抽象框架

arXiv:2510.17590v1宣布类型:新摘要:错误信息通过每天数十亿条结合文本和图像的多模式帖子在网络平台上传播,超出了手动事实核查的能力。监督检测模型需要特定于领域的训练数据,并且无法在不同的操纵策略中进行概括。我们提出了MISYS,这是一个推理时、模型可插入的代理框架,它将多模式验证分解为四个顺序模块:视觉准确性评估检测人工智能生成的图像,跨模式一致性分析识别脱离上下文的重新利用,检索增强事实检查通过迭代问题生成在网络证据中提出索赔,以及校准的判断模块集成了所有信号。MISYS将视觉语言模型推理与有针对性的网络检索进行协调,输出结构化和引用相关的原理。在MMFakeBench验证集(1,000个样本)上,采用GPT-4 o-mini的MISYS实现了81.65%的F1准确性和75.1%的准确性,比最强的零激发基线(GPT-4V,MMD-Agent在74.0%F1)高出7.65分,同时保持34.3%的假阳性率,而仅限法官基线的假阳性率为97.3%。测试集结果(5,000个样本)证实了概括性,F1为81.44%,准确性为75.08%。消融研究显示,视觉验证贡献了5.18分的F1分,检索增强推理贡献了2.97分。我们的结果表明,使用网络检索的分解代理推理可以在无需特定领域训练的情况下匹配监督检测器的性能,从而能够跨标签数据仍然稀缺的模式进行错误信息检测。

查看或说出图形:使用视觉语言模型的代理驱动的可扩展图形理解

arXiv:2510.16769v1宣布类型:新摘要:视觉语言模型(VLM)在图形理解方面表现出了希望,但仍然受到输入标记约束的限制,面临可扩展性瓶颈,并且缺乏协调文本和视觉模式的有效机制。为了应对这些挑战,我们提出了GraphVista,这是一个统一框架,可以增强图形理解中的可扩展性和形态协调性。为了可扩展性,GraphVista将图形信息分层组织到轻量级GraphRAG库中,该库仅检索与任务相关的文本描述和高分辨率视觉子图,压缩冗余上下文,同时保留关键推理元素。对于模式协调,GraphVista引入了一个规划代理,它将任务路由到最合适的模式-使用文本模式进行简单的属性推理,使用视觉模式进行基于显式布局的局部和结构复杂推理。大量实验表明,GraphVista可以扩展到大型图形,比现有基准测试中使用的图形大200美元,并且始终优于现有的文本、视觉和基于融合的方法,通过充分利用两种模式的互补优势,在最先进的基线上实现了高达4.4美元的质量改进。

BEACON:有效LLM采样的Bayesian最佳停止

arXiv:2510.15945v1宣布类型:新摘要:对多个响应进行采样是提高LLM输出质量的常见方法,但它以额外计算为代价。关键挑战是决定何时停止生成新样本,以平衡准确性收益与效率。为了解决这个问题,我们引入了BEACON(最佳N-停止的Bayesian Efficient Adaptive Criterion),这是一个基于带Bayesian Learning的序列搜索的原则性自适应采样框架。BEACON从政策LLM中顺序生成响应,实时更新对奖励分布的后验信念,无需进一步训练,并通过权衡预期收益与计算成本来确定何时停止。一旦进一步勘探的边际效用不再证明费用是合理的,抽样就会终止。我们建立了理论上的最优性保证和实际的可处理性,并从经验上证明,BEACON在保持响应质量的同时将平均抽样减少了高达80%。我们进一步展示了BEACON在经济高效的偏好数据生成方面的实用性,并概述了实用的扩展,为未来的研究人员提供可操作的见解。

稳定:大型语言模型的门控持续学习

arXiv:2510.16089v1宣布类型:新摘要:大型语言模型(LLM)越来越需要在无需全面再培训的情况下持续适应的机制。然而,连续更新可能会导致灾难性的遗忘,新的编辑会降低之前获得的知识。这项工作提出了STABLE,这是一个门控连续自编辑框架,通过低等级自适应(LoRA;参见arXiv:2106.09685)使用参数高效微调来限制顺序更新期间的遗忘。每个候选编辑都使用三个指标之一对照稳定性预算进行评估:(i)精确匹配(EM)下降,捕捉事实准确性损失;(ii)位增加,反映模型置信度的降低;(iii)KL偏差,量化基础模型和适应模型之间的分布漂移。如果超过阈值,则通过剪辑过程重新调整LoRA更新或拒绝。Qwen-2.5- 7 B模型的实验表明,门控有效地减轻了遗忘,同时保持了适应性。基于EM的门控在短的连续学习序列中实现了最高的累积性能。我们的结果表明,不同的门控策略可以实现相当的分布漂移(通过KL偏差来衡量),同时产生不同的准确性结果,凸显了门控设计在持续适应中的重要性。这种方法为持续模型编辑提供了一种原则性的方法,使LLM能够集成新知识,同时保持可靠性。代码:https://github.com/Bhoy1/STABLE

ELMM:用于多模式知识图完成的高效轻量级多模式大型语言模型

arXiv:2510.16753v1宣布类型:新摘要:多模式知识图(MKG)通过结合视觉和文本模式来扩展传统知识图,从而实现更丰富、更具表达力的实体表示。然而,现有的MKG往往存在不完整性,这阻碍了它们在下游任务中的有效性。因此,多模式知识图完成(MKGC)任务越来越受到关注。虽然大型语言模型(LLM)已显示出知识图完成(KGC)的前景,但其在多模式环境中的应用仍然没有得到充分的探索。此外,将多模式大型语言模型(MLLM)应用于MKGC的任务会带来重大挑战:(1)每个实体的大量图像标记导致语义噪音和形态冲突,(2)处理大型标记输入的高计算成本。为了解决这些问题,我们为MKGC提出了高效的轻量级多模式大型语言模型(ELMM)。ELMM提出了一种基于多头注意力机制的多视图视觉令牌压缩器(MVTC),该压缩器自适应地压缩文本和视觉视图中的图像令牌,从而有效减少冗余,同时保留必要的信息并避免形态冲突。此外,我们设计了一种注意力修剪策略,以从MLLM中去除冗余注意力层,从而显着降低推理成本。我们进一步引入线性投影来补偿修剪引起的性能下降。对基准FB 15 k-237-IMG和WN 18-IMG的大量实验表明,ELMM实现了最先进的性能,同时大幅提高了计算效率,为多模式知识图完成建立了新的范式。

VAGEN:加强多回合VLM代理的世界模型推理

arXiv:2510.16907v1宣布类型:新摘要:与语言模型(LLM)代理相比,训练视觉语言模型(VLM)代理的一个关键挑战在于从文本状态到复杂视觉观察的转变。这种转变引入了部分可观察性,并需要强大的世界建模。我们问:VLM代理能否通过显式视觉状态推理构建内部世界模型?为了解决这个问题,我们通过强化学习(RL)在架构上强制和奖励代理的推理过程,将其表述为部分可观察的马尔科夫决策过程(POMDP)。我们发现将代理的推理分解为状态估计(“当前状态是什么?”)和过渡建模(“接下来会发生什么?”)对于成功至关重要,正如五种推理策略所证明的那样。我们对代理人如何表示内部信念的调查表明,最佳表示是依赖于任务的:自然语言擅长捕捉一般任务中的语义关系,而结构化格式对于精确的操纵和控制来说是不可或缺的。在这些见解的基础上,我们设计了世界建模奖励,为准确的状态预测提供密集的回合级监督,并引入双级别通用优势估计(Bi-Level GAE)用于回合感知的信用分配。通过这种形式的视觉状态推理,3B参数模型在五个不同的代理基准中获得了0.82的分数,比未经训练的对应模型(0.21)提高了3 $\x $,并且优于GPT-5(0.75)、Gemini 2.5 Pro(0.67)和Claude 4.5(0.62)等专有推理模型。所有实验都在我们的VAGEN框架内进行,VAGEN框架是一个可扩展的系统,用于在不同的视觉环境中训练和分析多回合VLM代理。代码和数据可在https://vagen-ai.github.io上公开获取。

CTR-LoRA:大型语言模型的曲线感知和信任区域引导的低等级适应

arXiv:2510.15962v1宣布类型:新摘要:参数高效微调(PEFT)已成为在有限的计算和内存预算下适应大型语言模型的标准方法。尽管以前的方法通过低等级更新、量化或启发式预算重新分配来提高效率,但它们通常将容量分配与训练期间更新的演变方式脱钩。在这项工作中,我们引入了CTR-LoRA,这是一个由弯曲信任域指导的框架,集成了排名调度与稳定性感知优化。CTR-LoRA基于从轻量级二阶代理获得的边际效用来分配参数,并使用Fisher/Hessian度量信任域来约束更新。在多个开源主干(7 B-13 B)上进行的实验,在分布内和分布外基准上进行了评估,结果显示,在强大的PEFT基线上取得了一致的改进。除了提高准确性外,CTR-LoRA还增强了训练稳定性、降低内存需求并实现更高的吞吐量,使其处于性能和效率的帕累托前沿。这些结果凸显了迈向更强大和可部署PEFT的原则道路。

输入域感知MoE:将路由决策与混合专家的任务优化脱钩

arXiv:2510.16448v1公告类型:新摘要:稀疏混合专家(Sparse Mixture of Experts,sMoE)已成为扩展大型视觉语言模型的关键方法,通过动态稀疏激活专家,在保持计算效率的同时提供大量容量。然而,现有的路由机制,通常基于相似性评分,努力有效地捕捉底层的输入结构。这种限制导致专家专业化和平衡计算之间的权衡,从而阻碍了可扩展性和性能。我们提出了输入域感知MoE,这是一种新颖的路由框架,利用概率混合模型来更好地划分输入空间。通过将路由概率建模为混合分布,我们的方法使专家能够在实现均衡利用的同时制定明确的专业化边界。与传统方法不同,我们的路由机制是独立于特定任务目标进行训练的,允许稳定的优化和决定性的专家分配。视觉语言任务的经验结果表明,我们的方法始终优于现有的sMoE方法,实现了更高的任务性能并改善了专家利用平衡。

语言模型的混合精度量化:技术与展望

arXiv:2510.16805v1宣布类型:新摘要:语言模型(LM)的快速扩展导致了前所未有的计算、内存和能源需求,使其训练和部署变得越来越不可持续。量化已成为一种重要的压缩技术,可以减少模型大小、缓解内存瓶颈和加速推理。然而,虽然均匀低位量化(例如,INT 8、INT 4)提供了显着的效率收益,它可能会降低基于变压器的LM敏感组件的准确性。混合精度量化提供了一种有希望的替代方案,通过选择性地跨层或张量内分配精度以平衡效率和准确性。本调查全面概述了LM(MXPLM)的混合精度量化框架。我们首先回顾量化基础,包括均匀和非均匀量化器、量化粒度以及训练后量化中广泛使用的方法。然后,我们根据最近的MXPLM框架的位分配策略和权重、激活和关键字-值缓存的精度配置对它们进行分类和比较。比较分析强调了困惑度、零触发任务性能和部署权衡方面的差异。此外,我们将MXPLM与早期的深度神经网络混合精度量化方法进行了比较,确定了在LM环境中转移的策略和面临挑战的策略。最后,我们总结了开放问题和未来方向,包括硬件感知设计、激活量化和十亿参数模型的可扩展优化方法。通过巩固最新进展,这项工作为了解大规模语言模型混合精度量化的当前格局和研究前景提供了参考。

基于图结构的稀疏混合专家交互模型

arXiv:2510.16411v1宣布类型:新摘要:稀疏专家混合(SMoE)已成为一种有希望的解决方案,可以通过将模型参数计数与计算成本脱钩来实现深度学习无与伦比的可扩展性。通过仅激活每个样本的一小部分参数,SMoE可以显着增长模型容量,同时保持效率。然而,SMoE难以适应分布变化,导致数据污染下的稳健性下降。在这项工作中,我们介绍了SymphonySMoE,这是一个新颖的SMoE家族,它引入了社交图来建模专家之间的互动。这种基于图形的结构增强了令牌路由过程,解决了传统SMoE设计中固有的鲁棒性挑战。SymphonySMoE是轻量级的、模块化的,并与现有的基于SMoE的模型(例如XMoE和Generalist语言模型)无缝集成。我们提供了理论分析和经验证据,证明SymphonySMoE相对于基线SMoE的优势。语言建模和视觉教学调优的大量实验验证了我们方法的有效性。我们进一步强调SymphonySMoE对具有42亿和74亿参数的模型的可扩展性,展示了其在大型系统微调任务中的适用性。

照你说的做:通过任务推理-动作一致验证引导视觉-语言-动作模型

arXiv:2510.16281v1宣布类型:新摘要:推理视觉语言动作(VLA)模型通过在低级动作之前生成分步文本计划来改善机器人的描述遵循,这种方法受到语言模型中思想链(CoT)推理的启发。然而,即使有正确的文本计划,生成的动作仍然可能错过计划中的预期结果,尤其是在分发外(OOD)场景中。我们将这种现象形式化为缺乏具体的CoT忠诚度,并引入一种无需培训的运行时政策引导方法来实现推理与行动的一致。给定VLA的中间文本计划的推理,我们的框架从同一模型中采样多个候选动作序列,通过模拟预测它们的结果,并使用预先训练的视觉语言模型(VLM)来选择其结果与VLA自己的文本计划最一致的序列。只有执行与文本推理一致的动作序列才能将我们基础VLA的自然动作多样性从错误来源转变为优势,增强对语义和视觉OOD扰动的鲁棒性,并在无需昂贵的重新训练的情况下实现新颖的行为组合。我们还提供了LIBERO-100的推理注释扩展,为OOD评估量身定制的环境变体,并与之前在行为合成任务和规模方面的工作相比,展示了高达15%的性能提高。计算和数据多样性。项目网站:https://yilin-wu98.github.io/steering-reasoning-vla/

看到但不相信:探索VLM中视觉注意力和答案正确性之间的脱节

arXiv:2510.17771v1宣布类型:新摘要:视觉语言模型(VLM)在视觉问答等多模式任务上取得了强劲的结果,但即使存在正确的视觉证据,它们仍然可能失败。在这项工作中,我们系统地调查这些失败是否是由于没有感知到证据或没有有效利用证据而引起的。通过检查逐层注意力动态,我们发现浅层主要关注文本,而深层稀疏但可靠地关注局部证据区域。令人惊讶的是,VLM在输出错误答案时经常会感知到视觉证据,我们将这种现象称为“看到但不相信”,广泛存在于主要VLM家族中。在此基础上,我们引入了一种推理时干预,通过选择性的基于注意力的掩蔽来突出深层证据区域。它不需要培训,并在多个系列(包括LLaVA、Qwen、Gemma和InternVL)中持续提高准确性。这些结果表明,VLM在内部编码可靠的证据,但没有充分利用它,使此类信号显式可以弥合感知和推理之间的差距,提高VLM的诊断理解和可靠性。

纳什讨价还价的稀疏专家混合中的专家合并

arXiv:2510.16138v1宣布类型:新摘要:现有的稀疏混合专家(SMoE)专家合并策略通常依赖于输入相关或输入独立的专家参数平均,但通常缺乏原则性的加权机制。在这项工作中,我们通过博弈论的视角重新解释了专家合并,揭示了专家之间的合作和竞争动态。基于这一观点,我们引入了纳什专家合并(NAMEx),这是一个新颖的框架,将纳什讨价还价纳入合并过程,实现专家之间更加平衡和高效的协作。此外,我们还将复杂动量融入NAMEx中,以加速专家传播,并为收敛提供理论保证。跨语言建模、文本分类、图像分类和数据损坏下的零镜头鲁棒性的广泛实验表明,NAMEx始终优于竞争方法,同时与流行的MoE架构无缝集成。最后,我们通过将NAMEx应用于大规模系统(包括Qwen 1.5-MoE(14 B)和DeepSeek-MoE(16 B))来展示NAMEx的可扩展性,事实证明它在零触发和微调设置中都有效。

从空间到行动:空间基础优先事项中的视觉-语言-行动模型的基础

arXiv:2510.17439v1宣布类型:新摘要:现有的视觉-语言-动作(VLA)模型在3D现实世界中发挥作用,但通常建立在2D编码器上,从而留下了限制概括性和适应性的空间推理差距。最近的VGA 3D集成技术要么需要专门的传感器,并且跨模式传输效果较差,要么注入缺乏几何形状的弱线索并降低视觉语言对齐度。在这项工作中,我们引入了CLARCON(从空间到动作),这是一种新颖的范式,可以将丰富的3D空间令牌注入到动作头部。CLARCON利用空间基础模型来仅从Ruby提供强大的几何先验,并包括一个平行空间模型,该模型可以选择融合深度,或在可用时保持更高的保真度,无需重新训练或更改架构。为了保留语言推理,空间标记由空间增强动作头消耗,而不是连接到视觉语言主干中。这些设计使CLARCON能够解决空间表示、模式可移植性和对齐方面的限制。在三个模拟基准和11个现实世界的任务的综合评估中,我们提出的EQUIPCON实现了最先进的性能,始终超过竞争基线,并在杂波,空间提示条件以及对象尺度和高度的变化下保持稳健。

面向未来硬件加速训练的特定比特算术

arXiv:2510.17058v1宣布类型:新摘要:虽然量化的进步显着降低了深度学习中推理的计算成本,但训练仍然主要依赖于复杂的浮点算法。低精度定点训练提供了一种引人注目的替代方案。这项工作引入了低精度log定点训练的新颖增强,旨在面向未来的硬件加速器设计。我们建议在算术运算逼近的设计中纳入位宽。为此,我们引入了一种新的硬件友好的、逐段线性逼近的对数加法。使用模拟退变,我们在不同的精度水平上优化了这种逼近。C++ bit-true模拟演示了分别在CIFAR-100和TinyImageNet上训练VGG-11和VGG-16模型,与32位浮点训练相比,使用12位整算术,准确性下降最小。我们的硬件研究显示,与线性定点等效装置相比,拟议的LNS乘累加装置的面积减少了32.5%,能耗减少了53.5%。

弥合体现差距:在软机器人上部署视觉-语言-动作模型

arXiv:2510.17369v1宣布类型:新摘要:人们越来越期望机器人系统在以人为本的非结构化环境中运行,其中安全性、适应性和通用性至关重要。视觉-语言-动作(VLA)模型被提出作为真实机器人的语言引导广义控制框架。然而,它们的部署仅限于传统的串联机械手。再加上基于学习的控制的僵化和不可预测性,与环境安全互动的能力虽然缺失,但仍然至关重要。在这项工作中,我们在软连续体机械手上部署了VLA模型,以演示自主安全的人与机器人交互。我们提出了一个结构化的微调和部署管道,在代表性操纵任务中评估两个最先进的VLA模型(OpenVLA-OFT和$\pi_0 $),并展示了当开箱即用策略因实施例不匹配而失败时,通过有针对性的微调,软机器人的表现与刚性机器人相同。我们的研究结果强调了微调以弥合实施差距的必要性,并证明将VLA模型与软机器人相结合可以在人类共享环境中实现安全、灵活的实施人工智能。

Robobench:一个多模态大型语言模型作为人工大脑的综合评估基准

arXiv:2510.17801v1宣布类型:新摘要:建造能够在动态、非结构化环境中感知、推理和行动的机器人仍然是一个核心挑战。最近的具体化系统通常采用双系统范式,其中系统2处理高级推理,而系统1执行低级控制。在这项工作中,我们将系统2称为具身大脑,强调其作为操纵任务中推理和决策的认知核心的作用。鉴于这一角色,对实体大脑的系统评估至关重要。然而,现有的基准强调执行成功,或者在针对高级推理时,维度不完整和任务现实主义有限,只能提供认知能力的部分情况。为了弥合这一差距,我们引入了RoboBench,这是一个基准,可以系统地评估多模式大型语言模型(MLLM)作为体现大脑。受整个操作流程中的关键角色的激励,RoboBench定义了五个维度--指令理解、感知推理、广义规划、启示预测和故障分析--涵盖14种能力、25项任务和6092个QA对。为了确保真实感,我们从大规模真实机器人数据中提取跨不同实施例、属性丰富的对象和多视图场景的数据集。对于规划,RoboBench引入了一个评估框架:MLLM作为世界模拟器。它通过模拟预测的计划是否可以实现关键的对象状态更改来评估体现的可行性。对14个MLLM的实验揭示了基本局限性:内隐教学理解、时空推理、跨场景规划、细粒度的启示理解和执行失败诊断方面的困难。RoboBench提供了一个全面的框架来量化高级认知,并指导下一代具体化MLLM的开发。项目页面位于https://robo-bench.github.io。

无偏梯度低等级投影

arXiv:2510.17802v1宣布类型:新摘要:内存高效优化对于训练越来越大的语言模型(LLM)至关重要。一种流行的策略涉及梯度低等级投影,仅存储投影的优化器状态,GaLore是一个代表性例子。然而,许多此类方法的一个显着缺点是缺乏收敛保证,因为各种低等级投影方法相对于原始优化算法引入了固有的偏差,这导致了与全参数训练相比的性能差距。为了解决这个问题,本文研究了用于去偏置低阶投影机制的分层抽样技术。特别是,该范式的实例化产生了一种基于GaLore机制和Muon算法的新颖且无偏的低阶优化方法,名为GaLore Unbiased with Muon(GUM)。我们从理论上证明了我们的方法符合基本Muon算法的收敛保证,同时保留了低等级技术的存储效率。LLM微调和预训练的经验实验也证明了与GaLore相比的非平凡改进,甚至比全参数训练更好的性能。进一步的研究表明,该技术的改进来自于层内知识的更均匀分布,从而更有效地利用模型参数空间和更好的记忆。

MILES:用于平衡多模式学习的基于模式的学习率指标

arXiv:2510.17394v1宣布类型:新摘要:多模式神经网络的目标是结合不同的数据源(称为模式),以实现与依赖单一模式相比增强的性能。然而,多模式网络的训练通常会受到模式过匹配的阻碍,其中网络过度依赖于可用模式之一。这通常会产生次优的性能,阻碍了多模式学习的潜力,并导致相对于单模式模型的边际改进。在这项工作中,我们提出了Modality-Informed Learning ratE RST(MILES),用于以平衡的方式训练多模式联合融合模型。MILES利用训练期间模式方面的条件利用率差异来有效平衡多模式学习。学习率在训练期间动态调整,以平衡多峰模型从每个模式的学习速度,旨在增强多峰和单峰预测的性能。我们广泛评估了MILES在四种多模式联合融合任务上的性能,并将其性能与七种最先进的基线进行比较。我们的结果表明,MILES在我们研究中考虑的所有任务和融合方法中的表现优于所有基线,有效地平衡了训练期间的模式使用。这会提高多模式性能和更强大的模式编码器,在处理单模式样本或缺失模式时可以利用这些编码器。总体而言,我们的工作强调了平衡多模式学习对提高模型性能的影响。