电话:020-66888888
告别数据的“噪音”,Dreamprm,一种新的UCSD大型
作者:BET356官网在线登录 发布时间:2025-07-13 10:21
Dreamprm是由加州大学圣地亚哥分校的研究团队开发的,并赢得了Mathvista数学数学评估列表的第一名。第一个是与学校副教授Pengtao Xie对应的Qi Cao医生的研究。其他团队成员包括Wang Ruiyi,Ruiyi Zhang和Sai Ashish Somayajula。使用奖励模型(PRM)过程来提高大语模型的推理能力,在纯文本活动中取得了惊人的结果,但是在扩展多模式大语言模型(MLLM)中奖励过程的奖励过程时,我们面临两个主要问题:因为多模态输入(图像 +文本)构成了与数据训练的结果相比,在数据之间训练的结果,与数据训练的结果相比,数据训练的结果更多,而不是在数据之间进行训练,而不是在数据中进行训练的结果。一般能力的一般奖励过程。数据集质量不平衡。有大量的低频现有的多模式数据集集中的ST样品,例如冗余方式和低贫困问题。如果直接用于练习,噪声数据表示基本评估步骤(例如跨模式逻辑连接)的奖励模型管理信号。为了应对上述问题,我们使用两层优化框架使用数据域重量(域重量)作为挥发率sugpuin的低质量数据域的影响,同时加强了高质量数据密度的贡献(例如需要M3COT数据的贡献,例如需要多个步骤交叉模态跨模态跨模式优先选择的M3COT数据,以实现完美数据之间的完整数据均可达到理想的数据优质和占领优质级别。纸张标题:Dreamprm:多模式推理纸张纸的模型奖励奖励奖励纸张地址:https://arxiv.org/abs/2505.20241V2代码地址:https://github.com/coder-coder-qicao/dremprmpremprempremprm方法在Mathvista Mathermatical Praconighation列表中列出了列表。 Dreamprm进行多级Opti作为核心和一般框架,与特定的大语言模型无关。它可以与任何多模式大语言模型无缝结合,从而显着提高数学推理能力。通过处理不平衡数据的问题,DreamPrm极大地改善了多模式过程奖励模型的性能。 Dreamprm双层优化框架技术核心:双层优化机制的详细说明Dreamprm的主要变化是在多样化的双重优化问题中开发奖励过程奖励的过程,并通过动态数据重量和体重减轻来解决多模式的分布和体重减轻。该轮廓包括两个严格组合的阶段,可以在促进模型性能方面共存。在优化的较低阶段,系统同时在15个不同的训练域中对PRM参数进行训练。每个数据域(例如Aghamang Q&A,几何推理等)。所有人都被赋予了动态重量,以显示不同数据域对整体损失损失的贡献水平。在特定的实现中,系统将捕获每个域的蒙特卡洛给药信号:对于中间理解的给定步骤,结果由许多样本完成,并计算出准确性的速率,并生成了当前步骤质量的估计。较低的优化级别使用域加权奖励过程输出模型和准确性监督MSE的损失,更新奖励过程的参数:在上层优化阶段,系统使用MMMU基于过滤的元数据过滤的元数据集,而独立于下层训练数据训练的级别。仔细的ITHE元数据集涵盖了30个学科的183个子域,并将能够实现和全面地模仿PRM信息的情况,以评估其通用能力。在上ph优化的ASE,错误被反向传播,并通过最大程度地减少集成后的过程审查和最终答案准确性之间的差异来更新每个数据域的权重。这种两层架构会产生自适应的积极反馈回路:认知数据的高质量领域(例如需要复杂的跨模式理解的M3COTS)将逐渐增加重量,而包含大量简单样品(例如AI2D)的域将减少。优化的整个过程显示了收敛的绝佳场景。最初设置为1.0的域的权重在训练过程中是自然不同的,最终产生的权重分布与数据域信息的密度高度相关。实验结果表明,在主要绩效领域重新加权的重新加权优势:DreamPRM在所有五个基准测试中继续超过其他PRM方法,而相比之下,增长了2-3%无数据选择的原始PRM。域学习的自动加权技术比人工设计的启发式政策(例如S1-PRM和CARPRM)更好,这证明了驱动数据的优化更好。小型型号超过大型模型:DreamPrm在大多数基准测试中,只有80亿个参数的InternVL-2.5-8B-MPO模型的性能优于大型封闭资源模型(TLIKE GPT-4V和GEMINI-1.5),显示出强大的理解能力。对细粒度的综述带来了改进:过程管理模型通过逐步评分机制来确认精致的谷物评估的关键作用,而不是其他优化测试时间(例如自我验证)的方法。 DreamRM的性能继续改善候选推理链(COT)的增加。如图所示,Dreamrm的准确性在所有五个基准测试基准上都继续提高CH至更强的多模式模型。如图所示,当应用于诸如GPT-4.1-MINI和O4-MINI之类的更强大模型时,MathVista基准测试的准确性已提高,NA充分证明了Dreamrm的过度逐步化。学习的数据域重量最终学习的数据域重量从0.55到1.49,其中M3 The Cot和Figucqa的最大重量(约1.5),而AI2D和ICONQA的权重较低(小于0.8)。这种权重分配模型有效地改善了PRM性能,同时证明了不同数据集之间存在显着质量差异。 DreamRM摘要成功地通过创新的两层优化机制在培训模型的多模式奖励过程中成功解决了数据不平衡和偏移分布的问题。两层优化框架会自动学习每个数据域的最佳权重,使全面的OldMPA是一般过程中的DreamprmPRM的五个基准,尤其是在脾气暴躁的活动中。实验表明,这种方法不仅可以提高4%的主要模型的平均性能,而且可以无缝切换到诸如O4-Mini之类的新模型,并随着候选链的添加数量的增加而继续改善结果。 Dreamrm重量分配的细胞管理过程和定义的定义为有效培训多模式奖励模型提供了新的范式。
电话
020-66888888