您现在的位置是:主页 > BB电子 >
梁文峰署名论文,Deepseek最强开源代理模型引爆
发布时间:2025-12-02 10:27编辑:365bet登录浏览(67)
智喜作者陈俊达编辑云鹏智喜12月2日报道 昨晚,Deepseek发布了两款新模型:Deepseek-V3.2和Deepseek-V3.2-speciale。它是Deepseek迄今为止最强大的模型,在推理、智能体等多个领域的基准测试中均排名全球开源模型第一。 Deepseek表示,标准版Deepseek-V3.2在公开基准测试中达到了GPT-5的水平,略低于Gemini-3.0-Pro。相比Kimi-K2-thinking,V3.2的输出长度显着减少,从而显着降低了计算开销和用户等待时间。 Deepseek-V3.2-speciale 的改进版本将 Deepseek-Math-V2 的定理证明功能与后续强大的教程、数学证明和逻辑验证功能相结合。其在基本逻辑基准测试上的性能与Gemini-3.0-Pro相当。在开源界,Deepseek-V3.2也是领先的存在。阿科根据强大的人工智能大模型分析平台的数据,在不包含Deepseek-V3.2的情况下,目前业界智能水平最高的开源模型是Kimi-K2-Thinking。在 Deepseek-V3.2 和 Kimi-K2-thinking 模型均公布结果且测试设置相同的基准测试中,Deepseek-V3.2 领先于 Kimi-K2-thinking。 ▲ Deepseek-V3.2 与 Kimi-K2-Thinking 基准测试对比,数据来源为官方渠道。 DeepSeek-V3.2也是Deepseek推出的首款将思维融入到工具使用中的模型,同时支持思维模式和调用非思维模式。 DeepSeek-V3.2模型在智能体分析方面达到了当前开源模型的最高水平,显着缩小了开源模型与闭源模型之间的差距。值得注意的是,v3.2并没有对这些测试集的工具进行专门的训练,这意味着v3.2可以表现出很强的ge归结到实际应用情况。此外,Deepseek-V3.2-speciale模型还成功在IMO 2025(国际数学奥林匹克)、CMO 2025(中国数学奥林匹克)、ICPC World Finals 2025(国际大学生程序设计竞赛全球总决赛)和IOI 2025(国际信息学奥林匹克)中获得金牌。其中ICPC和IOI的成绩分别达到了人类玩家第二名和第一名的水平。在高度复杂的任务中,特殊模型明显优于标准版本,但消耗更多代币。而且,成本较高。目前,Deepseek-V3.2-speciale仅供研究使用,不支持工具调用。它尚未针对日常对话和写作任务进行专门优化。目前,DeepSeek官方网页、APP和API均已更新至Deepseek-V3.2正式版本。 Speciale版本目前仅作为comm的临时API服务开放统一测试和研究。 Deepseek-V3.2系列型号开启,技术报告同时发布。值得一提的是,在技术报告作者名单中,我们可以看到很多熟悉的pansgalan,比如Deepseek创始人兼CEO梁文峰,以及几小时前在乌镇世界大会上代表Deepseek发言的研究员陈德利。技术报告:https://modelscope.cn/models/deepseek-ai/deepseek-v3.2/resolve/master/assets/paper.pdf 开源链接:DeepSeek-V3.2https://modelscope.cn/mo Dels/Deepseek-AI/Deepseek-V3.2Deepseek-V3.2 Specialehttps://modelscope.cn/models/deepseek-ai/deepseek-v3.2-speciale 1.开源模型和闭源模型差距越来越大? Deepseek 发现了过去几个月开源模型和专有模型之间的差距扩大的三个原因。这是Deepseek团队正在思考的问题。 Deepseek团队认为主要有以下三个事实或者限制了开源应用程序在复杂任务中捕获模型的能力。首先,在架构上,开源模型主要依赖于原有的注意力机制,这严重限制了长序列处理的效率。这种低效率对规模部署和有效的培训后阶段构成了重大障碍。其次,在资源分配方面,开源模型在训练后阶段没有投入足够的计算能力,限制了其在困难任务中的性能。最后,在代理应用场景中,与专有模型相比,开源模型在通用能力和指令跟踪能力方面表现出明显的滞后,从而影响了其在实际部署中的有效性。为了满足第一个限制,Deepseek 首先引入了 DSA(Deepseek 稀疏注意力),这是一种高效的注意力机制,旨在显着降低计算复杂度。该架构有效解决了效率瓶颈即使在长上下文场景中也能保持模型性能。其次,Deepseek 将开发一个强大且可扩展的强化学习协议,允许在训练后阶段进行大规模计算扩展。值得注意的是,该框架分配的训练后功率预算超过训练前成本的1.0%,这在业界相当罕见,解锁了模型的高级能力。第三,Deepseek 提出了一种新的流程来促进工具使用场景中的一般推理。研发团队使用DeepSeek-V3技术来实现冷启动阶段,将工具识别和使用统一在单个轨迹中。随后,它推进到大规模综合智能体的工作,生成超过 1,800 个不同的环境和 85,000 个复杂信号。广泛的数据合成驱动强化学习过程,从而显着提高模型在代理上下文中概括和遵循指令的能力。 2.基于fiDeepseek-V3.1的最终版本,DSA使计算更加智能。 Deepseek-V3.2使用的架构与之前发布的Deepseek-V3.2-Exp实验版本完全相同。与 Deepseek-V3.1 系列的最后一个版本 Deepseek-V3.1-terminus 相比,Deepseek-V3.2 唯一的架构变化是通过持续训练引入了 DSA。传统的sisternsion机制在处理一个token时,必须计算它之前的所有token,这在长文本中非常耗时。 DSA的想法是快速筛选出最重要的代币,然后只对这些代币进行详细分析。这种选择是通过 Lightning Indexer 实现的。 Lightning Indexer 计算查询令牌和预购令牌的索引分数,以确定应选择哪些令牌进行计算。鉴于Lightning Indexer的头数较少,并且可以在FP8下实现,其计算效率很高。给定每个查询令牌的索引分数,细粒度令牌选择机制仅检索与前k个索引分数对应的关键条目并统计输出。 DeepSeek-V3.2 训练从 deepseek checkpoint-v3.1-terminus 开始,其中上下文长度扩展到 128K。在继续预训练的过程中,模型首先进行“密集预热”,即保持完整注意力不变,仅训练索引器学习模仿原始注意力的分布。然后进入稀疏训练阶段,引入真正的令牌选择机制,同时优化整个模型。通过这种逐渐过渡,模型可以从密集焦点平滑过渡到稀疏结构,而不会导致性能下降。在能力评估方面,Deepseek-V3.2-Exp在标准基准测试、人类偏好分析等诸多方面均表现出与上一代相当或更好的结果。ng 上下文任务。如果是Chatbotarena的ELO分数或者像AA-LCR和Fiction.Livebench这样的长序列测试,表明它在引入稀疏注意力后并没有牺牲模型的质量,反而在长序列推理中获得了明显的优势。就实际推理成本而言,DSA 将模型主要注意力的复杂度从平方级别降低到近似线性的降低,使得序列越长,节省越明显。虽然索引器本身仍然需要处理全局信息,但其开销比原来的MLA要低得多。结合工程优化,Deepseek-V3.2在H800 GPU上实现了显着的端到端加速,并在短上下文下使用专门的掩模模式进一步改进kimprove。总体而言,Deepseek-V3.2有效突破了长上下文推理的性能瓶颈,同时保持了能力不退化。 ▲ Deepseek-v3.2 实现siH800 GPU 上显着的端到端加速。 3、创建6种专属模型,让模型生成自己的训练后数据。 Deepseek-V3.2的后训练阶段是在连续预训练之后进行的。其目标是进一步将大规模但未完成的核心模型塑造成结合推理、工具使用、代理任务和对齐功能的最终版本。整个过程继续Deepseek-V3.2-Exp的实现,仍然基于稀疏注意力进行高效训练。后期训练主要靠两条路线:一是专门研究蒸馏,二是研究混合强化。两者的结合使得模型在不同领域获得稳定均衡的能力提升。专家蒸馏的主要思想是通过专门的专家模型来学习不同的任务,然后将这些专家的技能聚集到一个统一的大模型中。团队首先从sa开始Deepseek-V3.2主要检查点和针对六类专业任务训练的专属模型,包括数学、编程、逻辑推理、一般代理、代理程序和代理搜索。这些模型有两种类型的数据:思维模式和直接响应模式,并通过大规模强化学习进行增强,以确保每个专家在自己的领域达到高水平。这些专家中的一部分负责生成高质量的领域数据来训练统一的大型模型。实验表明,使用专家数据提取的大型模型的性能非常接近每个专家。在后续的 RL 微调中,通常可以去除剩余的间隙。混合强化学习环节不断使用GRPO(组相对策略优化)算法,将推理、智能体和人类对齐训练融合在同一阶段,从而避免了多阶段训练常见的遗忘现象。推理和代理任务主要依赖规则奖励、句子长度和语言一致性奖励;而一般任务是根据奖励模型的特定规则进行标记的。其优点是模型不会偏向于某一种工种,而是能在总体上保持稳定的能力平衡。为了让强化学习能够在大规模计算下稳定推进,团队还对GRPO进行了多项改进,使得大规模模型在长期、高强度的训练下仍能保持良好的收敛特性。在后期训练中,Deepseek-V3.2重点解决“如何结合思维模式和工具使用”的问题。为了避免多次工具调用循环中模型频繁重复,针对复杂推理,他们设计了一种新的上下文管理机制:只有当新的用户消息出现时才会清除思维轨迹,粘贴工具的输出不会导致内容的丢弃。同时,工具调用历史记录完整保存,保证g 模型可以继续使用现有逻辑来完成后续动作。在训练的早期阶段,由于数据和代理的来源不同,模型需要一个冷启动程序来激发“思考和使用工具”模式。因此,团队设计了特定的系统提示,让模型自然嵌入推理轨迹工具调用,并为后续的强化学习提供学习到的示例轨迹。例如,在回答问题1(要求1.1-1.3)的过程中,模型经过多次反思+调用工具给出了答案。在这个过程中,用户需要将链内容(argument_content)返回给API,让模型继续思考。在下一个用户问题(请求2.1)开始时,之前的思维链必须删除,其余内容必须保留并发送到API。 ▲ 工具历史保存机制能力的真正提升来自于R的大规模工作L代理,涵盖搜索、代码修复、代码解释以及自动环境生成器创建的各种验证任务——这些任务往往具有复杂度高、验证性强的特点,适合作为RL训练材料。最终的DeepSeek-V3.2是经过大量专家数据蒸馏、混合强化学习训练和机制思维工具、融合认知和非认知能力后得到的统一模型,同时强调定向推理练习,探索更长路径的潜力。结论:平衡计算效率和推理能力,代币知识广度和效率仍有提升空间。 Deepseek-V3.2是一个平衡计算效率和高级推理能力的模型。 DSA 在不牺牲长上下文性能的情况下解决了主要的计算复杂性问题。随着计算预算的增加,Deepseek-V3.2在i中实现了与GPT-5相当的性能推理基准。此外,Deepseek集成的大规模智能体合成管道显着提高了工具的可用性,将为开源开发鲁棒且具有泛化能力的大规模智能体模型开辟新的可能性。没错,但 Deepseek 也承认,由于整体训练失败次数较少,Deepseek-V3.2 的全局知识库仍然落后于顶级专有模型。 Deepseek 计划通过在未来迭代中扩大预训练计算量来缩小这一知识差距。其次,代币效率仍然是一个挑战; Deepseek-V3.2 通常需要更长的生成轨迹(即更多令牌)才能实现与 Gemini-3.0-Pro 等模型类似的输出质量。未来的工作将重点优化推理链的“智能密度”,进一步提高效率。第三,在解决复杂任务方面,Deepseek-V3.2相比切割模型仍有差距。 Deepseek 表示将会l 完善盘古模型及训练后处理方案。
特别声明:以上内容(如有则包括照片或视频)由自媒体平台“网易号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易HAO用户上传发布,网易HAO为社交媒体平台,仅提供信息存储服务。
下一篇:没有了