相关阅读

站点信息

  • 本站文章累计16665篇文章
  • 快速定位资讯资讯云
  • 微信公众号:扫描二维码,关注我们

您现在的位置是:主页 > 资本 >

Kimi 发布视觉思考模型 k1,数理化能力超越 OpenAI o1、GPT-4

发布时间:2024年12月16日 10时32分36秒 资本 人已围观

简介月之暗面国产大模型 Kimi 发布视觉思考模型 k1,该模型基于强化学习技术,原生支持端到端图像理解和思维链技术,能力扩展到更多基础科学领域。...

以下是重写后的内容: 12 月 16 日快科技消息,今日,月之暗面国产大模型 Kimi 发布了视觉思考模型 k1。该模型基于强化学习技术打造,原生支持端到端图像理解和思维链技术,还将能力拓展到了数学之外的更多基础科学领域。 目前,k1 已在最新版 Kimi 智能助手的 Android 和 iPhone APP 以及网页版 kimi.com 上线。用户可在最新版手机 APP 或网页版 Kimi+页面找到 Kimi 视觉思考版,通过拍照或传图进行体验。 据了解,在数学、物理、化学等基础科学学科的基准能力测试中,初代 k1 模型的表现超越了全球标杆模型 OpenAI o1、GPT-4o 以及 Claude 3.5 Sonnet。 官方表示,K1 模型真正实现了端到端的图像理解和思考能力,可直接处理用户输入的图像信息并得出答案,无需借助外部的 OCR 或额外视觉模型。 从模型训练角度来看,k1 的训练分为两个阶段。首先通过预训练得到基础模型,然后在此基础上进行强化学习后训练。 k1 的基础模型着重优化了字符识别能力,在 OCRBench 上获得了 903 分的当前最佳结果,在 MathVista-testmini、MMMU-val 和 DocVQA 基准测试集上的分数分别为 69.1、66.7 和 96.9,处于全球领先水平。 据介绍,k1 的强化学习后训练在数据质量和学习效率方面进一步优化,在强化学习的规模化上取得了新突破,这也是 k1 视觉推理模型在基准测试中取得行业领先成绩的关键原因。 月之暗面坦言,在内部测试中也发现了 k1 视觉思考模型的一些局限性,如在分布外的泛化能力、更复杂问题的成功率、更多噪声场景的准确率、多轮问答效果等方面,还有很大的提升空间。与 OpenAI 的 o1 系列模型相比,k1 模型在某些场景和泛化能力上仍有差距。

Tags: 大模型  Kimi