GRPO Trainer(深入了解GRPO) 本文章将接着前一篇关于DeepSeek-R1来更近一步说明其中的关键算法GRPO。本文将大量参考(CV大法)DeepSeek团队在Hungging Face上的GRPO介绍【GRPO 培训师 --- … 2025-2-08 14:20 | 168 | 0 | 学习笔记 1367 字 | 8 分钟 分享学习笔记机器学习
DeepSeek-R1学习笔记 DeepSeek-R1是在DeepSeek V3的基础上进行的,在实际效果上有了深度思考的能力,大大提高了模型的性能(对标OpenAI的O1模型),也就是对应官网上面的这个按钮👇 下面来简单概述一下本… 2025-2-06 22:58 | 117 | 0 | 学习笔记 4747 字 | 19 分钟 分享学习笔记心得文献阅读机器学习论文