本文章将接着前一篇关于DeepSeek-R1来更近一步说明其中的关键算法GRPO。本文将大量参考(CV大法)DeepSeek团队在Hungging Face上的GRPO介绍【GRPO 培训师 --- …
GRPO Trainer(深入了解GRPO)
为什么好多游戏的全成就都喜欢在通关后来一个所谓的“终极难度”,然后才能拿白金奖杯🤯
昨天终于通了漫威蜘蛛侠,本来挺有兴致的想100%地图,然后美美拿个白金奖杯,然后一看需要强制我再用终极难度打一遍二周目,瞬间对全地图都没了兴趣,干脆放弃了。
其实前几天就发现网站的SSL证书过期了,但是一直没有去换,今天终于克服了懒癌更换了SSL证书。
今日跟朋友出去玩,到牌店冲动买了一幅万智牌,不知道之后会不会入坑。中午WSH想吃KFC的吮指原味鸡,md感觉鸡里有毒喷射斯沃了。(KFC以后黑名单里呆着去吧!!!)
寒假开始又是每日的组会TT。这次要跟老师一起写国自科项目,是太赫兹成像跟人工智能方面的结合,不知道会写成什么样子。