DPO, PPO, GRPO
Mi老鼠:小米实习期间摸鱼看其他知识
LLM中的并行策略————如何理解与理解路径记录
Mi孝子:实习期间“偷”到的一些小知识
adamW优化器:思想、算法公式与代码
长文本增强的便捷技术:YaRN与PoSE代码解析
补习HMM,对其的一些理解与思考
秋招大失利,深夜破防记录
DailyRecord-June
DailyRecord-May