Kimi
思维链 + 强化学习:总结 DeepSeek-R1 和 Kimi k1.5 论文中的创新点
·2547 字·6 分钟
AI
LLM
CoT
强化学习
DeepSeek
Kimi
模型蒸馏
思维链
深入解析 DeepSeek-R1 和 Kimi k1.5 两个最新模型在推理能力方面的突破。探讨 DeepSeek 如何通过 GRPO 算法和模型蒸馏提升推理效果,以及 Kimi 团队在长文本思维链和强化学习方面的创新。