跳过正文

Kimi

思维链 + 强化学习:总结 DeepSeek-R1 和 Kimi k1.5 论文中的创新点
·2547 字·6 分钟
AI LLM CoT 强化学习 DeepSeek Kimi 模型蒸馏 思维链
深入解析 DeepSeek-R1 和 Kimi k1.5 两个最新模型在推理能力方面的突破。探讨 DeepSeek 如何通过 GRPO 算法和模型蒸馏提升推理效果,以及 Kimi 团队在长文本思维链和强化学习方面的创新。