DeepSeek
浅谈 DeepSeek-R1 和 Kimi k1.5 论文中的思维链 + 强化学习
·2598 字·6 分钟
AI
LLM
CoT
强化学习
DeepSeek
Kimi
模型蒸馏
思维链
浅谈 DeepSeek-R1 和 Kimi k1.5 两个模型在推理能力上的技术特点:DeepSeek 采用 GRPO 算法和模型蒸馏提升推理表现,Kimi 则探索长文本思维链和强化学习的结合方案。