跳过正文

DeepSeek

浅谈 DeepSeek-R1 和 Kimi k1.5 论文中的思维链 + 强化学习
·2598 字·6 分钟
AI LLM CoT 强化学习 DeepSeek Kimi 模型蒸馏 思维链
浅谈 DeepSeek-R1 和 Kimi k1.5 两个模型在推理能力上的技术特点:DeepSeek 采用 GRPO 算法和模型蒸馏提升推理表现,Kimi 则探索长文本思维链和强化学习的结合方案。