近期网站停站换新具体说明
按以上说明时间，延期一周至网站时间26-27左右。具体实施前两天会在此提前通知具体实施时间

主题：这几天大火的Deepseek没有人讨论吗 -- 俺本懒人

共:💬116 🌺315 🌵12新 💬8 🌺3

大浪淘沙

全看分页树展 · 主题跟帖

复这几天大火的Deepseek没有人讨论吗

家园

感觉西西河到了这类前沿专业领域，信口开河的人有点多

1. 马前卒这次的发言可以忽略，几乎0价值，参考知乎上段小草的回答如何评价第859期睡前消息？ - 段小草的回答 - 知乎

https://www.zhihu.com/question/11285665541/answer/92969787112。

2. DeepSeek的总参数在变大，v3/r1比v2/2.5大，v2比之前的coder/chat v1大。但它是MoE模型，和dense模型（llama系列直到3）无法直接比较，并且它的重要创新点就是MoE模型方面的。

河友关于“压缩”/变小部分，我理解来自之前流行对大语言模型的一个理解，将LLM看作世界知识的压缩（压缩既智能 https://zhuanlan.zhihu.com/p/681449063 ），但是本身这个也属于玄学。和LLM工程进展没太大关系。

下面属于我的个人不靠谱总结：

Dense模型不时出现32B在特定任务（尤其是qwen 2.5 coder 32B）反杀70B模型的情况。但是更通用的任务中，大家慢慢发现，知识点记忆（世界知识）仍然需要更大的模型来记忆。这时候高参数，低激活参数的MoE模型显出了优势，尤其是DeepSeek推进到几十上百个专家（分散记忆知识点），但是激活几个的模式，这个创新实际上其他家并没有做到，Mistral只做到8专家2~3激活。（这个创新也是Anthropic CEO文章提到的DeepSeek在MoE上走得更远的创新）

全看分页树展 · 主题跟帖

相关回复上下关系8
- 🙂这几天大火的Deepseek没有人讨论吗 16 俺本懒人字675 2025-01-27 09:45:45
  - 🙂感觉西西河到了这类前沿专业领域，信口开河的人有点多
    🙂大模型是数据库+信息检索的融合，知识抽象程度既看前者也看后者 3 nobodyknowsI 字4429 2025-02-06 10:59:56
  - 🙂OpenAI的O3-mini涉嫌抄袭DEEPSEEK dudu8972 字129 2025-02-03 18:45:32
  - 🙂在军事斗争、情报收集整理、反间谍太有用了 1 camper 字0 2025-02-02 04:06:12
  - 🙂胡锡进这个帖子里的这句值得关注呀 3 不远攸高字437 2025-01-30 21:01:21
    🙂这个就是 DeepSeek 瞎编的 1 孟词宗字237 2025-01-31 13:28:07
  - 🙂这是一场关于人类自主性的斗争 14 uphere 字943 2025-01-30 16:31:34

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明