- 近期网站停站换新具体说明
- 按以上说明时间,延期一周至网站时间26-27左右。具体实施前两天会在此提前通知具体实施时间
主题:这几天大火的Deepseek没有人讨论吗 -- 俺本懒人
1. 马前卒这次的发言可以忽略,几乎0价值,参考知乎上 段小草 的回答 如何评价第859期睡前消息? - 段小草的回答 - 知乎
https://www.zhihu.com/question/11285665541/answer/92969787112。
2. DeepSeek的总参数在变大,v3/r1比v2/2.5大,v2比之前的coder/chat v1大。但它是MoE模型,和dense模型(llama系列直到3)无法直接比较,并且它的重要创新点就是MoE模型方面的。
河友关于“压缩”/变小部分,我理解来自之前流行对大语言模型的一个理解,将LLM看作世界知识的压缩(压缩既智能 https://zhuanlan.zhihu.com/p/681449063 ),但是本身这个也属于玄学。和LLM工程进展没太大关系。
下面属于我的个人不靠谱总结:
Dense模型不时出现32B在特定任务(尤其是qwen 2.5 coder 32B)反杀70B模型的情况。但是更通用的任务中,大家慢慢发现,知识点记忆(世界知识)仍然需要更大的模型来记忆。这时候高参数,低激活参数的MoE模型显出了优势,尤其是DeepSeek推进到几十上百个专家(分散记忆知识点),但是激活几个的模式,这个创新实际上其他家并没有做到,Mistral只做到8专家2~3激活。(这个创新也是Anthropic CEO文章提到的DeepSeek在MoE上走得更远的创新)
- 相关回复 上下关系8
🙂这几天大火的Deepseek没有人讨论吗 16 俺本懒人 字675 2025-01-27 09:45:45
🙂感觉西西河到了这类前沿专业领域,信口开河的人有点多
🙂大模型是数据库+信息检索的融合,知识抽象程度既看前者也看后者 3 nobodyknowsI 字4429 2025-02-06 10:59:56
🙂OpenAI的O3-mini涉嫌抄袭DEEPSEEK dudu8972 字129 2025-02-03 18:45:32
🙂在军事斗争、情报收集整理、反间谍太有用了 1 camper 字0 2025-02-02 04:06:12
🙂胡锡进这个帖子里的这句值得关注呀 3 不远攸高 字437 2025-01-30 21:01:21
🙂这个就是 DeepSeek 瞎编的 1 孟词宗 字237 2025-01-31 13:28:07
🙂这是一场关于人类自主性的斗争 14 uphere 字943 2025-01-30 16:31:34