五千年(敝帚自珍)

主题:这几天大火的Deepseek没有人讨论吗 -- 俺本懒人

共:💬116 🌺315 🌵12新 💬8 🌺3
全看分页树展 · 主题 跟帖
家园 感觉西西河到了这类前沿专业领域,信口开河的人有点多

1. 马前卒这次的发言可以忽略,几乎0价值,参考知乎上 段小草 的回答 如何评价第859期睡前消息? - 段小草的回答 - 知乎

https://www.zhihu.com/question/11285665541/answer/92969787112。

2. DeepSeek的总参数在变大,v3/r1比v2/2.5大,v2比之前的coder/chat v1大。但它是MoE模型,和dense模型(llama系列直到3)无法直接比较,并且它的重要创新点就是MoE模型方面的。

河友关于“压缩”/变小部分,我理解来自之前流行对大语言模型的一个理解,将LLM看作世界知识的压缩(压缩既智能 https://zhuanlan.zhihu.com/p/681449063 ),但是本身这个也属于玄学。和LLM工程进展没太大关系。

下面属于我的个人不靠谱总结:

Dense模型不时出现32B在特定任务(尤其是qwen 2.5 coder 32B)反杀70B模型的情况。但是更通用的任务中,大家慢慢发现,知识点记忆(世界知识)仍然需要更大的模型来记忆。这时候高参数,低激活参数的MoE模型显出了优势,尤其是DeepSeek推进到几十上百个专家(分散记忆知识点),但是激活几个的模式,这个创新实际上其他家并没有做到,Mistral只做到8专家2~3激活。(这个创新也是Anthropic CEO文章提到的DeepSeek在MoE上走得更远的创新)

全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河