五千年(敝帚自珍)

主题:这几天大火的Deepseek没有人讨论吗 -- 俺本懒人

共:💬115 🌺312 🌵12新 💬7 待认可1
分页树展主题 · 全看首页 上页
/ 8
下页 末页
  • 家园 这几天大火的Deepseek没有人讨论吗

    一个小团队,靠着相比国外巨头们微薄的资金,开发出了媲美chatgpt的产品,更牛逼的是居然给整开源了。

    以前下载了chatgpt,试了几次就扔一边了,直到听说了deepseek,果断下载安装,对比之下,感觉deepseek比chatgpt强了不少,逻辑推理方面deepseek绝对占优。二者相比,deepseek感觉是理科生,条理清晰,响应快,推导过程直接显示出来。chatgpt说话漂亮,响应稍慢,不给出推导过程。

    几百万美元的培训成本打败了几十亿上百亿美元成本的巨头们。deepseek用一己之力把美国仅存不多的优势又拉下马一个,大写的赞👍

    • 家园 感觉西西河到了这类前沿专业领域,信口开河的人有点多

      1. 马前卒这次的发言可以忽略,几乎0价值,参考知乎上 段小草 的回答 如何评价第859期睡前消息? - 段小草的回答 - 知乎

      https://www.zhihu.com/question/11285665541/answer/92969787112。

      2. DeepSeek的总参数在变大,v3/r1比v2/2.5大,v2比之前的coder/chat v1大。但它是MoE模型,和dense模型(llama系列直到3)无法直接比较,并且它的重要创新点就是MoE模型方面的。

      河友关于“压缩”/变小部分,我理解来自之前流行对大语言模型的一个理解,将LLM看作世界知识的压缩(压缩既智能 https://zhuanlan.zhihu.com/p/681449063 ),但是本身这个也属于玄学。和LLM工程进展没太大关系。

      下面属于我的个人不靠谱总结:

      Dense模型不时出现32B在特定任务(尤其是qwen 2.5 coder 32B)反杀70B模型的情况。但是更通用的任务中,大家慢慢发现,知识点记忆(世界知识)仍然需要更大的模型来记忆。这时候高参数,低激活参数的MoE模型显出了优势,尤其是DeepSeek推进到几十上百个专家(分散记忆知识点),但是激活几个的模式,这个创新实际上其他家并没有做到,Mistral只做到8专家2~3激活。(这个创新也是Anthropic CEO文章提到的DeepSeek在MoE上走得更远的创新)

      • 上帖之待认可回复,花囧定1 / 0
        大模型是数据库+信息检索的融合,知识抽象程度既看前者也看后者

        只是相关领域,并非大模型领域,但数据索引+搜索算法这块可就是我专业的领域了。

        大模型与过去的数据库、数据索引、信息检索比起来,最大的特点是数据库、数据索引、信息检索全融合到一起了,而不是过去孤立的。

        所以,大模型才能做到比任何数据索引+信息检索算法更快的搜索结果。而大模型与数据库最大的区别是,大模型把数据抽象成了知识。

        大模型把数据抽象成了知识,这个是所有语言类大模型都在做的,而深搜我认为里程碑的一点,不仅表现在模型大小上,更是表现在搜索上。

        1. 模型大小。

        首先,模型大小不能直接以参数大小估计,你不知道参数的稀疏程度是怎么样的,所有高维模型,经常有大量零值的参数,即算法没把模型用到极限。

        DeepSeek(深搜)作为一个独立推动的模型框架,无疑是符合这一点的,而过去的那些基于同一个框架的大模型,毫无疑问参数空间用得更多。

        模型大小本身在网上也有数据,我记得是671G,结果你们纷纷告诉我参数怎么怎么样多。(模型文件大小,根据版本不同,最小1.1GB, 最大671GB。)

        这也就是为什么在你这个回帖之前,我都懒得再发回复说明这一点,如果连一些最基本的常识都不清楚,我还非得去解释不成?

        第一、如果比模型大小,连直接比模型大小都不会,只会比参数大小,那我说又能说啥,我又该说啥?

        第二、比模型大小,首先你要选那些性能接近的模型,深搜之前有性能能超过OpenAI最新模型的模型吗?有的话轮的到深搜?

        如果你不懂的性能曲线的含义,不懂得在OpenAI最新模型性能往上提升一个级别的含金量,不懂开源模型和闭源模型的性能鸿沟,那我说啥?

        2. 搜索速度,这个碾压了吧?这个总该没有疑问了吧?这个性能曲线完全爆表到没办法用OpenAI的行能来防守了吧?

        首先,你模型特别大,搜素速度还能上的去,我就从来没见过,模型小和算法好,两者兼备,才能把速度上升一个级别。

        其次,所有的大模型最终考验的是预测、决策时候的性能曲线,用得好不好,反应快不快,我还不知道吗?国内一大票大模型知耻。

        搜索速度上去了,就是从最终结果上,说明DeepSeek(深搜)的知识抽象程度高,否则你搜索速度根本上不去,靠GPU飙上去的啊?

        3. DeepSeek的花费的时候也说了,算力是完全被碾压的,不论是训练的时候,还是预测和决策的时候,性能曲线能够反压,当然是算法的胜利。

        算法>算力,但算法太难了,所以大多数时候,大家都是在原有算法那里微创新,然后拼算力、拼数据。

        不是大家不想拼算法,而是风险太大了,没人敢做主,微创新风险就小很多,胜有功,失败也是理所当然的。

        真的出现算法突破的时候,谁敢不跟风?但并不是大家不知道算法厉害才是真的厉害,你看看现在国内外有多少个跟风?

        4. 最后的最后,我是因为只是相关专业,才不敢打包票,才只敢从我懂的角度,给出一些预测。

        天天在网上洗地的有傻子,做最前沿的没有傻子,特别是DeepSeek在大模型中属于绝对廉价的,不跟风才是傻子。

        那个飞来飞去的li feifei都抢跑到发论文了,这就是最好的证据。DeepSeek绝对是里程碑式的成果,也是当初chat-gpt之后到现在最重要的里程碑。

        5. 补充一下,“知识抽象”在大模型领域的术语叫“知识蒸馏”,也就是OpenAI无端指责深搜的借口,但li feifei他们正在做的事情。

        Qwen(阿里通义千问)2.5已经证明DeepSeek的模型是最好的。现在li feifei他们的论文好像是在证明DeepSeek蒸馏小模型的手艺是最高的。

        我没详细看,是因为我又不是做这个方向的,我现在用深搜还来不及,我去管一个飞来飞去的li feifei做什么干嘛?

        只要你是做相关行业的,你就知道DeepSeek的含金量,在当前的时间点上,不论深搜的框架,还是深搜蒸馏的手艺,都是世界之巅。

        这就是里程碑的含金量,在这个时刻为止。(模型我不是世界之巅我不清除就不乱说了。)

    • 家园 OpenAI的O3-mini涉嫌抄袭DEEPSEEK

      有个疑问,既然DS开源,抄了也没啥索赔之类的法律问题吧?

      标题

    • 家园 在军事斗争、情报收集整理、反间谍太有用了
    • 家园 胡锡进这个帖子里的这句值得关注呀

      惊艳!面对海啸般乱拳,DeepSeek这样回答“你怕吗”

      他们封杀的是昨天的DeepSeek。当他们在国会山争论是否禁运H100芯片时,我们的光子计算原型机已经在合肥实验室跑通了1750亿参数模型

      光子计算,这是个啥东西?此前似乎没咋听说过,量子计算倒是听说过

      • 家园 这个就是 DeepSeek 瞎编的

        不信你拿同样的问题再去问一遍 DeepSeek,它保证给你个不同的天顶星科技。😁

        在睁着眼说瞎话这方面,DeepSeek和其他大模型都一样。问题是 DeepSeek 说得更像真的,更具有迷惑性。

    • 家园 这是一场关于人类自主性的斗争

      一方要打造几个超级AI,都在云里成为普通人获取知识,新闻,和娱乐的窗口。普通人只能使用但不能改变AI。统治阶级通过AI控制普通人的感知,想法。

      对应的,另一方要让家家户户都有自己的AI,几十家上百家生产商竞争,用户还能自己改造,AI就存粹是个工具,而不能成为一个自上而下的人脑控制工具。

      前者要推动关于AI的立法,要合规,要监控。通过控制硬件的生产和流通来避免地下AI出现。让中心式AI做生活里各个方面的决定,比如在教育,政府部门领域,到没有中心AI就社会停止的地步。

      后者要让个人和小集体可以独立自主地训练,改进,运行本地AI模型。让AI成为一个工具,不鼓励人类盲目相信AI。

      这是一场关于人类自主性的斗争,如果前者成功,统治阶级将能够控制普通人的“现实”和思想。

      通宝推:审度,
    • 家园 和gpt一样好,或者和gpt一样坏 -- 有补充

      我强烈反对用此类工具做教育目的,是因为他们都会一本正经说错话、假话。对于某个问题完全不知道的人,特别是孩子,会毁了他们。但是对于明白的人,做辅助工具是很好的。

      比如我问一个很简单的逻辑问题,《圣经-旧约》中国王寿命的矛盾问题,双方都无法给出全面正确的答案。逻辑上是很简单的,对于死亡后才被继承的国王,继位年龄+在位时间=寿命。找到这三个数字,做个比较就好。但是两者都无法做到。不管什么语言,《圣经-旧约》肯定是在训练中可以取得的文字材料。即使训练不用,对于互联网遍地各种语言版本的圣经原文的条件,如果连这个搜索能力也没有,也是令人沮丧的。

      另外就是概念解释问题。比如我问过DS什么是马尔可夫过程的问题。在第一次回答时,DS就阐述了马尔可夫过程的一些性质。但其实这只是马尔可夫过程的特例,稳态马尔可夫过程(转移矩阵恒定)的性质。当然为了避免定义的差异,我后来特意问了,转移矩阵不恒定是否也叫马尔可夫过程,它明确回答也是。类似这样的话题,我们需要一些先验知识,一步步去问,它才能提供越来越正确的答案。更危险的是,它会倾向于同意你的诱导性提问。如果你是一个错误但自信的状态,它会大大加强你的错误(有点类似抖音,爱看大长腿的,发现网上女人真的都是大长腿)。如果孩子们拿这类工具当老师,考试吃瘪是小事,工作中犯错损失不可估量。

      最后重申,这不是DS的问题,是整个语言大模型类AI的问题。DS依然是gpt的同路人。从使用者的角度看,没有走一条新路。或者说要到非常细分的技术层面,才算新路。我始终认为,这条路上,AI只能是越来越乖巧的,博闻广识的鹦鹉,但并不会有猴子那样的智力。


      本帖一共被 1 帖 引用 (帖内工具实现)
      作者 对本帖的 补充(1)
      家园 大家看看,媒体人马前卒对DS的评论对不对? -- 补充帖

      著名媒体人马前卒说,DS是踩着GPT肩膀站高的

      这似乎解释了我的直觉感受:

      和gpt一样好,或者和gpt一样坏

    • 见前补充 5045330
      • 家园 【讨论】对武学博闻广记的王语嫣

        能不能打赢一个粗通拳脚的小喽啰?就算唬赢,那也算赢。

        这个问题看似抬杠,其实在军事斗争领域,有实际意义。语言大模型类AI无疑能帮助一个大国,在军事上更轻松地战胜一个小国;但能否帮助一个大国,在军事上战胜另一个大国呢?

        当然,其他类型的AI,很可能在军事上能起到的“倍增器作用”更大,现在我们只说语言大模型类AI。

        如果能,一百个百科(DS),乱拳打得赢一个万科(Chat GPT),这第一个百科就值得宣扬。因为量产一百颗当量20万吨的原子弹,比你从头研制一颗2000万吨的氢弹,要来得便宜且容易。

        • 家园 核弹会不会开源?

          类比问题,用类比回答。

          从群众的学习、进步讲,DS开源当然是个大好事。这方面有个社区,不是一个两个人或者企业,DS也是站在别人的肩膀上。

          • 家园 福特T型车这个典故网上很多人讲过很多次了

            不分人种不分国家,大势所趋。至于目前,微软英伟达亚马逊华为腾讯都接入了DS

      • 家园 “一本正经地说假话、错话”可能恰恰是人类智能的特征

        人类大脑本质上不能区分事实和想象。这是需要后天训练的。但是再怎么训练,也有被欺骗的可能。另一方面,既然有可能会被欺骗,那就会有人去主动欺骗,以利用这一漏洞。这种欺骗-反欺骗的长期博弈,以及产生的大脑适应,可能是人类智能的重要一部分。

        “一本正经地说假话、错话”其实挺常见的。小孩子、情侣吵架、男人吹牛皮、政治斗争中的欺骗,以及宗教,等等。就是在本河,也挺常见,例如黑老邓。

        我们之所觉得“一本正经地说假话、错话”不好,是我们作为史学民族精英被训练了几千年之后的结果。但是对于“史学民族精英”之外的人群,这个价值观判断不一定成立。

        大过年的,说一些严肃的真话,不知道会不会气到人。如果被气到了,说明你被训练得还不够,还有“听好听话”的倾向,对方可以利用这一点,对你一本正经地说假话。

        • 家园 【人类的特征】未必是【人类智能的特征】

          标题是第一条,比如随地吐痰是人类的特征,但不是人类文明的特征。

          还有第二条,根据自己的利益选择说假话(政治斗争中的欺骗),和没有能力区分真话假话(小孩子)是不同的。前者才是智能。而语言大模型是后者。

          智力的发展,是有一个【不知道真而说假】,经过【知道真而说真】,到达【知道真而说假】的否定之否定的过程的。

          语言大模型处于第一阶段,【不知道真而说假】。更可惜的是,不是不会人类的【真假】的问题,而是不会人类的【知道】的问题。

分页树展主题 · 全看首页 上页
/ 8
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河