- 近期网站停站换新具体说明
- 按以上说明时间,延期一周至网站时间26-27左右。具体实施前两天会在此提前通知具体实施时间
主题:这几天大火的Deepseek没有人讨论吗 -- 俺本懒人
因为语言类大模型的聊天机器人、话术、糊弄的本质,我本来对网上各种热议的DeepSeek完全不感冒的——直到今天我自己用了一下网页版。
总结:
怎么说呢?彻底脱离了聊天机器人的范畴,进入了智能助手的中间态:搜索助手、分析助手、汇总助手。
虽然距离真正的问答机器人还有距离,但已经特别接近了,最重要的是它性能够好,就不需要糊弄用户。遇到不懂的就老老实实告诉我:
【对不起,我还没有学会如何思考这类问题,我擅长数学、代码、逻辑类的题目,欢迎与我交流。】
我只能说,太惊人了,在我自己试用之前,我根本不相信,语言类大模型能达到这种程度。
--
--
【吕阿华 机器学习算法那些事
《国产大模型之光-DeepSeek-v3技术报告解读 》
核心评估成果
知识领域评估:
• 在教育类基准测试中,DeepSeek-V3 的表现超越了所有开源模型,在 MMLU、MMLU-Pro 和 GPQA 测试中分别获得了 88.5、75.9 和 59.1 的优异成绩。这一性能水平已与领先闭源模型 GPT-4o 和 Claude-Sonnet-3.5 相当,显著缩小了开源与闭源模型的性能差距。
• 在事实性知识评测中,DeepSeek-V3 在 SimpleQA 和中文 SimpleQA 测试中都展现出领先于其他开源模型的优势。特别值得注意的是,虽然其英语事实知识(SimpleQA)略逊于 GPT-4o 和 Claude-Sonnet-3.5,但在中文事实知识(中文 SimpleQA)方面却超越了这些模型,凸显了其在中文知识领域的特殊优势。
技术能力评估:
• 在数学领域,DeepSeek-V3 在所有非 CoT 模型(包括开源和闭源)中取得了最优性能。值得注意的是,在 MATH-500 等特定测试中,其表现甚至超越了 GPT-4o,充分展示了其出色的数学推理能力。
• 在编程领域,DeepSeek-V3 在 LiveCodeBench 等编程竞赛基准测试中表现最为突出,确立了其在该领域的领先地位。在软件工程相关任务中,尽管略低于 Claude-Sonnet-3.5,但仍大幅领先于其他模型,展示了其在各类技术评测中的综合实力。
】
- 相关回复 上下关系8
🙂就像生成模型,创造力只管生成,判断归用户。形式逻辑问题很大 nobodyknowsI 字4216 2025-01-30 12:42:24
🙂只能说明你也是中国人 1 胡辣汤 字424 2025-01-30 10:17:49
🙂论文中类似的故事太常见了,但DS靠信息压缩获得了一定创造力 nobodyknowsI 字5147 2025-01-30 11:23:08
🙂DeepSeekV3的知识领域评估和技术能力评估:数学、编程
🙂DS再次证明东南金融资本是中国最先进的力量 生产队的小鸭子 字258 2025-01-30 08:29:57
🙂哈,这货是真急了开起地图炮了 5 dudu8972 字421 2025-01-30 09:45:57
🙂不如人类狡诈 6 瓷航惊涛 字1280 2025-01-30 02:12:19
🙂就想它什么时候 3 汉水东流 字78 2025-01-30 06:40:47