- 近期网站停站换新具体说明
- 按以上说明时间,延期一周至网站时间26-27左右。具体实施前两天会在此提前通知具体实施时间
主题:茗谈149:赤雁 -- 本嘉明
复 你不懂什么是蒸馏
蒸馏需要海量的token进行高频率的训练,只有开源才有可能在本地部署大模型,进行高带宽的交互才能实现。
靠付费API那点流量,根本蒸不出来6710亿的大模型,就算行,也付不起那个费用。
- 相关回复 上下关系8
压缩 4 层
🙂huggingface上有完整复制deepseek的训练 106 陈王奋起 字2109 2025-02-04 13:37:15
🙂蒸馏只可能蒸馏Open source的 9 老虎008 字0 2025-02-05 12:38:13
🙂你不懂什么是蒸馏 2 向前向前 字90 2025-02-06 11:46:08
🙂他的意思应该是不开源负担不起
🙂什么是蒸馏 3 老虎008 字830 2025-02-08 03:29:20
🙂请教一下:LPU到底有没有前途? 拜吨 字693 2025-02-07 20:59:06
🙂取决于如何定义LPU 12 陈王奋起 字416 2025-02-07 23:27:48
🙂用大量SRAM来换取速度的设计都是没前途的。 史蒂芬周 字34 2025-02-10 01:05:32