主题：OpenAI Whisper 转换声音到文字 -- nanimarcusboy

共:💬12 🌺51

没看懂, 既然用 API 对文件大小有限制, 那就买块显卡本 -- 补充帖

没看懂, 既然用 API 对文件大小有限制, 那就买块显卡本地跑, 就是个电费.

我跑过最大的一个视频文件2G 的MP4, 转换成 wav 文件大概 400M, wav 文件大概一个小时200M左右, 运行需要的时间大概 1:1 , 不过我的显卡太老了.

如果买块3080的是不是会跑的飞快.

而且作者似乎不知道应该用显卡跑, 用CPU太弱了.

OpenAI开源了语音识别模型Whisper，这个模型你是可以本地跑的，配合训练好的数据集可以离线识别语音，但是对机器配置有要求，另外你想识别效果好，得好几G的存储和内存。它也提供了API，这样服务端可以帮你跑，不需要你本地运行程序，但是一次最大文件大小25MB，价钱10分钟6美分

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友