主题:【原创】写个工具,抓大佬文章看看 -- 光头佬
共:💬13 🌺36
有阵子没上西河,最近发现葡萄发言较多,我前2年收集过一阵子葡萄的发言,就是把他每篇帖子copy/paste到word中。不过,这次有好几个月的内容,实在懒得一一复制。所以就想着来个一劳永逸,写个工具把大佬们的文字抓下来看吧。
爬虫我是不太熟,好在铁手大人的西河排版比较有规律,再加上有chatgpt帮手,所以用了三天碎片时间就比较顺利地就把代码写出来了。我已把代码开源到了 https://github.com/pisces76/cc-spider 上,同时作为测试把葡萄最近10年的文章也一并下载并放到了上面。只需简单修改下配置,就可以下载任意西河ID的全部文章。欢迎大家试用并提出宝贵意见。如果愿意在github上分享你下载的其它大佬的文集,那就更好了!
唯一不太确定的是,铁手大人是否接受河里被爬虫侵扰。如果老大不同意的话,那就删除此文吧!
通宝推:s0158,小泽珍珠,
本帖一共被 1 帖 引用 (帖内工具实现)
复 花,求分享
另外,文档只有200多k,对吗?
如果是葡萄的文章,全部下载后应该有3M多的word。如果你设置的是其他作者,文章少的话,是可能只有200K。不过从你帖的图看,似乎下载的有些问题。你可以把下载时生成的.log文件提交到github issue中吗?如果确实代码有问题,我会尝试解决的。
复 你是下谁的文章?
这次应该没问题的!另外,还新增加了"万里风中虎"的文集。你再试试!
按照配图里右侧下载按钮,点击没有反应。
点击文件下方“View raw”蓝色文字链家,成功下载,并且能正常打开。
复 你是下谁的文章?
万里风中虎的文档也下载。在楼主提示处及view raw处都能下载,好像后者更快些。
另外,给老大汇报一下:平时我在拷贝保存河里各位大佬发言时,都会把把其回复的内容一并存下来,这样能更好的理解大佬的意思。
一点做法,见笑!