五千年(敝帚自珍)

主题:【原创】下载西西河主题帖的一个小程序 -- 晓麦

共:💬4 🌺18
全看树展主题 · 分页首页 上页
/ 1
下页 末页
家园 【原创】下载西西河主题帖的一个小程序

我是python的新手,我也做了个小程序,来下载西西河(ccthere,cchere,talkcc,here4news)的主题帖.

我这个程序能做两个操作:

一:下载作者家园博客下主题帖里的所有主题.

例如,http://www.talkcc.com/user/井底望天/所有帖/ 下的所有主题帖

点看全图

外链图片需谨慎,可能会被源头改

下载后结果为(我做测试,只小了小部分):

点看全图

外链图片需谨慎,可能会被源头改

二:下载单个主题.

这个其实是上面内容的一部分,我独立出来.

我将主题帖以树展的模式下载成为一个独立的html文件.这个文件仍旧保留了原来的风格,并且如果原树展有n页的话,我合并成了一页.

原页面风格:

点看全图

外链图片需谨慎,可能会被源头改

我下载下来后的:

http://1841.img.pp.sohu.com.cn/images/2011/10/20/14/3/e26468200_133ddafa456g213.jpg

我使用的是python2.6.6,附件里config.txt是设置文件,里面有设置用例,欢迎使用.lol

另程序可能存在的问题或甲虫:

1.网页打不开,中途会退出,打不开的原因有(网页被重置,该网页需要你登陆才能看到)

2.因为使用了正则表达式来抓内容,考虑肯定有不周全的地方,抓到的内容就....

3.我只抓了静态内容,如果页面里含了其他的元素(图片等等),那么很抱歉...

4.我css比较弱,所以页面也不太好看,请包容.

[URL=]请试用[/URL]

通宝推:上古神兵,
家园 热心是好的,不过也要考虑作者及铁手的想法
家园 恩,是的,我迟疑了好久,才放上来

算了,我撤掉吧.

毕竟这个对服务器的压力也大啊.

原先的初衷是想下载像忙总,井大等大牛的文章的.

家园 请发给我

申请发到我的邮箱 email:[email protected] 谢谢。

不知老兄为啥撤了? 谁有意见谁自己提嘛, 别人也不是聋哑残废。 虽说这年头连挨打都有人替,但起码还有个授权手续不是。 这替人提意见的, 也不知道有没有填个表啥的, 自说自话就带上三个表了, 晕......

全看树展主题 · 分页首页 上页
/ 1
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河