五千年(敝帚自珍)

主题:【求助】求能自动抓取网站内容的软件 -- 渡泸

共:💬29 🌺40
全看树展主题 · 分页首页 上页
/ 2
下页 末页
家园 【求助】求能自动抓取网站内容的软件

有一个网站有几年的产品价格数据,不过网页上一次只显示几天的数据。为了得到所有的数据,我只好用crtl+C和crtl+v 每一页都翻一遍,拷进Excel里面。一个产品的数据得搞一个上午。以前好像听说有一种软件能把网站的内容全部抓下来。哪位大牛能给指点一下?非常感谢!!

通宝推:橙与蓝,
家园 这个因为每个网站都不一样,要专门分析网站的结构,

所以一般都是专门定制的软件。

其实就是一个小脚本。如果你有很多很多产品,找人做个还是值得的。

家园 老虎手真快

老虎手真快,花谢!

我记得还是在电话拨号上网时代,因为上网费很贵,所以流行一种软件,一次能把网站上所有的网页全部下载下来。用户在断网后继续浏览网站,能省不少上网费。不知道现在还有没有那种软件。

家园 如果你只是抓取内容

我过去一直用的teleport pro,网上应该能找到很多“免费的”

http://www.tenmax.com/teleport/pro/home.htm

如果要获得内容还自动变成excel的什么,那就要自己写脚本了,比如python什么的。

家园 用Excel VBA 写程序处理

上猪八戒威客网找人帮忙

家园 现在还有啊,老字号的像wget就是可以一次把网站上所有

网页抓下来的。给别人的网站“搬家”,这玩意可是无往不利……

不过那个只能抓网页转到excel这类的还是像[不是老陈]说的,要自己写脚本。

家园 谢谢!我去看看先

不知道能不能指点一下一般这种任务大概要多少钱?

家园 的确

的确,我的目的不是抓网站内容,而是转换成Excel。看来还得手工搞了。

老铁送宝:

送花成功,可取消。有效送花赞扬。感谢:作者获得通宝一枚。

参数变化,作者,声望:1;铢钱:16。你,乐善:1;铢钱:-1。本帖花:1

家园 很便宜 50元搞定
家园 天!

俺马上去看看。不厚道地希望天朝永保劳密产业的青春,嘿嘿

天!
家园 哈哈!
家园 snagit 把截屏转化为文字

之前我用过离线浏览软件把网站的数据下载到本地上, 忘记名字了, 似乎是Teleport之类的, 不知道这个现在还能不能用。

另外, snagit 抓屏转成txt文本,好像是Tab分割的, 拷到excel应该能识别。你只需要微调吧。

家园 ruby+firewatir的组合很适合这种任务

我最近刚帮别人做了一个抓取网站内容的小程序,是用ruby+firewatir完成的。你可以试试,还是很方便的,可以非常自由的定制自己想要的内容。

家园 用过webzip,整个网站都当下来。
家园 太好了兄弟!在哪里能下载啊?
全看树展主题 · 分页首页 上页
/ 2
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河