五千年(敝帚自珍)

主题:【求助】求能自动抓取网站内容的软件 -- 渡泸

共:💬29 🌺40
分页树展主题 · 全看首页 上页
/ 2
下页 末页
    • 家园 snagit 把截屏转化为文字

      之前我用过离线浏览软件把网站的数据下载到本地上, 忘记名字了, 似乎是Teleport之类的, 不知道这个现在还能不能用。

      另外, snagit 抓屏转成txt文本,好像是Tab分割的, 拷到excel应该能识别。你只需要微调吧。

    • 家园 用Excel VBA 写程序处理

      上猪八戒威客网找人帮忙

    • 家园 如果你只是抓取内容

      我过去一直用的teleport pro,网上应该能找到很多“免费的”

      http://www.tenmax.com/teleport/pro/home.htm

      如果要获得内容还自动变成excel的什么,那就要自己写脚本了,比如python什么的。

      • 家园 的确

        的确,我的目的不是抓网站内容,而是转换成Excel。看来还得手工搞了。

        老铁送宝:

        送花成功,可取消。有效送花赞扬。感谢:作者获得通宝一枚。

        参数变化,作者,声望:1;铢钱:16。你,乐善:1;铢钱:-1。本帖花:1

    • 家园 这个因为每个网站都不一样,要专门分析网站的结构,

      所以一般都是专门定制的软件。

      其实就是一个小脚本。如果你有很多很多产品,找人做个还是值得的。

      • 家园 老虎手真快

        老虎手真快,花谢!

        我记得还是在电话拨号上网时代,因为上网费很贵,所以流行一种软件,一次能把网站上所有的网页全部下载下来。用户在断网后继续浏览网站,能省不少上网费。不知道现在还有没有那种软件。

        • 家园 你说的是 离线浏览 类软件

          离线浏览就是把网页都下载到硬盘,并且复制网站结构。天空软件、华军软件、download.com 可以搜到很多这类软件。

          Web Scraping 的第一步就是下载网页,第二步就是从中解析出你需要的信息。Data Entry 的第一步是浏览网页(其实就是下载网页),第二步是手工copy&paste你需要的信息。

        • 家园 现在还有啊,老字号的像wget就是可以一次把网站上所有

          网页抓下来的。给别人的网站“搬家”,这玩意可是无往不利……

          不过那个只能抓网页转到excel这类的还是像[不是老陈]说的,要自己写脚本。

分页树展主题 · 全看首页 上页
/ 2
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河