五千年(敝帚自珍)

主题:【求助】求能自动抓取网站内容的软件 -- 渡泸

共:💬29 🌺40
分页树展主题 · 全看首页 上页
/ 2
下页 末页
  • 家园 【求助】求能自动抓取网站内容的软件

    有一个网站有几年的产品价格数据,不过网页上一次只显示几天的数据。为了得到所有的数据,我只好用crtl+C和crtl+v 每一页都翻一遍,拷进Excel里面。一个产品的数据得搞一个上午。以前好像听说有一种软件能把网站的内容全部抓下来。哪位大牛能给指点一下?非常感谢!!

    通宝推:橙与蓝,
    • 家园 哈哈,老铁......

      这个是 2010年的陈年老帖

      谁翻出来考古呀

    • 家园 我的示例......

      上周我给人搞过类似的程序

      要提取国药名录大全

      1万多页/16万的条目

      网页在:http://app1.sfda.gov.cn/datasearch/face3/base.jsp?tableId=25&tableName=TABLE25&title=国产药品&bcId=124356560303886909015737447882

      我的代码在:http://bbs.csdn.net/topics/390588439

      你可以找人改用 VBS 脚本

      很简单的

      希望有用

      • 家园 谢谢!
        • 家园 假如可以的话......

          不客气

          如果不牵涉到机密

          你把你的网站地址私信我或公布一下

          我试试看用 DOS 或 VBS 做一下

          不需要再装其他软件

          把你的资料提取出来

          也是免费的

    • 家园 编程

      这个就得有点编程的自己做个程序,直接向服务器发http request, 然后到输出中抓关键字存在文件中。

      要是不会的话,找个朋友帮忙吧,非常简单,10分钟搞定的小程序。

      • 编程
        家园 罗杰兄帮我写了个程序

        罗杰兄很热心,帮我写了个程序,还帮我远程调试好,非常好用。

        再次感谢罗杰兄!

    • 家园 flashget的 site explorer
    • 家园 做过很多抓取网站信息的小项目

      用PHP/CURL库。不过价格就比下面说的50元高多了。

      还有一种方法是找人帮你手工抓信息。

      使用软件抓信息叫做 Web Scraping。

      http://www.freelancer.com/projects/by-job/Web-Scraping.html

      手工抓信息叫做 Data Entry。

      http://www.freelancer.com/projects/by-job/Data-Entry.html

      如果你在国外,可以试试 freelancer.com。

      如果你在国内,可以百度“威客”,很多外包网站提供这类服务。

      另外,你还可以试试Firefox下的一个免费插件……iMacros。

      如果网站结构简单,用iMacros可以很快写出脚本,自动运行。

      https://addons.mozilla.org/en-US/firefox/addon/3863/

      另外,还有些现成的软件可以抓email、电话号码什么的。Google "scraping software",或者到天空软件、华军软件、download.com 搜索“scrap”。

      如果你想学 scraping 编程,可以参考 "Options for HTML scraping?"

      * Python

      o Beautiful Soup

      o lxml

      * Ruby

      o Hpricot

      o scrAPI

      o scRUBYt!

      * .NET

      o Html Agility Pack

      o WaitiN

      * Perl

      o WWW-Mechanize

      o Web-Scraper

      * Java

      o Tag Soup

      * PHP

      o htmlSQL

      关键词(Tags): #scraping通宝推:渡泸,
    • 家园 ruby+firewatir的组合很适合这种任务

      我最近刚帮别人做了一个抓取网站内容的小程序,是用ruby+firewatir完成的。你可以试试,还是很方便的,可以非常自由的定制自己想要的内容。

      • 家园 太好了兄弟!在哪里能下载啊?
        • 家园 一些说明

          这个需要一点儿ruby脚本的知识,如果你有兴趣的话就好办了。

          环境的准备包括:

          1.安装ruby186-26

          http://rubyforge.org/frs/download.php/29263/ruby186-26.exe

          2.安装rubygems 1.3.7

          http://rubyforge.org/frs/download.php/70697/rubygems-1.3.7.zip

          打开命令行,进入rubygems解压后的目录,运行ruby setup.rb.

          3.安装firewatir

          打开命令行,运行gem install watir

          4.安装Firefox插件jssh

          http://wiki.openqa.org/download/attachments/13893658/jssh-3.6-WINNT.xpi

          环境准备好后可以写一些很简单的Ruby脚本来模拟网站交互以及抓取信息。

          具体可以查看http://watir.com网站的相关文档。

分页树展主题 · 全看首页 上页
/ 2
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河