五千年(敝帚自珍)

主题:【求助】求能自动抓取网站内容的软件 -- 渡泸

共:💬29 🌺40
全看分页树展 · 主题 跟帖
家园 做过很多抓取网站信息的小项目

用PHP/CURL库。不过价格就比下面说的50元高多了。

还有一种方法是找人帮你手工抓信息。

使用软件抓信息叫做 Web Scraping。

http://www.freelancer.com/projects/by-job/Web-Scraping.html

手工抓信息叫做 Data Entry。

http://www.freelancer.com/projects/by-job/Data-Entry.html

如果你在国外,可以试试 freelancer.com。

如果你在国内,可以百度“威客”,很多外包网站提供这类服务。

另外,你还可以试试Firefox下的一个免费插件……iMacros。

如果网站结构简单,用iMacros可以很快写出脚本,自动运行。

https://addons.mozilla.org/en-US/firefox/addon/3863/

另外,还有些现成的软件可以抓email、电话号码什么的。Google "scraping software",或者到天空软件、华军软件、download.com 搜索“scrap”。

如果你想学 scraping 编程,可以参考 "Options for HTML scraping?"

* Python

o Beautiful Soup

o lxml

* Ruby

o Hpricot

o scrAPI

o scRUBYt!

* .NET

o Html Agility Pack

o WaitiN

* Perl

o WWW-Mechanize

o Web-Scraper

* Java

o Tag Soup

* PHP

o htmlSQL

关键词(Tags): #scraping通宝推:渡泸,
全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河