五千年(敝帚自珍)

主题:【原创】Facebook的一小步(上) -- forsake

共:💬57 🌺187
全看树展主题 · 分页首页 上页
/ 4
下页 末页
家园 能不能给个答案

我可是真心请教... 多谢...

家园 【原创】可不可以遍历整个DOM?

Injection 虽然不会改变文档的源代码,但是插入的网页元素必定会在整个DOM上面有所体现(要不怎么能在网页上被看到和交互呢?)

所以俺猜测用客户端遍历一个网页的DOM然后把里面的所有元素输出成一个新的网页就好了(还没试过,不过理论上应该可行),对于自己有浏览器的Google,以及可以做浏览器插件的我们,应该都不是很困难的事情。

家园 我估计google的爬虫已经具有了类似浏览器对HTML和

JAVASCRIPT的解析功能,所以动态页面还是静态页面,google都应该能抓的到。

家园 【原创】如果是偶尔看看某个网站的动态HTML,可以

用Chrome右键的"Inspect element"或者Firefox "Dom Inspector"(一个Addon).对西西河这样的网站使用这些工具时有个小技巧,不要尝试直接获取整个网页或者BODY的HTML。在"Inspect element"中沿着DOM TREE往下走,然后右键选择“Copy as HTML"或者“Copy XML"就可以了。

如果想要通过程序自动获取有以下路径:

1.熟悉JAVA SCRIPT的可以考虑写Chrome的Extension.

2.熟悉C++的可以考虑调用IE的WEB控件,如果对IE和ActiveX COM熟悉的话两天就够了。缺点是这个东西不能做为服务在后台运行。

3.直接修改Chromium,熟悉的3--5天.这个方案的好处是可以做为后台服务。

家园 就我所知,Google目前只能抓一部分符合规定的Ajax

请看这里:

http://code.google.com/web/ajaxcrawling/docs/getting-started.html

原理有点像定点拍照。

需要站长在url里表明支持Googlebot抓取,并提供抓取入口。

当然,Google正在努力支持所有ajax内容,就像太守说的,变成一个虚拟浏览器。不过现在看起来还没有完全实现。

西西河google还好办,但更加强调动态交互的ajax应用还是麻烦。

我个人认为不是技术原因,而是虚拟浏览器的计算成本太高了。这一点过几年就能解决。

家园 他们这意思是要站长们为Googlebot专门写个page

写个看起来和真实page一样的“snapshot page”...

I'm not the desperate housewife...

家园 没办法,过渡时期,要理解配合嘛

等将来计算成本下降了,面包就会有的嘿嘿

家园 倒不是预言家,是Google即将卸任的CEO说的

http://www.readwriteweb.com/archives/google_ceo_suggests_you_change_your_name_to_escape.php

He predicts, apparently seriously, that every young person one day will be entitled automatically to change his or her name on reaching adulthood in order to disown youthful hijinks stored on their friends' social media sites.

话说我还是很佩服Eric Schmidt,他说过大实话,都很有道理。

家园 关于西西河的部分,太守说的不完全对。不过我也不能多说
家园 del

.

家园 QQ有实力,但没有胆力。。。。。。

设想场景:

俺设立个网站,开个网页 --- 星期五全国长途汽车站站前广场狗尾巴花行为艺术展,然后连上QQ评论。一群QQ网页回复:好!给力!散步去!。。。。。。

当晚,QQ马总接省维稳办公室电话。。。。。。

家园 和平时期的人往往不在乎公开自己的一切

但一旦经济不景气,甚至有大规模的战争,人人自危的话,这种情况立刻就会改变的

全看树展主题 · 分页首页 上页
/ 4
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河