主题:【原创】Facebook的一小步(上) -- forsake
我可是真心请教... 多谢...
Injection 虽然不会改变文档的源代码,但是插入的网页元素必定会在整个DOM上面有所体现(要不怎么能在网页上被看到和交互呢?)
所以俺猜测用客户端遍历一个网页的DOM然后把里面的所有元素输出成一个新的网页就好了(还没试过,不过理论上应该可行),对于自己有浏览器的Google,以及可以做浏览器插件的我们,应该都不是很困难的事情。
JAVASCRIPT的解析功能,所以动态页面还是静态页面,google都应该能抓的到。
用Chrome右键的"Inspect element"或者Firefox "Dom Inspector"(一个Addon).对西西河这样的网站使用这些工具时有个小技巧,不要尝试直接获取整个网页或者BODY的HTML。在"Inspect element"中沿着DOM TREE往下走,然后右键选择“Copy as HTML"或者“Copy XML"就可以了。
如果想要通过程序自动获取有以下路径:
1.熟悉JAVA SCRIPT的可以考虑写Chrome的Extension.
2.熟悉C++的可以考虑调用IE的WEB控件,如果对IE和ActiveX COM熟悉的话两天就够了。缺点是这个东西不能做为服务在后台运行。
3.直接修改Chromium,熟悉的3--5天.这个方案的好处是可以做为后台服务。
请看这里:
http://code.google.com/web/ajaxcrawling/docs/getting-started.html
原理有点像定点拍照。
需要站长在url里表明支持Googlebot抓取,并提供抓取入口。
当然,Google正在努力支持所有ajax内容,就像太守说的,变成一个虚拟浏览器。不过现在看起来还没有完全实现。
西西河google还好办,但更加强调动态交互的ajax应用还是麻烦。
我个人认为不是技术原因,而是虚拟浏览器的计算成本太高了。这一点过几年就能解决。
写个看起来和真实page一样的“snapshot page”...
I'm not the desperate housewife...
等将来计算成本下降了,面包就会有的嘿嘿
http://www.readwriteweb.com/archives/google_ceo_suggests_you_change_your_name_to_escape.php
He predicts, apparently seriously, that every young person one day will be entitled automatically to change his or her name on reaching adulthood in order to disown youthful hijinks stored on their friends' social media sites.
话说我还是很佩服Eric Schmidt,他说过大实话,都很有道理。
.
设想场景:
俺设立个网站,开个网页 --- 星期五全国长途汽车站站前广场狗尾巴花行为艺术展,然后连上QQ评论。一群QQ网页回复:好!给力!散步去!。。。。。。
当晚,QQ马总接省维稳办公室电话。。。。。。
但一旦经济不景气,甚至有大规模的战争,人人自危的话,这种情况立刻就会改变的