主题:问一个搜索引擎的问题 -- 大明湖
象什么google,等网站,只能基于文字来搜索。那么可不可能实现基于图片的搜索?
比方说我上传一幅图片,希望找到它的处处。能不能作到?
多谢指教!
基于文字搜索,是搜索那些含有关键词的页面,然后把照片提出来,因为含有照片的页面往往附有照片的介绍。
理论上基于图片的搜索是有可能的,有算法可以对比照片的相似程度。但电脑工作量太大,恐怕实现不了。
估计得到机器理解图片有突破了这种搜索才有可能。
正打算推出自己的网站呢,如果有兴趣的话我们可以探讨探讨。
所以理论上是可能,但现在计算机的能力还达不到.
现在数据库中大概有150million页面,2.5million图片信息,可能很多图片查不到。不过俺自己测试了一下,基本上能够定位到图片。 Google 有8000*100million页面, that make the biggest difference.
至于算法,可以私下交流,涉及到俺的商业机密,嗬嗬。就不再这里详述了。
对不起,久等了
http://67.184.79.81/
速度会较慢,一周不在家,MySQL Crash,这台机器正在同时修复数据库,所以速度比较慢,抱歉.
我的email是[email protected], 有什么建议或者问题,敬请告知.
Not Found The requested URL /hello was not found on this server. Apache/2.0.54 (Win32) mod_jk2/2.0.4 mod_perl/1.999.21 Perl/v5.8.7 Server at 67.184.79.81 Port 80
Sorry, we havn't reached that far, please try later
我想补充几点。
google目前是根据图片的alt属性(附加于网页图片的说明文字,有时候你看图片时,鼠标划过图片时显示的那中文字)和图片的url中含有的文字部分来定位图片的。这就是他们的image搜索的原理。进一步的根据包含图片的网页的上下文来定位的技术,据我所知还没有投入应用。
当然图片还可能有其他的属性,例如建立/修改时间、图片尺寸,索引图(某些格式的图片是支持内嵌那么一张索引图的)、作者、数字水印等,都可能被应用来定位图片。
再比如,若要直接对图片建立索引,可以采用把图片建立一个(缩放到)一定尺寸的小索引图,例如30点*30点,这个数据量就是有限的。忽略掉颜色信息,这个索引图可以按照一定的特征(公式)被归纳成简单的数字或字符串。这个并不困难。然后,我们就有了图象的直接索引了,检索这个索引文件那是一点问题没有。
在计算机能理解图片之前,肯定可以在这些基础上建立起折中的、俺估计效果还不错的图片搜索功能。俺上面说的,都是现在立马就能或已经实现的东西。当然随着算法的改进,其搜索效果可以越来越好。并且我认为主要是算法和数学模型的改进问题,硬件问题不是主要的瓶颈。
本帖一共被 1 帖 引用 (帖内工具实现)
150m*1kb=150G for the text part & database index fields,
2.5m*10kb(avg image size)=25G
Here, let me point out that 1KB for 1 page is assumed text (plus index) size only. Basically I dont think it can reach this low.
个人搞的有这么多么?特别是“准备搞”的。
有一点点迷惑。
第一个问题是因为您上传的要么不是图片,要么我的系统还识别不了这种格式。
第二个主要是因为:
1。您要找的图片我的WWW收集器还没能收集到。
2。我的数据库url table不能访问