五千年(敝帚自珍)

主题:问一个搜索引擎的问题 -- 大明湖

共:💬27 🌺5
全看树展主题 · 分页首页 上页
/ 2
下页 末页
家园 硬盘太小

我的硬盘太小,所以没有保存cache,所有的html和图片一旦处理完毕就都delete掉了。数据库中只保留了index信息。

家园 的确,图片包含的信息很多

那天偶然想到这个问题,就是因为目前还没有出现具有这样功能的搜索引擎,起码,俺不知道。

既然算法不成问题,硬件也不成问题,困难究竟是什么?

家园 花一吨. 使用图型文件所附的 Description 或 Key Word,

虽然是现在就能办到的方法, 但搜的还是文字编码的附属数据, 离 "如搜寻文章般的搜图" 还是有段不小的距离吧?

家园 还在独力发展阶段?

Anything I can help you please don’t hesitate to let me know.

家园 有帮助最好了

因为是空闲时间做,一直不能完全投入,现在主要有以下几个问题需要解决

1。mysql总是crash,按说俺们的数据库也并不大,最大的一个table也就10G,(网上说mysql需要到100G才会出现状况)

2。web grabber不能完整的收集页面。

如果有朋友有志共同做这个方面的工作,我的email信箱[email protected].

家园 现在基于内容的图像检索是一个很热门的题目

兄弟我正在做相关的课题,所以知道一点。基于内容的图像检索Content-based Image Retrieval(CBIR)的基本原理就是把图像用各种能量化的指标表示出来,比如颜色,纹理,形状等等,然后用一个或一组向量表示。这样你要找某个图像时,就可以提交你要找的图像的相关指标,计算机就可以在数据库里查找相似的图像了。

不过现在的所谓CBIR都不表现不如人意。这倒不是因为现在的计算机速度不行,而是我们还没找到比较好的表示比较图像的方法。上面说的方法都是比较低层次的方法,和图像的"语义"还有相当大的距离,这就是所谓的semantic gap。目前计算机视觉的算法还远没有达到理解图像的地步。所以刚开始的时候大家觉得CBIR只是文本检索的一个延伸,后来越做越发现不好做了。虽然到现在也没作出真正的CBIR,不过在研究这个题目的过程中,到是促进了模式识别,机器学习等相关领域的发展,到也是赛翁失马,焉知飞福,呵呵。

家园 花一吨, 要常来啊.
家园 能不能有空给详细说说,加精没商量!
家园 困难在于这么做的好处在哪里?

俺认为至少5-10年内不会出现基于web的,面向大众提供以图象作为搜索条件来搜索内容的引擎。

无法想象一家商业公司会投入巨资去做这种东西的商业运行。不是技术问题,而是没有这么做的动力。若谁能说服拉瑞他们,告诉他们这玩意里面有巨大的市场潜力,那么,嘿嘿。。。

问题是需求在哪里?市场有多大?

俺认为搞这个东西那是投入产出比严重失衡。

上面已经提到google这样的巨头,连图象的上下文的搜索都还没有投入实际应用,而这种需求是google改善他的图象搜索的重要一步。就是说,现行的以文字搜图片的功能都还没有完善起来,那么以图片搜文字或图片的功能就肯定谈不上,而且有多少人会使用这个功能呢?我认为一点也不乐观。

假定需要使用文字搜图片的用户是100个,再假定需要使用图片搜图片或文字的用户是10个。实现后者的技术要稍难一些,那就是说投入要多一些,就算是同样的投入,那么投入1万收获1百跟投入1万收入10元之间,你作为商业公司的主管,会不会选择投入后者?

俺以为俺的假定中10%的用户比例那是太高了,没做过调查,但我认为实际不会超过1%。

会有一些感兴趣的个人跟团体(例如本河里的qwert01)去做这样的事情,但这种的资金、影响力有限,大家能听说的机会也不多。

有钱的如google这样的公司会在实验室搞这样的技术,但花10万美圆搞技术研究、做个模型跟花1亿美圆搞个商业运做的大系统之间显然是两回事。

另外,我想说明一下,专业领域内以图象搜图象的技术发展得是很快的。例如军事上地标定位(例如那种巡航导弹用电视/红外/热成像摄像头自行制导的技术)、指纹/虹膜对比技术(输入一枚指纹,一秒内从上千万的指纹库中找到对应的指纹),等等等等。。。但这些技术有其特定的应用范围,而且强调的是精确;这跟Ineternet上面向广大用户的搜索引擎的目标是不一样的。

只有等到能稍微看到那么一点市场潜力的情况下,楼主的要求才可能变成现实。

元宝推荐:Highway,

本帖一共被 1 帖 引用 (帖内工具实现)
家园 你指的页面是image还是page?

mysql出状况要到TB级以后了。但GB级以上的table建议用innoDB类型,myISAM显然会出事的。

静态的image或page可以参考头信息里的chunked size,判断是否下载完毕。

但对没写size的动态page或image没有啥好法子,因为大多数人的page都是瞎写的,毫无语法限制。你没法子从页面本身判断是否到尾部了(除非你针对特定的一批网页设定了尾部标志)。若是自己能写到TCP/IP协议这一级,不用封装的sock模块,大约会好办。

不过说实话,不是俺泼冷水,您这个发展方向俺还真是看不出什么大的价值来。

家园 把图片都扔数据库里,实时生成?

不会这样的吧?吓人。再好的机子也受不了这个。

家园 做个调查吧

反正俺很多时候还是需要的

而且当他出现的时候,说不定就会有更多的用户了。在google之前,谁可以想象能够发展到今天的地步?

全看树展主题 · 分页首页 上页
/ 2
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河