五千年(敝帚自珍)

主题:【原创】云里雾里的云计算 [1] -- 邓侃

共:💬620 🌺1262
全看分页树展 · 主题 跟帖
家园 [想法]如何为搜索加密

既然越来越多的河友对加密问题感兴趣或有质疑,我就把回帖直接放在邓侃原文下,期待更多的眼球,呵呵。

先总结一下大家的问题和论点:

- 太守:(对于企业用户)如果只是把信息加密后存放在GOOGLE的服务器上,如何做加密后的搜索?

- hansens 在“在基础架构层加密和不加密没什么区别”一文里说:加密的目的是要保密,这必须在信息生成的时候就加密,并且不能在最终用户读取前进行解密,这在原理上决定了,加密和检索是不相容的(也许可有单独的非加密关键字,但是对正文的全文检索肯定不行的)

上述问题是基本的,目前主流观点是搜索和加密并存在原理上不可行。

从实现上:

- 投入比较乐观,建议为:

- 对于我的“如果支持加密,个人认为应该是在基础架构层面”,hansens持相反意见:如果在Google的在基础架构层加密和不加密没什么区别。因为从技术上看,只要Google能解密就是不安全的。如果Google不能解密,那么也就不能检索。

从Google公开资料来看,它的确没有同时满足加密和检索的方案,但是,理论上是否可行?我先抛砖引玉一下,谈一个非常基本非常粗略的想法,很可能有大破绽,请太守,hansens和其他河友指教。

我们先来定义企业对于搜索的要求:相对于web search,企业搜索应该简单很多——没有spam,没有恶意点击,也许,email和docs搜索更简单,和传统information retrieval没有太大区别,连PageRank都不需要。

在这样的环境下:不考虑NLP,不考虑语义,不考虑name entity (例如,“张美美”明显是一个人的名字,所以搜索张美美最好不要出“一张美美的照片”等结果)等等,搜索就是看一篇文章是否含有搜索词:A, B, C, etc,以及这些词在该文中相隔的距离。

说到这,大家可能已经猜到我的答案了吧——是的,办法就是:对原文加密,对于搜索关键词加密,只要它们用的是同一个密钥,就可以知道原文和搜索词之间的相关度了。在此过程中,原文和搜索词的加密都可以在信息进入Google的系统前进行,密钥可以掌握在企业手里,Google看到的就是一坨又一坨乱码。

所以,找到答案的最好办法是简化问题

全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河