主题:【原创】云里雾里的云计算 [1] -- 邓侃
既然越来越多的河友对加密问题感兴趣或有质疑,我就把回帖直接放在邓侃原文下,期待更多的眼球,呵呵。
先总结一下大家的问题和论点:
- 太守:(对于企业用户)如果只是把信息加密后存放在GOOGLE的服务器上,如何做加密后的搜索?
- hansens 在“在基础架构层加密和不加密没什么区别”一文里说:加密的目的是要保密,这必须在信息生成的时候就加密,并且不能在最终用户读取前进行解密,这在原理上决定了,加密和检索是不相容的(也许可有单独的非加密关键字,但是对正文的全文检索肯定不行的)
上述问题是基本的,目前主流观点是搜索和加密并存在原理上不可行。
从实现上:
- 对于我的“如果支持加密,个人认为应该是在基础架构层面”,hansens持相反意见:如果在Google的在基础架构层加密和不加密没什么区别。因为从技术上看,只要Google能解密就是不安全的。如果Google不能解密,那么也就不能检索。
从Google公开资料来看,它的确没有同时满足加密和检索的方案,但是,理论上是否可行?我先抛砖引玉一下,谈一个非常基本非常粗略的想法,很可能有大破绽,请太守,hansens和其他河友指教。
我们先来定义企业对于搜索的要求:相对于web search,企业搜索应该简单很多——没有spam,没有恶意点击,也许,email和docs搜索更简单,和传统information retrieval没有太大区别,连PageRank都不需要。
在这样的环境下:不考虑NLP,不考虑语义,不考虑name entity (例如,“张美美”明显是一个人的名字,所以搜索张美美最好不要出“一张美美的照片”等结果)等等,搜索就是看一篇文章是否含有搜索词:A, B, C, etc,以及这些词在该文中相隔的距离。
说到这,大家可能已经猜到我的答案了吧——是的,办法就是:对原文加密,对于搜索关键词加密,只要它们用的是同一个密钥,就可以知道原文和搜索词之间的相关度了。在此过程中,原文和搜索词的加密都可以在信息进入Google的系统前进行,密钥可以掌握在企业手里,Google看到的就是一坨又一坨乱码。
所以,找到答案的最好办法是简化问题。
- 相关回复 上下关系8
压缩 2 层
🙂邓太太这么强,那邓侃一定不差了 瓦斯 字4 2009-01-20 06:25:40
🙂这篇写得很具体了 益者三友 字128 2009-01-19 09:34:47
🙂"gmail 对 outlook 完胜"有些绝对吧。 5 我不知道 字1036 2009-01-20 14:26:37
🙂[想法]如何为搜索加密
🙂似乎不行。比如一加密后是1234,那么一二加密后肯定不是 meokey 字295 2009-01-23 22:35:44
🙂这个方法理论上可行,实际上不可行! laizx 字857 2009-01-21 08:00:01
🙂同意hansens。这样加密就等于把汉字的编码换了一下嘛 meokey 字83 2009-01-23 22:25:38
🙂你这种加密是违反密码原则的,和没加密没啥区别 hansens 字66 2009-01-21 17:33:11