五千年(敝帚自珍)

主题:回覆本嘉明兄:對台灣現況與民情的分析 -- aiguille

共:💬561 🌺6169 🌵19
分页树展主题 · 全看首页 上页
/ 38
下页 末页
                • 家园 别的不知道,国家预警信息中心没那么玄乎

                  这个了解一点情况,据报道国家预警信息中心是中国气象局牵头的,这个应该起源于气象预警信息的公众发布,最常见于电视和手机,后来想扩大到其他领域,包括一些社会突发事件的发布,但是这个“想”目前仅限于气象部门,至于其他公安、城管、水务等相关部门包括地方政府想不想那就不知道了,至少目前看来还是气象部门在自己吆喝,气象部门在地方政府有多弱势就不用说了,难度比较大。这里涉及一个信息共享的问题,信息就是资源,就是权力,不同的信息其背后蕴含的资源不一样,共享信息即使可以获利,可获利如果不能和资源相匹配,谁也不会干,政府部门之间尚且如此困难,不同性质不同法人的企业之间怎么共享数据,如何解决利益分配,现在看不到办法,牵扯的方面越多越难平衡。

                • 家园 大数据、趋势与黑天鹅

                  大数据、趋势与黑天鹅

                  大数据的核心是关联算法,抓主流,分析趋势,一般取95%的置信度,

                  问题是,真正有价值的恰恰是哪些5%,我们在实际分析时发现:黑天鹅才是新常态

                  金融市场 大家都是大数据 会反向干扰态势的

                  现在(2015) 黑天鹅才是新常态

                  看看:石油价格 瑞士法郎 日元升值 光大砸盘黄金狂跌

                  全部没节操 没下限

                  参见《大数据与黑天鹅等》

                  外链出处

                  07年我就开始做舆情,而且采用的是智能语义分析模式,应该是国内最早的,

                  基本是原创代码,后来检索资料,发现政府招标,并且有总参参与,就主动放弃了

                  也接触一些机构,包括广东省宣传部相关人员和深圳专业的舆情分析公司(类似香港的第三方民间评估机构)

                  因为这块太敏感,而且个人不喜欢与政府机构合作,政府部门往往多破坏,少建设

                  后信息时代,创意经济,个人的主动性非常重要,甚至是第一位的,

                  这个才是欧美目前真正的核心竞争力,国内政府必须认真解决这块,才能提升全体国民、企业的竞争力

                  参见《当代TG人的“异化”》链接出处

                  黑天鹅才是新常态

                  真正做大数据分析,和看报告是不同的,做研究,尽量使用第一手的资料和数据,转手越多,数据污染越严重。

                  目前大数据用的比较成熟的有三块:互联网广告分析、机器翻译、量化投资

                  因为项目需要,早期我做过原创的ocr代码,这个图像分析、模式匹配、人工智能是基本功

                  早在99年,就开始用语句库、统计模式做英语翻译软件,比谷歌还早几年,素材是电影的双语字幕,当时就有百万级的语料库,国内同期的北师大等项目,不过几十万,

                  后来因为资源和课题发现,没做这块,附带出版了一套《魔鬼英语》教材,

                  对于普通人而言,想把握目前大数据、人工智能的发展程度,看看百度、谷歌的中英翻译网页就可以,随便找段英文,机器翻译下,

                  这个翻译水平,降低一个数量级,差不多就是当前大数据、人工智能的实际水平

                  这几年,做量化投资方面的数据分析,越做越发现:黑天鹅才是新常态

                  为什么混沌理论,是量化投资的基础理论?

                  因为市场是双向的,任何机构、个人,通过数据分析,进行决策,参与市场

                  对市场是会有干扰的,人少还好办,人一多,整个市场就乱套了

                  在所有的股票数据中,早期,macd是比较科学的,也是非常有效的

                  当大家都用macd指标,作为投资参考,

                  完蛋了,不是一只蝴蝶,而是所有人都成为了蝴蝶

                  整个市场数据,完全被污染,macd也成为无效指标

                  所以说:人人都大数据,就人人都没数据

                  现在的投行标配,全部是交易员自己写代码,将策略直接程序化,

                  尽管如此,即使100%保密,因为每家头行都以亿美元为起点,对市场影响也是超级“蝴蝶效应”,造成很多策略都是一次性的

                  大数据与死数据

                  据说,汶川地震,药物管理问题,刺激了政府大数据战略,这个实际上,是有很大问题的

                  首先,这个模式类似macd指标,有效性,是建立在数据库封闭基础上的,只有政府和少数关联企业可以使用,普通企业、个人,没有权限使用这个数据库的,

                  如果大家都能使用这个数据库,百度一下,分析汶川缺少板蓝根,大小老板、甚至个人投资者,全体板蓝根,几天后,汶川会成为全国、甚至地球上板蓝根密度最高的地区,

                  这个“姜你军”要涨价,“蒜你狠”不折腾,已经有过案例,

                  资本的力量是无法阻挡的,即使政府限制,关系企业,有关人士,也会拿到相关权限,这个毕竟只是商业数据,保密权限不可能很高,“SSS”级,和二炮一个级别

                  淘宝余额宝,也是一个类似的案例,早期,阿里数据源不开放、其他基金嫌麻烦,再加上互联网企业贴本吆喝、花钱买客户的传统,表面收益貌似蛮高。

                  等行业稳定下来,目前余额宝的收益,也和行业其他基金差不多,

                  这种趋势,不过是价格二元化,在大数据行业的复制,与政府改革开放的出发点是相悖的

                  互联网的基础是:open(开放)+free(免费),基于互联网的大数据产业,如果违背这个基础,只能是空中楼阁

                  这种管制模式的大数据产业,越发展,对整体经济损伤越大。

                  首先,少数权贵部门和企业,从资本、原料等方面的垄断,会延伸到数据方面的垄断,获得不当利益,

                  而广大普通企业、个人,却因为受限于数据,无法进行正确的商业决策、个人投资,社会的二元化分割更加严重,

                  这个,看看现在的房屋数据库,始终无法进行全民查询

                  这里多说一句,政府与其,梦想通过大数据,建立2.0版本的1984社会,不如管好全国四百个城市的局级以上官员,毕竟这个才几十万数量级

                  如果连几十万数量级的中高官员,而且绝大部分是党员,都无法有效管理,希望利用大数据,来管理十亿级的民众,只能是。。。。。。

                  其次,数据与资本、原料、设备不同,一个邮件,一张U盘,就可以将涉及全体国民的数据暴露给国外敌对机构

                  发达国家的模式是,除极少数敏感数据库外,普通数据基本免费开放,全民共享,这样才能全体国民受益,减少数据事故,减少数据意外事故,对普通企业、个人的冲击

                  更多参见《大数据与死数据》

                  外链出处

                  大数据与数据干扰

                  政府大数据项目的一个“G点”,是舆情监控

                  通过QQ纪录、微信关键词的确,可以进行一定程度的舆情监控,公共事件管理

                  但是,真正的破坏者,例如敌方,恐怖分子,异议者,可以用很低的成本干扰数据源

                  《机器之心》里面,杀手采用口红大小喷剂,就可以屏蔽摄像头的人脸拍摄

                  《大数据与史上最强网络推广个案:hp笔记本》链接出处

                  也提到,如何通过软件,提升关键词比重10%-50%,这个很多seo教材都有

                  关键是,这个成本很低,稍微在网络下载一些hack教材,只需要一台笔记本,就可以控制成千上万台肉鸡,进行干扰信息发布

                  hack违法,没关系,买套群发软件,买几台二手电脑(五百元的主机级ok),一根网线,几千元,就可以搭建全部硬件

                  验证码,没关系,云打码,完全人工识别,准确率99%

                  IP限制,没关系,vpn每个月十块钱,上千个IP地址,全世界都有

                  ......

                  通宝推:在跋涉,朱红明,
                • 家园 第一步还是信息孤岛的问题,这个解决了。算法才有用武之地。

                  我看到的是孤岛不是越来越少,而是手段越来越隐蔽。大家都知道数据重要了。

                  另外,歪个楼啊,就阿里健康这个项目,如果按照葡萄的说法,那目前淘宝上的假药可以立刻绝迹了,只要post的条码不符合上述四家的数据库,立马下架,或者不给发布。可是此时此刻,你去淘宝上搜,没有条码的药品仍旧大把。这个是阿里不想做呢,不能做呢,不敢做呢,还是不会做啊?大家自己想想。

                  • 家园 【原创】假药的事情很快就能搞定的
                  • 家园 所以

                    配套大数据交易中心,数据有价数据有偿。不是说这个就解决问题了,和前面说石墨烯类似。在产业化中一步步走。我提产业化因为恰好知道推到哪里,中车采购降低成本提高产量。再后面还有国企跟进。这里我以前说过类似思路,政府,军工自己大垄断企业采购降低前期成本。边开发边摸索,虽然他很多性能研究还远没吃透但是架不住他突出的物理性能在特别领域的优势。这里顺便说说数据化,我这里因为介入相关企业数字化流程因此才知道中车去年研发到哪里今年采购到哪里还有配套的什么。数据化好处也这里,一个业务可以和你能理解的任何工业化领域接上线,这才有很多直观感受知道推进到什么程度。你说的隐蔽实际没意义。上海国资委两年前就做到下属企业数据全备份到指定数据中心。这配套的中心项目已经设立,因为自己计算该中心耗电量判断核电必启动才选了中核科技。相关信息同步讨论我都在茶馆技术版面了。还有,地方政务云地方不得自建早有明文。全覆盖就是几年的事。这个领域的进化对大数据信息圈外屏蔽用一个茶馆网友的评价是丧心病狂不为过。举例吧上海电信年产能力,一家国企备份就是他们的一倍半。前面提的备份只是部分节点的备份中备份。提的前几年已经开工落地的全国数据中心节点以千亩为单位,这还是一期。最后能说的,上海按照这个速度建设机房2017年就没有合适地址建设新机房了。这里提的至少是两年前的信息。然后,你去茶馆看我和老槐讨论全量数据范畴你就知道你说的隐蔽在新体制下暂时没有任何意义。当然以后肯定有回避技术,比如我们提出的局部云架构。但是这需要物联网二代标准确立后。还能说的就是,我没有任何大数据万能的意思。但是这一块不是身处其中。很难理解国家全力推进的力度与速度。即使是我们组合最大胆的预测也远远不及实际工作推进的速度。举例,比如去年我们论证数据替代资本成为核心生产要素,第一步是数据可交易。我们预测最快七年后,既换届加大数据产业琏形成正循环。但是今年就落地大数据交易中心。同步上海这里银行已经开始根据数据质量对创新企业发放贷款,这也出乎我意料。再有今年开启配套修宪的有关法律修改,就已经开始讨论数据纳入固定资产的法律有关事宜。具体预期完成立法准备时间这里不会说。熟悉财务制度与企业流程的马上会明白那意味着什么。之余这些,在资本增值的本能下,你对我那句这样的事没有太多实际还是否认同呢。

                    通宝推:macau11,muqi,
                    • 所以
                      家园 人类信息传递3个阶段,人-人,人-服务器,服务器-服务器

                      现在信息化的阶段是人们从服务器获取数据的阶段(电影,网页)过渡到各数据中心之间的数据对接流量为主,人从服务器获取的都是些结论性的少数数据。这个会形成新的产业,对老的产业进行数字化改造,降低社会运营的成本。单从金融行业,银行服务器直接从各行业服务器(税务,房产等)获取数据,瞬间完成对一个人,一个企业的信用评估,当场就能发放贷款。阿里银行对传统银行的威胁在于他淘宝上的企业运行数据都在他的服务器上,瞬间可以进行信用评估。其它各行各业都可以参考,当然阿里股权结构考虑觉得国家应该对其数据进行安全监控,网络安全,云数据的安全很重要,有些国家立法相关国际企业数据中心不能建在国外。但是传统企业和一些人的信息并没有数字化,社会运行也没有数字化,这部分是个麻烦。上海的能源和安全考虑其建的数据中心应该是本地数据中心,全国大区域的数据中心不宜建在这。应该选能源充足,易于散热的地方。大数据想到核电我觉得凑巧的可能性大,当年核电和高铁被强制停下我就觉得是个失败决策,潜伏了几年起来也很正常。不过我炒股较差,正在学习,随便说说。茶馆的文章我也要去看看,学习学习。

                    • 所以
                      家园 我同意数据的价值,但是对这种大跃进的弄法存疑。

                      兄弟不才,虽是小民一个,但是也接触过大数据,目前做的也是提供基础架构的工作。偶尔也能见到一两个牛人,七弯八绕的也有幸聆听过院士和某些政府高官的半公开会议。听来听去,他们提到最多的还是要解决数据共享和数字化的问题,特指魔都。另外就某些数据采集工作来看,还是老一套要求一线的事业单位/行业协会提供数据,他们的数据又是问企业要的,那还不是上面想看啥就有啥么?可能有些央企自建系统,但是在大面积的社会数据都是手工采集,尤其是小微企业这块。说个笑话税务系统是联网的吧,在企业评审过程中,连税务数据都要企业自己提供,无法从税务系统之间给出统一查询接口。我只能说如果数据被算作固定资产,某些部门会非常快的做大,并拥有比以前更大的行政权力,是逆行政改革潮流的。简单说,不是很严谨拉,你要查询数据,他一句话就把你顶回去了,白查就是国有固定资产流失,要想查就要明码收费,具体怎么收费还不是他一家说了算,例如:税务,电力,人口这些数据都是一家独大的垄断滴。最后绕一圈,还是要靠行政力量解决这个问题,大数据市场化交易行为,我觉得只能限制在一些商用数据上还是民对民,例如:某个区域的人比较喜欢某类食品及其价位等等。

                      • 家园 说一些个人理解

                        去年,参照上海信息协会黄会长的讨论,非云项目全部放弃。今年年初,黄会长对大数据新方向阐述是,去云端去IT,智能化。这是信息协会年会的年度报告内容。看起来,这里就是你说的大跃进中的颠来倒去。但是,这何尝不是快速推进的暴力破解中随着新事物的出现与发展很自然而然的么。比如,老猫提的局部云。对应的是,麦肯锡预判的,到2020年传感器市场对于2012年预期一万倍增幅。你还能说,这只是我们政府自己在搞大跃进么。另外,奥巴马在去年对公众开放三分之二的政府数据上线,同时强制义务开放数据还有美国几大物流协会,保险协会,信用来协会自己医疗协会等等。上海政府也对应了相关承诺。我说的那么多已经发生的事,远远只是正在发生将要发生和正在准备与酝酿发生事务的沧海一粟。关于暴力破解部分的解释,你点开我家园博客看最新的几个回复。几个一起比照看,会更有意思。

                        • 家园 黄会长真是会放大炮,反正是行业协会,没有实际政治任务压力

                          回头我去看看他们的报告,不过呢,要拿今年年底的报告对比看一下,才知道哪些做了哪些没做,实际的阻力多大。传感器这个呢,我同意这个判断,相应的A股已经反映的很好了。前天习大大去海康也是其中的意志的体现。

                          另外,我倒是看到交通系统的壁垒有突破的趋势,上海公交这个app已经可以实时调取公交的信息和路况,说明公交公司和交通执法大队的数据接口已经可以互通共享,就是不知道后续会不会收费。

                          硬骨头是,税务/人口/公安/卫生。这些部门的壁垒不破,一个字,难!

                • 家园 我猜这个人工智能与人工智慧的分水岭

                  是不是指的narrow AI 与AGI (Artificial general intelligence)的区别?

                  的确很有必要在讨论的时候把这两者区分开。目前比较有进展的是大数据分析到narrow AI这部分,而许多对AI的恐惧伦理的考虑则大多数针对的是后者,现在谈上传(这个词去年在硅谷比较流行,比较典型的是河里史妹妹那个系列与去年好莱坞几个电影)还比较早,遑论给个时限。

                  不过事物的发展是人很难预料的,前两天谷歌传出消息:

                  Google is working to encode thoughts as vectors described by a sequence of numbers. These “thought vectors” could endow AI systems with a human-like “common sense” within a decade, according to Hinton, who has been working at Google for two years
                  , 还有包括情绪的AI现在也在研究中。

                  有一点可以肯定,AI的进展目前是在以月来计算,很难说几年后发展到什么水平。

                  • 家园 补充

                    2003年首次无人驾驶大赛,全程200多公里。第一名跑了11.7公里。如今谷歌无人驾驶超过了百万公里,其中11次事故无一由谷歌无人汽车自己造成。

                    其实对比同步在茶馆的更多的事例,我都反复说的是。大数据不是改变了具体的什么技术与什么事务。他改变的是我们熟悉的所有事关我们所知技术,组织甚至事关我们自身进化有关研究的速度。

                    我们不过在这个新时代的起点,在这个起点我们第一次在工业时代崛起后和列强处于同一起跑线。我们没有迟疑,怀疑与为既有成就自矜和傲慢的时间。

                    • 补充
                      家园 知乎上有个楼在讨论AI取代人类的可能性

                      里面提出,自动驾驶这样的技术只能算弱AI,即智商低于人类,只能模仿人脑的部分功能。然而信息技术是指数扩张的。智商等于人类的AI可能几十年内就出现,而这将会是个临界点,因为从此AI就可能实现自我进化,在智商上超越人类,甚至取代人类。从那以后人工智能就会变成人类无法理解的存在,就像你的狗理解不了你在做什么一样。

                      • 家园 不太同意人工智能超过人的观点,人工智能不是芯片的堆积

                        看过某些文章,以芯片电路数超过神经细胞数就人为芯片智能超过人脑作为证据我认为不对,实际上地球上所有联网计算机CPU芯片的电路应该已经超过人脑,但他们显然没有超过人脑的智能。更重要的人神经细胞之间的联接,爱因斯坦大脑好像连接部分就比一般人强。用人脑要搞清楚人脑的全部工作原理我觉得不可能,虽然有计算机做工具辅助。人脑只能研究复杂度低于人脑的对象。对于高于人脑的对象,就和比喻的狗理解不了人一样,人是研究不出来的。

分页树展主题 · 全看首页 上页
/ 38
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河