五千年(敝帚自珍)

主题:回覆本嘉明兄:對台灣現況與民情的分析 -- aiguille

共:💬561 🌺6169 🌵19
全看树展主题 · 分页首页 上页
/ 38
下页 末页
家园 石墨烯在机器人领域没有应用

高校实验室演示的项目,一般是科普性质的,估计离应用比较远。就我所知,目前石墨烯在机器人领域没有应用。。我早先提到的我正在做的技术,目前还没有完成,不敢说一定会成功,所以暂时没有接洽的必要。如果将来万一成功了,就到时候再说吧。。

家园 大数据、趋势与黑天鹅

大数据、趋势与黑天鹅

大数据的核心是关联算法,抓主流,分析趋势,一般取95%的置信度,

问题是,真正有价值的恰恰是哪些5%,我们在实际分析时发现:黑天鹅才是新常态

金融市场 大家都是大数据 会反向干扰态势的

现在(2015) 黑天鹅才是新常态

看看:石油价格 瑞士法郎 日元升值 光大砸盘黄金狂跌

全部没节操 没下限

参见《大数据与黑天鹅等》

外链出处

07年我就开始做舆情,而且采用的是智能语义分析模式,应该是国内最早的,

基本是原创代码,后来检索资料,发现政府招标,并且有总参参与,就主动放弃了

也接触一些机构,包括广东省宣传部相关人员和深圳专业的舆情分析公司(类似香港的第三方民间评估机构)

因为这块太敏感,而且个人不喜欢与政府机构合作,政府部门往往多破坏,少建设

后信息时代,创意经济,个人的主动性非常重要,甚至是第一位的,

这个才是欧美目前真正的核心竞争力,国内政府必须认真解决这块,才能提升全体国民、企业的竞争力

参见《当代TG人的“异化”》链接出处

黑天鹅才是新常态

真正做大数据分析,和看报告是不同的,做研究,尽量使用第一手的资料和数据,转手越多,数据污染越严重。

目前大数据用的比较成熟的有三块:互联网广告分析、机器翻译、量化投资

因为项目需要,早期我做过原创的ocr代码,这块,图像分析、模式匹配、人工智能是基本功

早在99年,就开始用语句库、统计模式做英语翻译软件,比谷歌还早几年,素材是电影的双语字幕,当时就有百万级的语料库,国内同期的北师大等项目,不过几十万,

后来因为资源和课题方向,没做这块,附带出版了一套《魔鬼英语》教材,

对于普通人而言,想把握目前大数据、人工智能的发展程度,看看百度、谷歌的中英翻译网页就可以,随便找段英文,机器翻译下,

这个翻译水平,降低一个数量级,差不多就是当前大数据、人工智能的实际水平

这几年,做量化投资方面的数据分析,越做越发现:黑天鹅才是新常态

为什么混沌理论,是量化投资的基础理论?

因为市场是双向的,任何机构、个人,通过数据分析,进行决策,参与市场

对市场是会有干扰的,人少还好办,人一多,整个市场就乱套了

在所有的股票数据中,早期,macd是比较科学的,也是非常有效的

当大家都用macd指标,作为投资参考,

完蛋了,不是一只蝴蝶,而是所有人都成为了蝴蝶

整个市场数据,完全被污染,macd也成为无效指标

所以说:人人都大数据,就人人都没数据

现在的投行标配,全部是交易员自己写代码,将策略直接程序化,

尽管如此,即使100%保密,因为每家投行都以亿美元为起点,对市场影响也是超级“蝴蝶效应”,造成很多策略都是一次性的

大数据与死数据

据说,汶川地震,药物管理问题,刺激了政府大数据战略,这个实际上,是有很大问题的

首先,这个模式类似macd指标,有效性,是建立在数据库封闭基础上的,只有政府和少数关联企业可以使用,普通企业、个人,没有权限使用这个数据库的,

如果大家都能使用这个数据库,百度一下,分析汶川缺少板蓝根,大小老板、甚至个人投资者,全体板蓝根,几天后,汶川会成为全国、甚至地球上板蓝根密度最高的地区,

这个“姜你军”要涨价,“蒜你狠”不折腾,已经有过案例,

资本的力量是无法阻挡的,即使政府限制,关系企业,有关人士,也会拿到相关权限,这个毕竟只是商业数据,保密权限不可能很高,“SSS”级,和二炮一个级别

淘宝余额宝,也是一个类似的案例,早期,阿里数据源不开放、其他基金嫌麻烦,再加上互联网企业贴本吆喝、花钱买客户的传统,表面收益貌似蛮高。

等行业稳定下来,目前余额宝的收益,也和行业其他基金差不多,

这种趋势,不过是价格二元化,在大数据行业的复制,与政府改革开放的出发点是相悖的

互联网的基础是:open(开放)+free(免费),基于互联网的大数据产业,如果违背这个基础,只能是空中楼阁

这种管制模式的大数据产业,越发展,对整体经济损伤越大。

首先,少数权贵部门和企业,从资本、原料等方面的垄断,会延伸到数据方面的垄断,获得不当利益,

而广大普通企业、个人,却因为受限于数据,无法进行正确的商业决策、个人投资,社会的二元化分割更加严重,

这个,看看现在的房屋数据库,始终无法进行全民查询

这里多说一句,政府与其,梦想通过大数据,建立2.0版本的1984社会,不如管好全国四百个城市的局级以上官员,毕竟这个才几十万数量级

如果连几十万数量级的中高官员,而且绝大部分是党员,都无法有效管理,希望利用大数据,来管理十亿级的民众,只能是。。。。。。

其次,数据与资本、原料、设备不同,一个邮件,一张U盘,就可以将涉及全体国民的数据暴露给国外敌对机构

发达国家的模式是,除极少数敏感数据库外,普通数据基本免费开放,全民共享,这样才能全体国民受益,减少数据意外事故,对普通企业、个人的冲击

更多参见《大数据与死数据》

外链出处

200万亿数据只是小case

政府主打的阿里健康,起点是汶川药品管理,数据库据说有200万亿条纪录

这个数据规模大吗?

实际上很少,药品数据库,不过是名称、价格、厂家等几十个字段,而且基本是结构化数据。

1G大约10亿字节,结构化数据,200万亿,每条50字节,不过是1000G(1T),1T的硬盘,才2-300元。

这个规模,比我们2000年,做字模时少多了,

国标2级是每套字库6700多个汉字,按256x256像素采样,每个汉字128k(64k x 2)字节数据,一套字模差不多700M(兆)

字模的筛选率是百分之一,每套合格字模,需要处理70G的数据。

可能,黑天鹅算法最早的灵感和萌芽,就是不经意间源自这里。

2000年,我们做“千禧版”版权登记,共一千套字体,数据总量超过1000x70G=70T,是阿里健康的七十倍。

当时没有超算,没有GPU,我们是几台电脑,每天24小时运算,差不多半年才做完。

其实,早在92年,我们180款的字模,数据量就差不多20T,是阿里健康的二十倍。

那时候dvd刚问世,刚开始只有视频dvd,没有电脑的,我还特意去广州海印xx公司看过了dvd演示效果

在大数据领域,200万亿数据,只是小case

吓唬外行有用,一线的,再多数据,不过是多几个索引表而已,而且现代k-v表,全部采用hash算法,与数据规模关系不大。

比数据规模更重要的是,数据的实时性:

与百度、新浪微博、微信、淘宝等机构,建立实时的API数据接口,进行元数据搜索,作为一个参照维度。

摘自《大数据和高频量化交易》

外链出处

可惜,这些因为公司利益,政策等原因,在国内目前基本无法操作

而国外,基于社会化数据的投资策略,已经出现N多模式

更多参见《大数据与死数据》

外链出处

大数据与数据干扰

政府大数据项目的一个“G点”,是舆情监控

通过QQ纪录、微信关键词,的确,可以进行一定程度的舆情监控,公共事件管理

但是,真正的破坏者,例如敌方,恐怖分子,异议者,可以用很低的成本干扰数据源

《机器之心》里面,杀手采用口红大小喷剂,就可以屏蔽摄像头的人脸拍摄

《大数据与史上最强网络推广个案:hp笔记本》链接出处

也提到,如何通过软件,提升关键词比重到10%-50%,这个很多seo教材都有

关键是,这个成本很低,稍微在网络下载一些hack教材,只需要一台笔记本,就可以控制成千上万台肉鸡,进行干扰信息发布

hack违法,没关系,买套群发软件,买几台二手电脑(五百元的主机级ok),一根网线,几千元,就可以搭建全部硬件

验证码,没关系,云打码,完全人工识别,准确率99%

IP限制,没关系,vpn每个月十块钱,上千个IP地址,全世界都有

......

又一只天鹅,所以,说:大数据,黑天鹅才是新常态

蓝翔又赢了 [ 迅哥 ] 于:2015-05-28 09:06:11 复:4111499

“支付宝大面积瘫痪,因为杭州的一根光缆被挖断了。不要再迷恋互联网+、工业4.0、大数据了,都顶不住一铲子!据说这是一次预谋已久的传统行业对互联网的绝地反击,原以为需要多少资本运作模式创新,原来找几个农民挖坑就够了。今天轮到携程了。。。”线上再牛逼,也怕线下挖掘机……蓝翔又赢了!据美国中央情报局调查,此次袭击和蓝翔无关,但据参与袭击的挖掘机手交待,该挖掘机手在蓝翔学习了袭击的本领。

家园 其实回到

我在大数据话题中涉及算法的话题,用茶馆网友老猫的话来解释更容易。好比人工智能,在单个图灵机无法在理论上突破的事,现在在通过一个个图灵机组来做。至少在理论上这是可能的,老猫管这个叫暴力破解。我们今天看到的大数据,以及相关的应用。不再是一个个孤立的技术节点,而是一整套治理模型下的暴力破解的一个个环节。真正哪个环节起来不重要,你实际也开始理解我说的意思了。算法上,就是通过有人在讨论中担心的大跃进的方式,通过暴力破解的方式以速度覆盖一切扰动。一个环节起来就是带动一片产业格局的架构。还有就是你说的,即使做不成也带动一批复合型人才的思路也是我为之一新的观点,很受益。还有,关于相关话题,如果你想知道我这里新的同步信息去茶馆吧。这里很多人担心的问题,比如信息孤岛其实在2012年都已经在上海打通。这已经打通到通过国资委以及设计公共领域所有部门的所有信息都必须到相关服务器备份,这还是辅助之一。我提过,新的全国大数据中心在上海的节点是以千亩为建设单位的,开工都几年了。仅仅是这个项目,这里在大数据讨论中有几个人知道。这里还有去年今年以及明年的配套,这些规划至少我知道的部分是衍生到2017年。这里体现出的差异,就是我曾经在茶馆多次提过的,大数据再循环对特定的人群形成的信息阻塞,说白了就是把一些特定的人或者在社会改革重组中要调整的特定的人以信息圈隔离的方式形成不同的信息圈自循环。不同圈子之间的博弈,你再回头看我说的暴力破解与速度覆盖的思路。起码这在逻辑上可以自洽,做到哪一步,和我关系不大的不操心。跟着时代一步步走是真的。还有就是你最后的提醒我同意,我说这个是相关课题中两百多个唯一可以实用化的。受到合作伙伴邀请去的,能解决国内不少实用性问题的成果,就缺一口气。下周我们评估,都邀请了一线工作的合作伙伴,会各种刁难对方。有什么问题解决具体问题,一步步来。


本帖一共被 1 帖 引用 (帖内工具实现)
家园 最近两周操作特点

总结在茶馆,一个标题有发红包的帖子里。你倒过来看,关于模式识别的在46页面可以看到。(手机版本不一样)一家之言,新手总结复盘,未必正确。留下那些心得是让讨论的人体会,数据分析流程的我的实践。我希望由此可以改变很多人在工作学习上的流程安排,早日契合我确定不可避免到来的大数据社会重组的到来并以此获得自己工作生活改变的机会。在这里,不同步类似信息是因为这里多数自负的理科生还确定他们眼里的世界不会改变甚至没有改变。然后,让时间来检验,也许我对也许他们正确。每个人都有自己选择的权力不是么。

通宝推:muqi,
家园 说一些个人理解

去年,参照上海信息协会黄会长的讨论,非云项目全部放弃。今年年初,黄会长对大数据新方向阐述是,去云端去IT,智能化。这是信息协会年会的年度报告内容。看起来,这里就是你说的大跃进中的颠来倒去。但是,这何尝不是快速推进的暴力破解中随着新事物的出现与发展很自然而然的么。比如,老猫提的局部云。对应的是,麦肯锡预判的,到2020年传感器市场对于2012年预期一万倍增幅。你还能说,这只是我们政府自己在搞大跃进么。另外,奥巴马在去年对公众开放三分之二的政府数据上线,同时强制义务开放数据还有美国几大物流协会,保险协会,信用来协会自己医疗协会等等。上海政府也对应了相关承诺。我说的那么多已经发生的事,远远只是正在发生将要发生和正在准备与酝酿发生事务的沧海一粟。关于暴力破解部分的解释,你点开我家园博客看最新的几个回复。几个一起比照看,会更有意思。

家园 多谢邀请

多谢邀请,茶馆其实我还是时不时会去看看的。以葡萄和忙总为代表的众多河友,在过去几年里带给我们的珍贵的视角和经验,一辈子都感激。

至于大数据之类的,说实在的其实科研活动本身就是很类似大数据的玩法,自从路透集团搞web of science(wos)之后,全球科研产出以论文和专著的形式集中于wos,供有需求的人或者机构检阅、查询和调用。其实这种就是科研行业的大数据,即对全行业的行为和产出进行数字化、信息化和集成化,便于从业者按照自己的需求加以运用。

从科研工作的经验来说,这种大数据的主要作用是提高了科研工作的效率和精准程度,所以是进步的、符合历史发展方向的。科研工作者对wos产生了不可替代的依赖性,它已经渗透到科研的方方面面。wos这样的数字化信息化的集成平台是个好东西,我也喜欢,唯一不喜欢的地方是:它不是中国人控制的平台,是米国鬼子的工具。

所以,在未来,等俺回国安顿好之后,要努力做一个中国人控制的知识集成平台。中国应该有自己的science和nature,应该有自己的wos,应该形成自己的科技生态圈和话语权,应该建立自己的意识形态体系,应该对人类进步和发展做出更大的贡献,这些,是俺毕生的愿望。

通宝推:签名,桥上,达济,terron,柏林墙,广宽,唐斩非,懒虫123,何故悲秋扇,陈王奋起,遥仰凤华,睡午觉的手艺人,柴门夜归,旧时月色,西门飘飘,盲人摸象,胡一刀,
家园 大数据并不神秘

从人类社会开始量化管理以来,一直都在通过数字管理不断提升文明阶段。信息化不过是前所未有的强化并加速了这一进程。你说的平台我已经在尝试,但是不局限在具体领域,我们的组合考虑的是全社会各行各业各个年龄阶段收入水平介入大数据社会组织的开源架构。基于信息有偿信息有价的宗旨,试图在不影响任何组合成员既有学习生活以及工作轨迹的同时发挥各自在信息化领域的所学所长,以开放组合的方式加入信息化潮流的自循环。

简单一句话,组合架构很复杂,但是到操作简单到最多只有两步程序。这些年在网络与生活与很多对未来有共同远景的人在实践中遇到这样与那样的问题,一路摸索到今天大家才有了今天一种尝试。机器人项目就是组合在草创阶段,自然而然就来的。很好玩。有机会多沟通与交流。

还有全世界的整合与融合是潮流与趋势,不要把我们中国人的胸襟局限在现在的中国版图之内。最起码,我们能不能把一带一路的各国各族人民,在经济与文化生活交往中形成习总说的我们的命运共同体呢。去年我留在茶馆的文字中提到,我们关于数据化社会未来讨论中,有一个朋友提出了想象的共同体的概念。这个概念并不陌生,要知道中华民族这个概念才从民国草创五族共和为肇始。去年,因为个人原因删除了我自己的务务虚系列。其中第三章节,我从回顾安纳托利亚文明展梳理的人类文明历史的脉络。其中,地中海文明轨迹从安纳托利亚高原,两河以及尼罗河流域到希腊罗马,到拜占庭到文艺复兴再到西方文明的崛起。每个时代的节点都汇聚了当时人类文明的精华像火炬一样一代代传承至今。今天,中华民族的成就绝对不是中华民族自己的全部创造与智慧的凝结。就拿中医来说,多少比例的技术来自回医网络有资料可查,而回医源头不可避免连接地中海。我在删除的章节最后部分说,今天由西方领导的人类文明进步与发展的力量开始进入停滞与自满。我们今天第一次在新技术革命与列强并列在同一起跑线上,我们不应以大中华民族主义者自居。记得在西西河和奥巴马初次当选后我的回顾文字里这样记载我和一些人的对话,他们告诫我要解决中国的问题,必须从解决世界问题为出发点不然怎么做都没有出路。在那之后我思考一年,终于放弃作为一个民族主义者的思考。所以才有了中帝国文字,才有了帝国是死路那句结。

不知你以为如何。

通宝推:parishg,熊茂成,特里托格内亚,天涯无,楚庄王,匿名:1
家园 是的,我赞同

发展方向的确是这样,已经呼之欲出、非常明显了。

但是我始终有一个担心,我们是否正在朝着干电池狂奔疾进?或许在我们享受了信息化带来的便利之后,就会迎来信息专制和信息独裁,少量的信息寡头控制人类一切,人类就一步一步地走进matrix,丧失自我。全面的数字化和信息化,或许是人类的蜜罐,或许是绞杀人类的绳索,或许是人类文明突变的引线,但愿能有个好的结局。

家园 老王回复福山的应该和你意思差不多

考虑问题要放到中国13亿人格局上面,中国这些人是已经发达的西方国家人口的总和还多。中国的行动不仅仅提升我们自己的幸福还要把全世界人口提升幸福水准。

家园 如果人类只能存在于一个地球之上,matrix是必然产物。

工业化、数字化、信息化等一系列发展,是人类控制能力的发展。当控制能力进化到一人能管控一个地球时,matrix是必然结果。

天无绝人之路。儿孙自有儿孙福。

家园 其实很多人的逻辑是

只要反当今的共党就是一定是左派,就应该被宽容被叫好被两少一宽。跟当年8平方的一格德行。

真心是坏人变老了

家园 葡萄一席话说得振聋发聩

现代的中国人就应该有这样的胸怀,比比还在计较英语中文的那些,天壤之别。

他们告诫我要解决中国的问题,必须从解决世界问题为出发点不然怎么做都没有出路。

家园 对的,只有将世界大多数人的命运休戚与共,才是我们的出路

才能破解米帝的围追堵截,才能不走米帝的老路,才能避免世界的毁灭性的大冲突。

有识之士,包括肉食者,包括葡萄能认识到这一点,并付诸实施,民族幸甚,世界幸甚!

通宝推:特里托格内亚,
家园 只要其他民族不懂得自我克制

那么中国或者其他任何一个国家归根到底是做不到休戚与共的.

中国实行了计划生育,而同期其他发展中国家人口大量增加,请问怎么休戚与共?

中国人要达到美国人的生活水平,全世界的资源已经不够了,那其他发展中国家的人口要不要提高生活水平?

其实要做到休戚与共也不难,先来个计划生育先!

家园 其实这样的思想老一辈们早就说过了

其实这样的思想老一辈们早就说过了,先解放全人类再解放自己,不就是这个意思嘛。。只是彼时彼刻力有未逮、没法进一步推动和实现罢了。。经过几十年的建设,鳖朝初步具备了创建自己的体系的能力,很多以前想做却做不到的事情,现在可以逐步拿出来做了。

资本主义国家的发展,经历了血腥资本主义、帝国资本主义和霸权资本主义三个阶段。血腥资本主义是在国家范围内构建统一的(或者说“从一的”)资本主义生产生活方式,帝国资本主义是在几个国家或地区的范围内构建统一的资本主义生产生活方式,霸权资本主义是在世界范围内构建统一的资本主义生产生活方式。近几百年来的历史,就是资本主义生产生活方式的生态圈逐渐扩大和兼并的过程,背后的推力是利润和暴力,每一次的扩张和兼并,都伴随着滚滚人头和人间悲剧,这样的模式注定不可能永远统治人类。

人类发展到这个阶段,米帝的霸权资本主义已经快要到头了,下一个有生命力的模式必定是兼顾全人类或者至少兼顾了大多数人类利益的新体系,这个体系必须是兼容并包、同时具备强大的生产能力,可以同时满足人类精神和物质的双重需求。霸权资本主义无法扮演这样的角色。

葡萄的朋友说得很对,他们的话,就是老一辈们的话,也是新一代有识之士的话。在可以预见的未来,中国将不但是中国人的中国,也会成为世界的中国。让更多人受益,与更多人结成利益共同体和命运共同体,孤立和瓦解霸权资本主义和领主封建主义,这可能就是我们的未来吧。

通宝推:签名,桥上,terron,老老狐狸,
全看树展主题 · 分页首页 上页
/ 38
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河