五千年(敝帚自珍)

主题:【原创】数据为王,再加新时代的人工智能=? -- 铁手

共:💬11 🌺124 新:
分页树展主题 · 全看
  • 家园 【原创】数据为王,再加新时代的人工智能=?

    摘要:高速网络让海量数据的累计成为可能,这些海量数据促进人工智能算法的进步,最终会影响人本身。

    和软件打交道的,恐怕不会不知道 StackOverflow 和 GitHub 这两个网站。对于不熟悉的人,StackOverflow 是一个问答软件问题的主要网站,可以算是所有问答类网站的鼻祖。里面的内容非常丰富,最重要的是,被接纳的答复质量极高,而且这些答复还可以象wikipedia那样得到其他人的补充和修正。我写程序遇到的问题,基本上都能在那里找到答案或启发。GitHub 则是开源软件的集中地,存有巨量的软件代码。这些代码,也被大量的参与者不间断的完善和优化。

    这两个网站,都有巨量的代码和软件知识,而且是非常非常多的人在不断的添加积累,可谓精华集萃,知识宝库。

    2018年微软买下了 GitHub。最近的新闻是 Prosus 买下了 StackOverflow。微软大家都知道,恐怕很少有人知道 Prosus 是谁。Prosus 的大股东是 Naspers,Naspers 曾经投资3200万美元获取 46.5% 腾讯的股份,至今依旧为其最大股东。此项投资被称为最成功的风险投资之一。成功到什么程度?2018年它卖了2%腾讯股份,回笼98亿美元。腾讯估计大家都知道。

    以前的专家系统,来自“专家”的数据有限,所能找到的专家人数有限,数据的验证也有一定的困难。现在随着开源软件以及网络协作功能的普及,再加上搜索引擎的功能,精准数据的获得已不再是大问题。同时,人工智能的算法也因为巨量数据的存在,越来越容易被训练、改进和进化。前几年,可能很多人都知道DeepMind人工智能战胜围棋高手的新闻。计算机可以有海量围棋谱去研究,个人所知终究有限。对于这种有一定规律的行为,人工智能可以通过可能性的预测来作出“正确”决定。我不知道这些人工智能算法的具体,但是如果能够通过以往数据,来对当前状况作出概率推断,其意义恐怕要比精确的知道每一步怎么走会更大些。如果能够做到这一点,那么赌王,赌圣恐怕都不会是人了。在股市上也会大概率取胜。去谈判的话也绝对会占上风。算命、心理治疗这些更是小事。好比武侠小说里,你招还没有出,对方就把你下一招都叫了出来,而你,却还变不了招。小说里,武功里最牛的,是绝招,就是没人见过的招数,所以也没有被研究破解过,还有就是王八拳(无招),无章无法,随机乱来,让人没法预测。

    现实世界里,完全随机的情况很少,有规律的居多。比如,网络上看一个人的文多了,多半就能形成一个印象,知道他以后会说什么话,会给什么人什么文去宝推,等等。又比如,股市中参与的人虽然很多,但每个人的操作也并不完全随机,技术分析就是找这种纷纷乱乱中的一个共同趋势。从未来看,我认为,以前是通过分析历来股市变化的规律来推演现在和今后的变化,以后会是通过社交媒体上的言论,来推断参与者的可能行为来推演股市可能的变化。参考铁手:【原创】GME,股市斗智斗勇玩游戏铁手:【原创】GME的朝天炮,其中可能的个体行为模式所导致的群体行为模式,可参考铁手:【原创讨论】自私的利己和利他的利己

    我所知道的,在人工智能算法上,大概有两大。一个是 DeepMind,前面提到它战胜了人类的围棋高手,其东家现在主要是GOOGLE。还有一家是OpenAI,以前是非营利组织,后来大概是被其中的利益诱惑了,或者是搞到足够的数据,充分利用开源的力量算法得到了完善,现在是以盈利为目的的公司。2019年6月,微软给投了10亿美元。2020年9月,其主要产品之一 GPT-3 被独家许可给微软(licensed exclusively to Microsoft)。

    我们现在至少知道,GOOGLE的文字人工智能已经相当成熟。无论是搜索自动提示,写文自动纠正、自动填充都不在话下。

    OpenAI 呢?最近,2021年6月底 GitHub 和 OpenAI 推出了 Copilot,用在微软的 Visual Studio Code 编辑器里,自动生成软件代码。根据网上看到的视频,它能根据编辑器里所输入的一些功能描述,来自动生成对应代码,而且同时能提供多种实现的可能,供最终选择。以后编程,也许只需要语音或文字输入一段功能描述,就能在网上找到优化的软件包直接调用,或者是直接自动生成。程序员是不是要担心失业啊?

    网络的存在和高速网络的便利,地球上那么多的人在网络上的活动,在网络上积累了巨量的数据,这些巨量的数据,给人工智能提供了信息发掘和算法优化的源泉。

    将来,人工智能在海量数据的浸泡下,也许能够:

    1、充当初级程序员,实现局部代码功能。

    2、充当医生的诊断功能,根据症状和检验结果作出诊断。

    3、充当律师,自动分析语义、寻找法律条文、撰写辩词。

    4、社交网站通过内容分析发现社会趋势,通过人工智能来影响大众。

    5、甚至,你根本不知道写下这文的是人还是机器人。

    还有很多很多,你觉得呢?

    我倒是希望,人工智能的发展,能够帮助我们更好的理解复杂系统,而不只是它了解了复杂系统,然后告诉询问它的人一个结果。比如对生物体的内在功能的了解,也许可以帮助解决癌症的问题,长生不老的问题。中医也许会得到更好的理解和发展(关于复杂系统和中医,我会另外找个话题,届时欢迎参与)

    因为大数据的存在,和数据获取的空前容易,相信人工智能的算法也会有爆炸式的进展。为了下一代的前途,也许现在应该要好好考虑在人工智能无处不在的情况下,以后还有多少工作是人类所不可取代的。

    关键词(Tags): #大数据#数据为王#人工智能#OpenAI#DeepMind通宝推:尚儒,脑袋,尖石,桥上,史文恭,赵美成,白玉老虎,mezhan,青菜园子,唐家山,菜根谭,
    • 家园 人工智能的未来如何,短期来说差距极大

      人工智能离人的智能从理论上讲,短期内差距极大,无法企及。

      第一,理论上,现在的AI的学习机制是无法突破到真正的智能的;

      第二,现实上讲,现在的AI的应用相比人脑,其能源消耗是好几个数量级。

      现在的AI热,只能说是数理统计理论应用于计算机应用的突破期,确实是有较好的应用出现了,而这种热潮是加入了很多、很多、很多对于AI的误解的。

      现在的AI从理论上讲,只能做到一定程度的归纳,仅此而已。

      如果真有兴趣,可以找找清华大学张钹教授的通俗文章,他是一个长期从事AI研究的院士。

    • 家园 关于alphaGO

      我曾经试着用过alphaGO的算法,其两大核心,Monte Carol tree search,和卷积神经网络,都是传统的东西。alphaGo的成功在于:

      1。硬件计算能力的突破

      2。围棋作为一个精致的数学问题,容易被实现。作为一个反面,星际II的AI差强人意。因为收集到的数据分布太”离散“,还是受到硬件条件的局限吧。

      至于目前AI能发展到什么地步,我看他们怎么都谈不上智慧。比如一个机器人可以被做成一个行动完全如人,配上装备就可以杀人,但是这还是一个杀人的工具,而并不是依靠智慧去判断是不是可以杀人。

      我很感兴趣的是,AI的发展,到底会拉大精英和大众的差距,还是会缩短?

      • 家园 AI、IoT、大数据、无人工厂的发展,其

        必然结果是拉大精英和大众的差距。

        到了一定时候,这个时候应该不会太久远,国家必然要发挥巨大的分配作用,以平衡精英和大众的巨大差距。

        未来的方向这可能是迈向类似共产主义社会:物质极大丰富,各取所需。

    • 家园 没有什么是AI不能取代的

      没有什么是AI不能取代的。关键是成本问题和需要付出的代价

      比如现在几乎所有人都在讴歌第四次工业革命,希望第四次工业革命出现在中国。俺就认为第四次工业革命如果出现在中国,前提条件就是中国和整个西方打仗,打到人口全部集中到边境战区,中国本土内陆地区各行各业都面临缺人,到处都没有人,中国被战争改变了社会形态,被倒逼着才能出现第四次工业革命。不然机器替代了人,人下岗了怎么办?维稳还要不要了?还有道德问题你根本没法子绕过去。工业化其实就是用机器替代人,讲道德讲文明讲礼貌讲人性,是不可能完成第工业革命的。为什么工业革命最初发生在英国?就是因为英国不讲人性把人当作草芥啊

      当然还有个可能就是飞到天上完成天权,当月球火星地球的搬运工,从外星来解决自身的能源革命。那也可能变相做到,这是妥协折中的办法

    • 家园 这些也许已经全部实现了。但是

      1、多实现重复功能和版本同步。造轮子之外的都不行。

      2、图像识别,比如MRI,多已超过人类。但无法综合分析,无法承担责任。

      3、可以生成辩词大纲、自动提供条文引用。但律师重要的是辩护、漏洞和关系。

      4、推荐系统、Twitter政治、舆论模型,这些大家已经都知道了。甚至还有新五毛

      5、除了特定题材,比如体育新闻或者详细报告绝大多数是可以看出来的。因为形式相对严格,语法相对严谨,主体会有混淆,词语用法不当。最常见的就是用哏的时候很古怪,或者缺乏必要的省略。

      其实如果语文学的好,不那么欧化,也就这类机器生成的空间了。不过最惨不忍睹的是人没能比机器好到哪去,比如本人在这里的发言,这就是不加任何调整的下场,难看啰嗦。

      我的感觉是,大数据依然是很虚的东西,尽管日常中有很多想不到的东西是这类研究的成果。虚是指……它实质上无法触及人类的根本问题,也就是每个人、每个团体、每种社会、每种文化都是一个自我阐释的系统,自身同时属于主体和客体。这可不是简单自指就能解决的问题。其次,每个系统都无法被明确的意向性所涵盖,是指,没有一个客观稳定的实在。作为对象或者语句。而且,机器无法做到人的分析判断,除非人等同于语言,语言严格遵守形式,形式中没有任何不清楚的东西。但每个人都知道,语言并非现实,总会有距离。所以机器永远和现实有一定距离。其实这些本质上是一个问题,因为人类并不是靠意向性知识存在的。

      所以感觉不管是意识还是中医,影响不大都不会很大。研究过程中发现的其他有影响的不算。

      ---

      上面这些,关键只有两个。

      一、人作为责任主体,机器无法承担。

      二、人作为意识主体,机器无法替代。

    • 家园 合金的奇异性能与七虫七花丸 -- 有补充

      这个就是近在咫尺的。

      一,人类偶然间发现了合金的特异性能,两种平常的金属融合在一起以后,韧性硬度熔点等大大改变,算起来有亿万种排列组合,人力不能穷尽,人工智能将为新材料的应用作出较大贡献,例如新材料电池镍钴锰酸锂。

      二,有人说螃蟹菠萝橄榄牛奶等不能混着吃,吃了会如何,我也不知道,我想倚天屠龙记里面的七虫七花丸大概就是这样炮制出来的,穷尽各种排列组合,人工智能能制造出奇异的毒药。例如头孢+磺胺+维C+加罗红霉素。

      三,有人说新冠病毒与乙肝病毒、艾滋病毒组合怎样,新冠病毒感染水貂、蝙蝠、猴子后与它们体内的病毒结合异化出来一些新东西,德特里克堡大概干了不少这样的事情,就是个排列组合嘛,不难的,不过现在不需要他们做实验了,新冠病毒在印度可以自由地与所有人类已知的病毒细菌真菌反复沟通了,如虎归山林,龙潜大海。

      作者 对本帖的 补充(1)
      家园 乐观了,人类并不了解化学元素,修正观点 -- 补充帖

      所以无法用人工智能制造出新材料,人类仍然是爬虫科技水平。这就是为什么材料学属于传说中的“四大天坑”。

      连一种原子的物质都搞不清楚,分子、高分子当然更加不懂,所以生物学更是四大天坑之一。

      合金的性能与它们单独存在时的性能发生极大改变,类似于老鼠和大象交配生下来一只鸡,为什么会这样,人类不懂,只知道结果就是这样。现代人类天天使用钢铁,就像古代人类锄禾日当午一样,古人不懂得泥土是什么,现代人也不懂铁(Fe)究竟是什么。所以不能像阿法狗输入围棋谱一样把金属元素输入电脑让人工智能排列组合分析合金性能。

    • 见前补充 4639735
    • 家园 一点也不用为人类担心,数据社会需要大量的、更多的人类。

      整个地球上的生物,人类的活动(包括劳动)是唯一能够持续创造巨量新数据的地球生物活动。其他任何生物都无法做到这点,否则在地球上发生持续进化的生物就不是人类了。

      假设把现在的人工智能作为一种”原始人“进化之路的起点。那么他需要的最重要物质就是地球上的数据,没有数据他就没有办法持续进化成长下去。

      所以人工智能的进化是跟人类的活动相伴而生的。而人工智能也不可能保持静态存在,就像人类的大脑没有停歇。

      没有人类活动,他怎么进化?就靠几个专家坐在那里思考、设计?

      物质决定意识,专家的知识、经验是人类长期观察分析这个世界物质状态而总结出来的。没有了大量人类参与地球的活动,未来几个专家还能继续总结什么?

      下面数据社会怎么发展,河友old那篇关于未来数据社会运行结构的分析,是在本坛所有同类分析文章中最靠谱的一篇。

    • 家园 我个人一点也不怀疑AI的能力。

      仔细一想的话,好像也没什么工作不是强AI不能做的。

    • 家园 这让我想起奇点理论。
分页树展主题 · 全看


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河