五千年(敝帚自珍)

主题:【原创】抛砖!模式识别和机器学习、数据挖掘的区别与联系 -- 永远的幻想

共:💬65 🌺337
分页树展主题 · 全看首页 上页
/ 5
下页 末页
          • 家园 是啊是啊,太多人都看好这种算法

            不过实际会议录音里面,重合的部分会影响准确度,距离麦克远的人音量小也是个问题。

      • 家园 Speaker diarisation

        Speaker diarisation.

        一般用语音模型作自适应后进行语音切分.

      • 家园 independent component analys
      • 家园 cocktail party problem

        前两天听一个报告,说到一个问题,有点类似于语音分离问题,就是说:一个屋子里,同时几个人说话,记录下来的录音是几个人声音的集合,如何把这几个人的声音都单独分离出来?

        鸡尾酒问题。

        要有几个不同的麦克风布置在不同位置才行,好像不能少于人数吧。

        去搜索Independent Component Analysis (ICA)独立成分分析吧。

    • 家园 (六)对几本经典著作的评注2

      这次先贴两本离题稍远点的,作为开阔知识来用的参考书。

      《Artificial Intelligence:A Modern Approach》

      中文版

      点看全图

      外链图片需谨慎,可能会被源头改

      影印版1(人邮)

      点看全图

      外链图片需谨慎,可能会被源头改

      影印版2(清华)

      点看全图

      外链图片需谨慎,可能会被源头改

      英文原版

      点看全图

      外链图片需谨慎,可能会被源头改

      中文 和2种影印都是原书第2版,02年出的,两种影印我比较过内容没区别,但是清华的纸质稍好,但价格贵好多。

      中文和人邮的影印图书馆好找,但是市面上好像木有了。

      现在原版是09年底刚出的第3版了。但看书评,好像变化不是特别大,有些有第2版的人觉得亏了。

      优点:

      1.涉及面特别广。从走棋的算法,到语义逻辑分析,到智能系统……并不局限于概率统计类的方法,无所不包。

      2.很多AI方面的历史人物和典故。从莱布尼茨时代的机械计算机器,到图灵,到50 60年代某人第一次写了个啥算法。怎么说呢,当故事书看也行了。

      3. 叙述比较清楚。

      问题:

      1. 有点散。各个章节之间有时联系不是那么大,其实为了做到包罗万象,散是难免的。

      2. Introduction 而非 Reference。所以指望看这个书完了去照着写算法,就别想了。

      3.第2版里没涉及支持向量机(Support Vetor Machine SVM)。这个即使作为02年出的书也不应该了。不过现在SVM基本是大路货了,到处都是(SVM有点走当年神经网络最后烂大街,无人问津的趋势)。

      4.太厚,快速翻阅即可。中文700多页,英文1100多页。因为毕竟大家有各自专业背景,所以挑前几章+自己相关领域的章节,浏览即可,其他当故事书看,就当做专业英语的阅读资料吧。

      总之,适合没接触过的这方面的人入门用。但是个人感觉一个是有点散,一个是概念太多,没有突出概率统计。感觉很容易迷路似的,所以第一本没推荐这个。但N多学校都用这个做教材,不是没道理的。

      《Nonlinear Time Series: Nonparametric and Parametric Methods》

      中文版

      点看全图

      外链图片需谨慎,可能会被源头改

      影印版

      点看全图

      外链图片需谨慎,可能会被源头改

      英文原版

      点看全图

      外链图片需谨慎,可能会被源头改

      这本两个中国牛人写的。范剑青姚奇伟

      这本虽然专讲时间序列,但是觉得自动化之类工科出身的人往机器学习数据挖掘方面转的话,这样一本由数学家写的数学味浓一些的书还是很有必要的。特别是中国人写的,所以在大牛在国内的时候,还有机会当面请教。

      优点:

      1.背景知识适合自动化、通信这些专业的。一般电子类的都会学点现代数字信号处理比如Wiener最佳滤波,Kalman滤波之类,已经了解ARMA模型了,这样看这个书可以了解这些方法的发展和引申。虽然不见得以后真的去做金融之类,但是用自己熟悉的背景知识去入门,总比两眼一抹黑钻进去强。其实“在工言工”,看成是在讲高级滤波算法的话,能不能用在控制系统里呢?反正俺那本已经被搞控制的同学借去鸟。

      2.图表例子多,程序提供下载。虽然是S-plus/R写的,可能工科的没接触过R,但是很容易上手。

      3.数学味,不解释。

      问题:

      1.领域比较专门。主要适合经济数据,金融数据这些。当然书里也举了生态学上的例子。

      2.比较难懂。一个是数学味,一个是很少分析算法细节,公式推导都比较简略,要配合参考文献和程序。

      但是之所以推荐这本,倒不是说里面讲到的那些方法。而是想:

      1.介绍两位中国牛人,有机会见到可以请教

      2.通过这书里的例子,了解点R语言。开源的数学软件,是数学家用的,上面有很多最新的ML算法。假如你早已熟悉了工程味的MATLAB,现在可以体味一下R简化的都是哪些地方?在思路和实践上,都要习惯不断切换工科和理科两种方式。试试理科的工具,也就能多找找感觉。

      3.要适应数学家的表达。毕竟这个领域的算法都是人家提出来的,看论文基本就是在膜拜统计学家了。通过这个也体会一下同样是ARMA模型,理科是怎么思考的。不要再满足于当初学信号处理的时候,好像学了个Levinson-Durbin,Kalman递推公式就万事大吉。

      元宝推荐:游识猷,
    • 家园 一直很奇怪的,

      为什么自动化有模式识别,这个应该是计算机系的嘛。我以为自动化就是搞机械啊流水线啊什么的

      • 家园 界限哪有那么清楚?

        自控上用模式识别的很多,聚乙烯切片的一个问题是black spec,就要用摄像机加模式识别。在油砂处理过程中,砂、油、水的界面无法用常规仪表测量,也用玻璃侧管加摄像机和模式识别。这些都是很简单的模式识别,但是管用。

      • 家园 计算机系也学这个,不过

        个人以为他们的长项是在数据挖掘上。

        在海量数据上的数据挖掘,动辄就是百万级的数据,存储访问,管理,都涉及数据库和相关的软硬件知识,从软件上的数据库、信息安全,到硬件上做超算的机群的部署,乃至并行计算算法设计。这绝对是计算机系主打了。我们这种外专业的搞这些,只能是用到了就学两下子,不是玩票水平,也是草台班子了。

        而作识别呢,对不起,样本少得多了。人脸之类一般用到的库也就是3000 4000人的规模吧,这一人几张图的采集工作已经很不得了了,有的论文用自己采集的数据可能用到的人也就是几十人。即使训练算法的时候故意加入些“不是人脸”的负样本,一般矩阵的规模也就是1万维左右,单个PC的内存还够用,用C++写的程序速度也还能忍受。

        • 家园 计算机研究的模式识别更偏向于算法,比如他们很少

          去关心怎么调整传感器来收集数据,而是在给定数据的前提下,研究如何最快最好的进行识别。

          现在生物计算很火,特别是DNA序列的检测和识别,很多原来搞模式识别的教授都在做相关的工作。

    • 家园 學習了

      本來在我們學校BBS看到的轉貼,覺得寫的很有道理,更加確立了自己在機器學習方面的學習慾望~

      • 家园 哈哈,有人转帖啊,好啊

        本來在我們學校BBS看到的轉貼,覺得寫的很有道理,更加確立了自己在機器學習方面的學習慾望~

        谢谢鼓励啊。敢问什么学校啊,天天关注西西河。本来以为就是在西西河里胡言乱语,我还没来得及往自己别处的blog上贴呢。就被别人转了,自己也赶紧转帖一下吧,哈哈哈。

        机器学习,理工科视角不同,先生和教材不同,学生的学习感受和难易程度也不同。以前见过一个帖子,MIT一个做计算机视觉的博士,先花2年多把可能用到的各种数学学了一遍,然后挨个点评……把俺这种工科土鳖看傻了,只好飞快爬走,实在不好意思承认俺其实也和CV沾边的。好像Stanford的风格比较“实用”些?后面会重点谈到Stanford的牛人牛书《the Elements of Statistical Learning》,其实看过这书的人一眼就看出,我前面的例子就有这书里的。我也是以这本书为重点学习的。

        我这算是赶紧补上引文出处吧!本来想放最后再说的,但是既然被转了,还是先给出来比较好~

        • 家园 轉貼BBS是

          天津大學BBS數學版,版主挺喜歡來這裡的,把我也給感染了

          http://bbs.tju.edu.cn/TJUBBS/tdoc?B=MATHS

          • 家园 哦,北洋大学啊,我还去过呢

            多少多少宅,哦不,是斋

            在天津只待了很短的时间。临走之前还特意到聂士成像附近看了看。感慨现在大家可以安心读书,不用在八里台拼死血战了。

分页树展主题 · 全看首页 上页
/ 5
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河