五千年(敝帚自珍)

主题:【原创】抛砖!模式识别和机器学习、数据挖掘的区别与联系 -- 永远的幻想

共:💬65 🌺337
全看分页树展 · 主题 跟帖
家园 继续探讨

多谢回复这么长的帖子。。

先简短回一个,写多了资本家不乐意。:)

这么说吧,比如我给你一图片(X), 让您的视觉系统=M,你对我说,

"我predict这是一桌子(Y)." 这像话吗?

对人这个M来说,桌子就是桌子,是个识别问题,说成prediction

大概现在PR在识别方面还是不成熟,做不到~100%识别。所以要说用M-pr来预测,图X,大概有85%是桌子,12%是椅子,3% 其它。

你说的X, Y 都是输入,这个从trainning的操作上可以说没错,但是从PR概念上这样很容易混淆。尤其如果是对不太了解的人写的介绍性文字,尽量概念清楚些,你的读者看着也明白些,right?

首先,“输出数据”是不是“模式表达”?比如典型的分类问题:用N个样本(N个样本*p维Predictor 一个矩阵X,加N*1的-1/+1类标记y_target)训练了一个SVM、CART,Adaboost或者RandomForest模型或者模型族,称为M。这些模型M如你所说,是“模式表达”。对于数据挖掘问题,确实可以说这个是“输出数据”。

这些M们还真是第一次见。。我说的模式表达就是Y.

“别”倒底是不是“非预测”呢?这个我觉得我已经说清楚了啊,看来还得再说说

别=difference. 了别可以说是classification..

确实怪我说得不清楚。其实文中不想以Super/Unsuper来区分算法,除了这个原因,还有一个原因。

因为实际使用这些算法时,经常把这两种混起来用。比如可以先用PCA,对N*p维的X降维成N*q (q<p),作为预处理,然后把N*q作为X和y_target输入到SVM之类的算法去;也可以用y_target(比如K个类)把X分成K组,然后每组训练一个GMM。

这样在应用者的角度看,其实是不去管算法是Super还是Unsuper的,或者在这上面走脑子意思不大,知道每种算法擅长干什么才是正经。

S or U-S,有个外界knoeledge 介入的问题。从理论研究上来说,比如同样两个人脸识别的系统,一个是S, 一个是 U-S。都能达到比较高的识别率。那么U-S的价值要高。为什么?因为这个U-S很可能是个普适的系统。

从这个角度来说,所有S,U-S混合的系统,都不能称为是 un-supervised 系统,而变成S了。

工科思维确实很偏重实用,不过我想概念清楚还是重要。所以和你探讨一下

全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河