五千年(敝帚自珍)

主题:【原创】抛砖!模式识别和机器学习、数据挖掘的区别与联系 -- 永远的幻想

共:💬65 🌺337
全看分页树展 · 主题 跟帖
家园 谬奖了,来西西河发言就是准备收砖盖房的

弱分类器集成的思想一直很流行,现在有很多类adaboost的算法。

抛开这类思路的方法不提,其他的检测方法,一时还真举不出文章来,毕竟不是做人脸的。但是好像依稀见过有先检测器官(比如眼睛、嘴),然后根据肤色什么的圈个脸的范围的(随机游动找边界,或者直接估计个椭圆,方块的)

嗯,你说的这种场合当然是99后面再挂多少个9都不嫌多。但是FBI和条子是有强制力保证采集对象配合进行数据采集的(老实给我按手印),也不在乎采集时间

是啊,数据集啊数据集,你怎么就这么难做大呢。常见的人脸库,比如我知道的FERET,ORL,Yale,还有中科院那个,都离百万太远了。因为作为研究算法用的数据集,就不是一人一张就万事大吉了。对每个人采集不同时间、姿态、光照、遮挡的图像,这个工作量……

百万级的数据库估计现在只有企业或者FBI有了吧,作为花费巨大获得的重要资源,我想也不会公开免费给你用吧。

嗯,理科和工科的区别就来了,理科的数学家根据简单的数据,就能提出复杂的算法来。而工科要把简单的算法用到不太复杂的数据上,就要费很大力气了。

上百万的数据,我觉得瓶颈主要在计算开销上,还有存储、并行算法设计,可能算法简单,但是每次大矩阵的运算都是并行的,这个就不是ML方面的论文特别感兴趣了。

即使是区区几千样本的训练集,做ML的也经常要花N多机时来跑一个算法。

全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河