模式判别与数理统计

0:19 2007-6-4
晚上问小妖在哪里,她说她在上自习,然后我就厚着脸皮死蹭过去。不过我确实是在踏踏实实认认真真的上自习,且,大有心得。心得是啥呢?心得就是早知当日好好学习概率论,今日就不会这么痛苦。
说下我对模式判别的理解。
首先,要找些样本来。然后在它们身上提取特征向量。然后就可以把它们看作一个 l 维的随机变数。所谓的模式判别就是要对这个l维的随机变数和该随机变数所属的分类进行回归分析。
如果已经知道这l维的随机变数其每一个分量的pdf的形式(如高斯分布、均匀分布),然后就用数理统计里面的估计理论,通过样本对其pdf的参量进行估计。一旦确定了pdf,就可以根据Bayes分类原则确定其分界函数。
如果对其pdf的形式未知,那么就需要用一些非参数的方式。如kNN。
所谓的Bayes分类原则就是为了能让错误分类率降到最低。
在做clustering、kNN的时候一个key point就是要选取恰当的dissimilarity function。可是选什么好呢?为什么书上会有这么多乱七八糟的模型?其实很多都是可以在模式判别的时候从pdf推导分界函数的时候推导出来的。其决定性因素在于随机变量究竟采用的是什么样的分布。所以我就走了很大的弯路。我是先学的clustering,弄得晕糊糊不明所以之后,才回过头来看Bayes分类。

此博客中的热门博文

少写代码,多读别人写的代码

在windows下使用llvm+clang

tensorflow distributed runtime初窥