博文

目前显示的是 六月, 2007的博文

张朝阳实在是让人无语

背景介绍: 张朝阳,男,西安人,40岁左右。在国内的时候就读于清华物理系,后在MIT取得博士学位并从事博士后研究。sohu的创始人兼现任CEO。大家都知道,sina的博客做的不错,在国内算是第一大博客服务提供(BSP)。但sohu的做的也相当不错,有不少同学给我反映说sohu的博客看起来很时尚,比sina的好。正所谓萝卜青菜各有所爱,本无可厚非的事情。但是张朝阳同学这次做的就有点过了。sohu开发一个sina ----> sohu 的博客搬家工具也就罢了,可他在他的博客上如此的来宣传这个搬家工具:
http://charles.blog.sohu.com/50657777.html‘我号召搜狐博友,如果您真正地喜欢搜狐博客,而您的朋友还在新浪开博,请帮助说服您的朋友,弃暗投明,投奔“解放区”,搬家到搜狐,“解放区的天是晴朗的天”! 哈哈!’我觉得,他独权执掌sohu这么多年,在互联网界也算是赫赫人物,且不论他文中所说的竞争对手组织枪手文章对他个人进行攻击是否贼喊捉贼,结尾这段的文字真是显得过于轻浮。我觉得他是在拿sohu blog当脚下的滑板玩。真是要将该文付诸公堂,文字里面嚼文字,相信律师非整的他半年不得安歇。

模式判别与数理统计

0:19 2007-6-4
晚上问小妖在哪里,她说她在上自习,然后我就厚着脸皮死蹭过去。不过我确实是在踏踏实实认认真真的上自习,且,大有心得。心得是啥呢?心得就是早知当日好好学习概率论,今日就不会这么痛苦。
说下我对模式判别的理解。
首先,要找些样本来。然后在它们身上提取特征向量。然后就可以把它们看作一个 l 维的随机变数。所谓的模式判别就是要对这个l维的随机变数和该随机变数所属的分类进行回归分析。
如果已经知道这l维的随机变数其每一个分量的pdf的形式(如高斯分布、均匀分布),然后就用数理统计里面的估计理论,通过样本对其pdf的参量进行估计。一旦确定了pdf,就可以根据Bayes分类原则确定其分界函数。
如果对其pdf的形式未知,那么就需要用一些非参数的方式。如kNN。
所谓的Bayes分类原则就是为了能让错误分类率降到最低。
在做clustering、kNN的时候一个key point就是要选取恰当的dissimilarity function。可是选什么好呢?为什么书上会有这么多乱七八糟的模型?其实很多都是可以在模式判别的时候从pdf推导分界函数的时候推导出来的。其决定性因素在于随机变量究竟采用的是什么样的分布。所以我就走了很大的弯路。我是先学的clustering,弄得晕糊糊不明所以之后,才回过头来看Bayes分类。