连续性与聚类

连续性与聚类
在分析学中,对函数的连续性是这样定义的:
f是一个从X到Y的映射。x0属于X,
for any scalar a >0,exist scalar b>0,使得对于任意满足\(d(x,x_0) < a\)的x,有\(d(f(x),f(x_0))<b\)。则称f在\(x_0\)处连续。
即f把原象的一个小领域,映射到象中的一个小领域。
而对于R,C等数集而言,连续性则体现在紧性和处处稠密上。
连续性所带来的好处是,我们可以根据一点的值,估计其一个足够的小的小领域内的值。例如,f(x)如果在一点大于0,那么它在其一个足够小的领域内也一定是大于0的。一阶和二阶的Taylor展开则是建立在f的连续性和高阶可导的性质上的。而Taylor展开,则是非线性方程求解,以及非线性数值最优化的众方法的理论基础。
我的观点是,连续性降低了运算所需的数据量。它使得搜索更具有方向性。例如,假如我们的输入集是N个相互独立、毫无联系的个体,那么我们的算法一定至少是O(N)的。因为我至少要讲每个点都扫描一遍。而且往往,复杂度随着N的增大而高度增长的。
而经过排序的点,则在一定程度上体现了连续性。因此对于有序集的搜索算法,自然要比无序集效率高的多。
而聚类分析,所面临的两大难点就是,数据的规模很大,而且往往数据的维度也很大。我的观点是,对原始数据做适当的特征提取,然后数据就会在这些特征上呈现一定的连续性。
例如,假如数据集是各城市的降水量、温度、经纬度、人口数目、GDP增长率等等。
那么,经纬度相近的地方他们的降水量和温度就会很相似。
我们可以把降水量和温度合起来作为一个指标。
把经纬度作为X,Y坐标。
那么就可以绘得一张类似于二维灰度图的东西。
那么,我们就可以把二维灰度图的物体分割(边界线确定)技术用到聚类中来。
最后我们得到的将是一张气候带划分图。
然而往往,这种连续性不是一目了然的。原始数据的特征提取就成为一个难点中的难点。主成分分析(PCA)技术是一种比较常见而简易的方法。不过它只是对原始的特征集进行线性组合以企图得到新的特征。而我觉得实际的问题处理中可能用到的更多的是非线性的降维方式。
而另外一个问题,或者说,致命错误在于,我绘得的是一张点图。(一张白纸上很多个灰度不同的点),而不是一张完整的灰度图。例如,假如是一张完整的灰度图,我就可以根据一点,及其周围8个点的数据,来近似的求该点的梯度、二阶导。而我现在是不能的。
不过,我觉得我对K-均值方法比较感兴趣。我觉得我可以尝试改进下它,或者,按照它的思路发明一种新方法。
或者说,从模糊集的角度。对每个点给每个聚类一个隶属度。然后通过调整聚类的中心点以寻求最佳的隶属度。
累了,睡去。。。。。数据的纹理?

此博客中的热门博文

少写代码,多读别人写的代码

在windows下使用llvm+clang

tensorflow distributed runtime初窥