dimension reduce(梯度下降)self-organizing maps(自组织映射)

来源:互联网 发布:python项目开发实例 编辑:程序博客网 时间:2024/06/11 01:17

使数据集的维度减小可以简化问题,带来优化

如更快的处理时间、虚拟化高维度的数据集、抗噪音、增强其他数据挖掘算法


线性降维(Linear dimension reduce)

main linear components能使数据在这一轴的变化范围最大

1-st component是使数据在这一维变化最大的轴方向

2-nd component是当投影到1-st component方向时数据范围最大的轴方向(一般与1-st component的方向垂直)


如图,将一个四维的数据集减小维度到二维的图形转换过程



主成分分析(principal component analysis)

主成分分析是找到main linear component的方法,其主要步骤如下:




Self-Organizing Maps

自组织映射是一种简单有效的方法:

1、将数据从到维度降到低维度映射

2、把相似的数据放置在相近位置,无关数据之间的位置较远

3、一种广泛采用的处理复杂类型数据的方法


自组织映射的基本原理:

由n个点组成的map space,Pi代表每个点的position

每个点有一个Vector Vi,表示点在dataset中的location(用于比较)

于是点X在map中的位置计算方法为:



SOM学习:

通过重复一下步骤为SOM找到合适的值:

从数据集中随机取一个点

找到它的best-matching unit j

更新Vi

减小

其中更新Vi的公式为:


对SOM learning的感性认识:

在BMU附近的units改变得更靠近example X,远离的units变化不大,受影响的units范围根据时间的推移变小

SOM可以是一个有弹性的表面。

SOM在以下情况下的效果较好:

临近的units(Vi)之间的距离相同

一个unit周围的相邻unit数量相等