【秋招】数分面经III

PCA和LDA, SWOT分析

Posted by Zaki on July 23, 2022

PCA和LDA

PCA(Principal Component Analysis),中文名为“主成成分分析”。顾名思义,其目的就是找到高维数据中的主成分,并利用“主成分”数据,来表征原始数据,从而达到降维的目的。借鉴一个简单的例子,假设有一组数据存在于三维空间的一个平面上(此时需要3个维度来表征数据向量),若我们选择旋转坐标轴使得数据所在平面与x,y平面重合,则此时我们只需要2个纬度即可表征数据,且没有丢失任何数据信息,这就是最简单的数据降维。

关键步骤:去中心化,方差最大化。

PCA就是寻找一个新坐标。比如有10个原数据,我也找到了一个坐标系,结果有5个点在新坐标系下,挨着很近(极端设想5个点重合了,那新坐标只有6个点,就损失了4个点信息),所以这个是不好的坐标系,最好的坐标系是旋转以后,每个点尽量散开,不要靠近,也即方差最大。

点分散的最开的方向,可以被定义为所有点在某一方向上投影至中心距离方差最大的方向。

详细的数学推理:http://blog.codinglabs.org/articles/pca-tutorial.html

LDA(Linear Discriminant Analysis),中文名为“线性判别分析”,是目前数据挖掘领域中比较经典且热门的一种有监督的算法。从降维的层面考虑,其也是在寻找一个投影矩阵,使得投影之后数据样本,同类的接近,而不同类的远离。

SWOT分析

如果外部的机会正好是你的优势,赶紧利用起来。而这个利用方法,就被称为“机会优势战略”(OS)

外部的机会但是是你的劣势,你就需要改进。那么这个改进方法,就被称为“机会劣势战略”(OW)

你具有优势但是外部存在威胁,那就需要时刻盯梢、保持警惕。而如何监视、监视哪些?就被称为“优势威胁战略”(ST)

既是威胁又是你的劣势,请及时逃离并消除。这个消除方法,就是“威胁劣势战略”(TW)