多元统计分析

一些废话

涉及线代 矩阵 概率论 多元随机变量 数字特征 期望 相关系数

推荐书目

  • 应用多元统计分析 –王学民
  • 数据统计分析
  • 统计学习方法 李航

1 矩阵代数(基础)

1.1 定义

1.2 矩阵的运算

1.3 行列式

1.4 矩阵的逆

1.5 矩阵的秩

1.6 特征值、特征向量、矩阵的迹

1.7 正定矩阵和非负定矩阵

1.8 特征值的极值问题

2 随机向量

多元分布

数字特征

欧氏距离、马氏距离

随机向量的变换

特征函数

3 多元正态分布

3.1 定义

3.2 性质

3.3 极大似然估计以及估计量的性质

3.4 复相关系数和偏相关系数

3.5 $\overline{x}$和 (n-1)S 的抽样分布

4 多元正态总体的统计推断

4.1 一元情形

4.2 单个总体均值的推断

4.3 两个总体均值的比较推断

4.4 轮廓分析

4.5 多个总体均值的比较检验(多元方差分析)

4.6 协方差矩阵相等性的检验

4.7 总体相关系数的推断

5 判别分析

引言

距离判别

贝叶斯判别

费希尔判别

逐步判别

6 聚类分析

引言

距离和相似系数

系统聚类法

动态聚类法

7 主成分分析

引言

总体的主成分

样本的主成分

若干补充及主成分应用中需注意的问题

8 因子分析

引言

正交因子模型

参数估计

因子旋转

因子得分

9 对应分析

引言

行轮廓和列轮廓

独立性检验和总惯量

行、列轮廓的坐标

对应分析图

10 典型相关分析

引言

总体典型相关

样本典型相关

典型相关系数的显著性检验

——————————————————————————————————————————————

第一章 主要对多元统计分析 是什么有个大致概念

多元是多维度

多元统计分析是一种统计方法,用于分析多个变量之间的关系。它通过同时考虑多个变量,帮助我们理解数据的结构和模式。以下是一些常见的多元统计分析方法:

  1. 主成分分析(PCA):用于降维,通过将原始变量转换为一组不相关的主成分来减少数据的维度。
  2. 因子分析:用于识别潜在的变量(因子),这些变量解释了观察到的变量之间的相关性。
  3. 聚类分析:用于将数据分组,使得同一组内的数据点彼此相似,而不同组的数据点差异较大。
  4. 判别分析:用于分类,确定观测值属于哪个预定义的类别。
  5. 多元回归分析:用于预测一个因变量与多个自变量之间的关系。

这些方法广泛应用于各个领域,如市场研究、金融分析、生物医学研究等。通过多元统计分析,可以更全面地理解数据,做出更准确的预测和决策。

第二章 随机变量回顾

数值特征描述:一元情况下 总体和样本

总体

求“总体”平均值 求方差 求标准差的公式

总体可以筛选出样本,以下是样本均值 样本方差 样本标准差的计算方法

样本

样本方差分母是n-1 ,这样可以得到总体的无偏估计,需要这么干的原因是样本均值不等同于总体均值,这会导致分母为n出现计算偏差

样本方差的公式如下:

$[ s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i – \bar{x})^2 ]$

计算样本方差时,分母用 ( n-1 ) 是为了纠正由于样本均值与总体均值的差异导致的计算误差。这样做可以使得样本方差更接近真实的总体方差,从而得到一个无偏估计。这个调整称为贝塞尔校正(Bessel’s correction)。

更为详细的解释:

换言之:样本方差实际上是对总体方差的预测值。通过使用 ( n-1 ) 作为分母进行贝塞尔校正,我们得到的样本方差是总体方差的无偏估计。因此,样本方差并非仅仅描述样本本身的离散程度,而是用于估计总体的离散程度。

数值特征描述:二元随机变量(X,Y) 总体和样本

总体协方差Covariance 刻画变量线性关系

协方差为正代表两变量正向线性相关,为负则代表负向线性相关,其绝对值越大,代表线性相关性越强。

用于衡量两个变量的总体误差,方差是协方差的一种特殊情况,两个变量是相同的情况

E[(X-E[X])(Y-E[Y])]运算律满足分配律,可以展开括号

总体相关系数

总体相关系数(线性相关系数,或者叫皮尔逊相关系数)

$covariance(X,Y)≤σ_xσ_y$ 把右边除到左边

就得到了$ρ_{X,Y}$ 其取值范围为【-1,1】,绝对值越大相关性越强,若为0则代表没有线性相关性,但不一定不相关

样本:协方差、相关系数

同理样本协方差分母也是n-1,这是为了得到无偏估计,(样本均值不同于总体均值)

注:

可视化 (有意思

一维散点图例子

有20名男生的身高和体重样本
散点图大致刻画出身高和体重的正相关关系,两根线是均值线。

为了更清晰看出二者相关关系,可以画二维散点图

随机向量

多元数据的数值特征以及可视化

n行p列,表示n个样本点,每个样本点p个变量

协方差矩阵

样本协方差矩阵,类似总体和样本的方差,除以n-1

协方差矩阵是对称阵,其中一个例子:因为$σ_{jk}=σ_{kj}$

y bar 是样本均值向量,它的协方差矩阵就是均值/n
总体相关系数矩阵

样本相关系数矩阵

可视化

两两散点图
不同种群用不同颜色表示,可以看出相关关系
三维散点图

如何理解协方差矩阵,如何利用协方差矩阵获取更多哟小信息

本技术内容仅供学习和交流使用,如有疑问请联系qq2014160588并注明来意。请确保在使用过程中遵守相关法律法规。任何因使用本技术内容而导致的直接或间接损失,作者概不负责。用户需自行承担因使用本技术内容而产生的所有风险和责任。请勿将本技术内容用于任何非法用途。
上一篇
下一篇