一种针对区间型数据的新主成分分析法
侯自盼, 李生刚    
陕西师范大学 数学与信息科学学院, 陕西 西安 710119
摘要: 为了减少数据信息的损失,采用推迟区间型数据转换为数值型数据的方法,提出一种针对区间型数据的新的主成分分析方法.它和已有方法的区别在于协方差矩阵和相关矩阵的元素是区间数(从而相关的特征值和特征向量的元素也是区间数).最后用实例验证了该方法的优越性.
关键词: 区间型数据     主成分分析方法     相关矩阵    
A new principal component analysis method for interval data
HOU Zipan, LI Shenggang     
College of Mathematics and Information Science, Shaanxi Normal University, Xi'an 710119, China
Abstract: To diminish loss of data, a new principal component analysis method for interval data is proposed by postpone the transformation from interval-type data to ordinary data. The method differs from existing methods in the location of factors (i.e. interval numbers) of the covariance matrix and the correlation matrix and thus their eigenvalues and eigenvectors. Examples are presented in the final part to illustrate the advantages of this method.
Key words: interval data     principal component analysis     correlation matrix    

0 引 言

主成分分析(PCA,Principal Component Analysis)是一种通过降维技术将多个变量化为少数几个主成分(即综合变量)的统计分析方法.传统的主成分分析方法是针对数值型数据样本的.而在实际中,由于观测误差、不确定判断和符号数据类型等原因,经常会遇到用区间数表示的样本观测值.近年来,许多学者对区间数据的PCA进行了研究,主要成果是基于顶点的PCA方法(V-PCA)[1, 2]、基于中心点的PCA法(C-PCA)[1, 2]、基于中点-半径的PCA法(MR-CPA)[3]、基于符号特征的PCA法(S-PCA)[4]和其他一些针对特殊类型的区间数的PCA法[5].这些方法的共同特点是尽早地将区间型数据数值化(即转换为数值型数据),造成一定的信息丢失.本文采用推迟区间型数据转换为数值型数据的方法对此加以改进:根据区间数的加减运算方法来定义区间矩阵的运算,依照区间矩阵的运算方法求区间型数据样本的协方差矩阵和样本相关矩阵,依据文献[6]的结果(即下面的定理1)求得样本协方差矩阵和样本相关矩阵的特征值和特征向量.由于该特征值也是区间数,因此贡献率的计算也重新定义,并由此得到了一种新的主成分分析方法.从理论方面可以看出,该方法在处理信息时尽量把所有的数据都考虑进去,避免数据信息的缺失.实例也证实了该主成分分析方法的有效性.

1 基本概念与理论 1.1 区间数的运算、排序及区间矩阵

称由实数组成的闭区间[x-,x+]为一个区间数;本文将闭区间[x,x]与实数x不加区分,因此将实数也视为区间数.称分量是区间数的向量X=(X1,X2,…,Xn)T为区间向量,称元素Aij是区间数的矩阵A=(Aij)m×n为区间矩阵.区间数的四则运算定义为[6]

$\begin{align} & \left[ a,b \right]+\left[ c,d \right]=\left[ a+c,b+d \right],\left[ a,b \right]-\left[ c,d \right]=\left[ a-d,b-c \right], \\ & \left[ a,b \right]\times \left[ c,d \right]=[min\{ac,bd,bc,ad\},max\{ac,bd,bc,ad\}], \\ & \left[ a,b \right]\div \left[ c,d \right]=\left[ a,b \right]\times \left[ \frac{1}{c},\frac{1}{d} \right]\left( 这里c>0,d>0 \right). \\ \end{align}$

由此可知,当c为实数时,

$c\left[ a,b \right]=\left\{ _{\left[ cb,ca \right],若c<0.}^{\left[ ca,cb \right],若c\ge 0,} \right.$

给定两个m×n区间矩阵

$A={{({{A}_{ij}})}_{m\times n}}={{([{{a}_{ij}},{{b}_{ij}}])}_{m\times n}},B={{({{B}_{ij}})}_{m\times n}}={{([{{c}_{ij}},{{d}_{ij}}])}_{m\times n}},$
其和、差运算定义为
$A+B={{({{A}_{ij}}+{{B}_{ij}})}_{m\times n}}={{([{{a}_{ij}}+{{c}_{ij}},{{b}_{ij}}+{{d}_{ij}}])}_{m\times n}},A-B=A+\left( -B \right)={{([{{a}_{ij}}-{{d}_{ij}},{{b}_{ij}}-{{c}_{ij}}])}_{m\times n}};$
其乘积定义为AB=(Cij)m×p,其中${{C}_{ij}}={{A}_{i1}}\times {{B}_{1j}}+{{A}_{i2}}\times {{B}_{2j}}+\ldots +{{A}_{in}}\times {{B}_{nj}}=\sum\limits_{k=1}^{n}{{{A}_{ik}}\times {{B}_{kj}}}.$

1.2 区间矩阵的特征值和特征向量

A=(Aij)n×n是区间矩阵,其中Aij=[aij,bij].记${{A}^{-}}={{({{a}_{ij}})}_{n\times n}},{{A}^{+}}={{({{b}_{ij}})}_{n\times n}},A=[{{A}^{-}},{{A}^{+}}],{{A}^{c}}=\frac{{{A}^{+}}+{{A}^{-}}}{2}$(称为A的中点矩阵),$\Delta A=\frac{{{A}^{+}}-{{A}^{-}}}{2}$(称为A的宽度矩阵),则A=[Ac-ΔA,Ac+ΔA].再设u=(u1,u2,…,un)T是一个区间向量(其中ui=[ui-,ui+]),记u-=(u1-,u2-,…,un-)T,u+=(u1+,u2+,…,un+)T,u=[u-,u+].如果u-u+都是非零向量且等式Auu成立(其中λ=[λ-+]为一区间数),则称λ为A的一个特征值,且称uA对应于λ的一个特征向量.

定理 1[6] 沿用以上记号,设A对称(即它满足Aij=Aji),Si=diag(s1,s2,…,sn)满足sj=sgn(uji) (∀i,j∈{1,2,…,n}),其中ui=(u1i,u2i,…,uni)T是矩阵Ac的对应于第i个特征值的特征向量(i=1,2,…,n).则矩阵A的第i个特征值(i=1,2,…,n)为λi=[λi-i+],其中λi-ui- 由(Ac-SiΔASi)XX确定,λi+ui+由(Ac+SiΔASi)XX确定.

1.3 多元离散型样本协方差矩阵的性质

X(1),X(2),…,X(n)为取自总体x=(x1,x2,…,xp)的n个样本,xij为第i个样本对变量xj的观测值(j=1,2,…,p),则样本矩阵可以表示为

$X=\left( \begin{matrix} {{x}_{11}} & {{x}_{12}} & \ldots & {{x}_{1p}} \\ {{x}_{21}} & {{x}_{22}} & \ldots & {{x}_{2p}} \\ \ldots & \ldots & {} & \ldots \\ {{x}_{n1}} & {{x}_{n2}} & \ldots & {{x}_{np}} \\ \end{matrix} \right)\triangleq \left( \begin{matrix} {{X}_{(1)}} \\ {{X}_{(2)}} \\ \ldots \\ {{X}_{(n)}} \\ \end{matrix} \right)\triangleq ({{X}_{1}},{{X}_{2}},\ldots ,{{X}_{p}}).$
其中X1,X2,…,Xp可视为pn维随机向量,X的协方差矩阵为$S=\frac{1}{n-1}\sum\limits_{i=1}^{n}{{{({{X}_{(i)}}-\bar{X})}^{T}}({{X}_{(i)}}-\bar{X})}$(其中$\bar{X}=\frac{1}{n}\sum\limits_{j=1}^{n}{{{X}_{(j)}}}$称为X的期望).

定理 2 样本协方差矩阵S是半正定矩阵[7, 8].

X经标准化${{{\tilde{X}}}_{i}}=\frac{{{X}_{i}}-{{{\bar{X}}}_{i}}}{\sqrt{var({{X}_{i}})}}\left( i=1,2,\ldots ,p \right)$后得到的数据矩阵为$\tilde{X}=({{{\tilde{X}}}_{1}},{{{\tilde{X}}}_{2}},\ldots ,{{{\tilde{X}}}_{p}}),$,已证${\tilde{X}}$的协方差矩阵即是X的相关矩阵R.

定理 3R是半正定矩阵(即数据标准化不改变协方差矩阵的半正定性)[8].

证明 因为var(Xi)>0(i=1,2,…,m;1≤mp),所以有

$\begin{align} & {{\left| R \right|}_{m}}=\left| \begin{matrix} E{{\left( \frac{{{X}_{1}}-{{{\bar{X}}}_{1}}}{\sqrt{var({{X}_{1}})}} \right)}^{2}} & E\left( \frac{{{X}_{1}}-{{{\bar{X}}}_{1}}}{\sqrt{var({{X}_{1}})}} \right){{\left( \frac{{{X}_{2}}-{{{\bar{X}}}_{2}}}{\sqrt{var({{X}_{2}})}} \right)}^{2}} & \ldots & E\left( \frac{{{X}_{1}}-{{{\bar{X}}}_{1}}}{\sqrt{var({{X}_{1}})}} \right)\left( \frac{{{X}_{m}}-{{{\bar{X}}}_{m}}}{\sqrt{var({{X}_{m}})}} \right) \\ E\left( \frac{{{X}_{2}}-{{{\bar{X}}}_{2}}}{\sqrt{var({{X}_{2}})}} \right)\left( \frac{{{X}_{1}}-{{{\bar{X}}}_{1}}}{\sqrt{var({{X}_{1}})}} \right) & E{{\left( \frac{{{X}_{2}}-{{{\bar{X}}}_{2}}}{\sqrt{var({{X}_{2}})}} \right)}^{2}} & \ldots & E\left( \frac{{{X}_{2}}-{{{\bar{X}}}_{2}}}{\sqrt{var({{X}_{2}})}} \right)\left( \frac{{{X}_{m}}-{{{\bar{X}}}_{m}}}{\sqrt{var({{X}_{m}})}} \right) \\ \ldots & \ldots & {} & \ldots \\ E\left( \frac{{{X}_{m}}-{{{\bar{X}}}_{m}}}{\sqrt{var({{X}_{m}})}} \right)\left( \frac{{{X}_{1}}-{{{\bar{X}}}_{1}}}{\sqrt{var({{X}_{1}})}} \right) & E\left( \frac{{{X}_{m}}-{{{\bar{X}}}_{m}}}{\sqrt{var({{X}_{m}})}} \right)\left( \frac{{{X}_{2}}-{{{\bar{X}}}_{2}}}{\sqrt{var({{X}_{2}})}} \right) & \ldots & E{{\left( \frac{{{X}_{m}}-{{{\bar{X}}}_{m}}}{\sqrt{var({{X}_{m}})}} \right)}^{2}} \\ \end{matrix} \right|= \\ & \frac{1}{var({{X}_{1}})\times \ldots \times var({{X}_{m}})}. \\ & \left| \begin{matrix} E{{({{X}_{1}}-{{{\bar{X}}}_{1}})}^{2}} & E({{X}_{1}}-{{{\bar{X}}}_{1}})({{X}_{2}}-{{{\bar{X}}}_{2}}) & \ldots & E({{X}_{1}}-{{{\bar{X}}}_{1}})({{X}_{m}}-{{{\bar{X}}}_{m}}) \\ E({{X}_{2}}-{{{\bar{X}}}_{2}})({{X}_{1}}-{{{\bar{X}}}_{1}}) & E{{({{X}_{2}}-{{{\bar{X}}}_{2}})}^{2}} & \ldots & E({{X}_{2}}-{{{\bar{X}}}_{2}})({{X}_{m}}-{{{\bar{X}}}_{m}}) \\ \ldots & \ldots & {} & \ldots \\ E({{X}_{m}}-{{{\bar{X}}}_{m}})({{X}_{1}}-{{{\bar{X}}}_{1}}) & E({{X}_{m}}-{{{\bar{X}}}_{m}})({{X}_{2}}-{{{\bar{X}}}_{2}}) & \ldots & E{{({{X}_{m}}-{{{\bar{X}}}_{m}})}^{2}} \\ \end{matrix} \right| \\ & \frac{|S{{|}_{m}}}{var({{X}_{1}})\times \ldots \times var({{X}_{m}})}. \\ \end{align}$
这时由定理2知R是半正定矩阵.

1.4 主成分分析方法

一般情况下,样本各变量单位不一致或者数据差异较大,导致从S出发求主成分会受极端变量的影响,结果不准确.因此一般从R出发进行主成分分析.设R的特征值为${{{\tilde{\lambda }}}_{1}}\ge {{{\tilde{\lambda }}}_{2}}\ge \ldots \ge {{{\tilde{\lambda }}}_{p}}\ge 0$,对应于${{{\tilde{\lambda }}}_{i}}$的正交单位特征向量为${{{\tilde{e}}}_{i}}={{({{{\tilde{e}}}_{i1}},{{{\tilde{e}}}_{i2}},\ldots ,{{{\tilde{e}}}_{ip}})}^{T}}\left( i=1,2,\ldots ,p \right)$.则称${{{\tilde{Y}}}_{i}}={{{\tilde{e}}}^{T}}_{i}\tilde{X}\left( i=1,2,\ldots ,p \right)$为第i个主成分,其贡献率(或被${\tilde{Y}}$所解释的比例)为${{{\tilde{\lambda }}}_{i}}/{{p}_{i}}\left( i=1,2,\ldots ,p \right),{{{\tilde{Y}}}_{1}},{{{\tilde{Y}}}_{2}},\ldots ,{{{\tilde{Y}}}_{m}}$的累计贡献率为$\sum\limits_{i=1}^{m}{{{{\tilde{\lambda }}}_{i}}/p}$(注意$\sum\limits_{i=1}^{p}{{{{\tilde{\lambda }}}_{i}}p}$,贡献率关于i单调递减,累计贡献率关于i单调递增)[9].

2 区间主成分分析方法

k=1,…,n表示n个样本点,x1,x2,…,xpp个区间变量,${{\xi }_{ki}}=[x_{_{ki}}^{-},x_{_{ki}}^{+}]$表示样本k在变量xi上的区间观测值,则称

$X=\left[ \begin{matrix} [x_{11}^{-},x_{11}^{+}] & \left[ x_{12}^{\_},x_{12}^{+} \right] & \ldots & \left[ x_{1p}^{-},x_{1p}^{+} \right] \\ [x_{21}^{-},x_{21}^{+}] & \left[ x_{22}^{-},x_{22}^{+} \right] & \ldots & \left[ x_{2p}^{-},x_{2p}^{+} \right] \\ \ldots & \ldots & {} & \ldots \\ [x_{n1}^{-},x_{n1}^{+}] & [x_{n2}^{-},x_{n2}^{+}] & \ldots & [x_{np}^{-},x_{np}^{+}] \\ \end{matrix} \right]$
为区间样本矩阵.

X的协方差矩阵和相关矩阵分别定义为S=(sij)p×pR=(rij)p×p,其中

$\begin{align} & {{{\underset{\raise0.3em\hbox{$\smash{\scriptscriptstyle-}$}}{s}}}_{ij}}=\sum\limits_{k=1}^{n}{(x_{ki}^{-}-\bar{x}_{i}^{-})(x_{kj}^{-}-\bar{x}_{j}^{-}),{{{\bar{s}}}_{ij}}}=\sum\limits_{k=1}^{n}{(x_{ki}^{+}-\bar{x}_{i}^{+})(x_{kj}^{+}-\bar{x}_{j}^{+}),} \\ & {{s}_{ij}}=\left[ s_{ij}^{-},s_{ij}^{+} \right]=\frac{1}{n-1}\left[ min({{s}_{ij}},{{{\bar{s}}}_{ij}}),max({{s}_{ij}},{{{\bar{s}}}_{ij}}) \right], \\ & \bar{x}_{i}^{-}=\frac{1}{n}\sum\limits_{k=1}^{n}{x_{ki}^{-},x_{i}^{+}}=\frac{1}{n}\sum\limits_{k=1}^{n}{x_{ki}^{+}}, \\ \end{align}$

下面将给出求主成分的两种方法,它们分别是从样本协方差矩阵和样本相关矩阵出发求解的.

2.1 从样本协方差矩阵S出发求主成分

利用定理1可以求出协方差矩阵S的特征值λi=[λi-i+]和对应的特征向量ti,(i=1,2,…,p).设矩阵Sp个特征值满足λp-1≥λ-2≥…≥λ-≥0,λp+1≥λ+2≥…≥λ+≥0,则称${{y}_{1}}=t_{1}^{T}x,{{y}_{2}}=t_{2}^{T}x,\ldots ,{{y}_{p}}=t_{p}^{T}x$为p个主成分,$\frac{{{\lambda }^{-}}_{i}+{{\lambda }^{+}}_{i}}{2p}\left( i=1,2,\ldots ,p \right)$为第i个主成分的贡献率(或被yi所解释的比例),$\frac{\sum\limits_{i=1}^{m}{({{\lambda }^{-}}_{i}+{{\lambda }^{+}}_{i})}}{2p}$为前m个主成分的累计贡献率(或x=(x1,x2,…,xp)Ty1,y2,…,ym解释的能力)m=1,2,…,p,注意$\sum\limits_{i=1}^{p}{({{\lambda }^{-}}_{i}+{{\lambda }^{+}}_{i})}=2p$,贡献率关于i单调递减,累计贡献率关于i单调递增.

目前已有的区间主成分分析的思路是通过端点、中点把每一个样本想象成一个存在于空间中的超矩阵,把样本区间矩阵转化为普通的数值型数据,然后按照传统的主成分分析方法计算其样本协方差矩阵的特征值和特征向量,得到主成分.本文将先通过区间矩阵的运算求其样本协方差矩阵,然后利用定理1得到样本协方差矩阵的特征值和特征向量,进而得到主成分.已有方法得到的特征值和特征向量的分量是实数,而本文得到的特征值和特征向量的分量是区间数.已有方法求主成分的过程是按照传统的主成分分析方法计算的,所以贡献率、累计贡献率也是按照传统的计算公式得到,而本文中特征值是区间数,这里对贡献率、累计贡献率的计算公式是重新给出的.

2.2 从相关矩阵R出发求主成分

通常有两种情形不适合直接从样本协方差矩阵S出发进行主成分分析: 一种是各变量的单位不全相同,另一种是各变量的单位虽相同但其变量方差的差异较大.对这两种情形,通常先将各原始变量作标准化处理,然后从标准化变量的协方差矩阵出发求主成分.最常见的标准化变量的方法是令${{{\tilde{x}}}_{i}}=[\tilde{x}_{i}^{-}\tilde{x}_{i}^{+}]=\left[ \frac{x_{i}^{-}-\mu _{i}^{-}}{\sqrt{s_{ii}^{-}}} \right].$.显然标准化变量的样本协方差矩阵正是原变量的样本相关矩阵,因此,从相关矩阵出发求主成分的方法与从样本协方差矩阵出发是完全类似的(与已有利用相关矩阵求主成分的方法的区别就不详细叙述了).

2.3 从R出发求主成分和样本排名的算法

取定α∈(0,1),算法步骤如下:

(1) 用公式$\bar{x}_{i}^{-}=\frac{1}{n}\sum\limits_{k=1}^{n}{x_{ki}^{-}},$和$\bar{x}_{i}^{+}=\frac{1}{n}\sum\limits_{k=1}^{n}{x_{ki}^{+}},$求$x_{ki}^{-}$和$x_{ki}^{+}$(从而求出${{{\bar{x}}}^{-}}$、${{{\bar{x}}}^{+}}$和${\bar{x}}$).

(2) 用公式${{{\underset{\raise0.3em\hbox{$\smash{\scriptscriptstyle-}$}}{s}}}_{ij}}=\sum\limits_{k=1}^{n}{(x_{ki}^{-}-\bar{x}_{i}^{-})(x_{kj}^{-}-\bar{x}_{j}^{-}),{{{\bar{s}}}_{ij}}}=\sum\limits_{k=1}^{n}{(x_{ki}^{+}-\bar{x}_{i}^{+})(x_{kj}^{+}-\bar{x}_{j}^{+}),}$和${{s}_{ij}}=\left[ s_{ij}^{-},s_{ij}^{+} \right]=\frac{1}{n-1}\left[ min({{{\underset{\raise0.3em\hbox{$\smash{\scriptscriptstyle-}$}}{s}}}_{ij}},{{{\bar{s}}}_{ij}}),max({{{\underset{\raise0.3em\hbox{$\smash{\scriptscriptstyle-}$}}{s}}}_{ij}},{{{\bar{s}}}_{ij}}) \right]$求sij.

(3) 用公式${{r}_{ij}}=\frac{{{s}_{ij}}}{\sqrt{{{s}_{ii}}}\sqrt{{{s}_{jj}}}}=[r_{ij}^{-},r_{ij}^{+}]=\left[ min\left( \frac{s_{ij}^{-}}{\sqrt{s_{ii}^{-}}\sqrt{s_{jj}^{-}}},\frac{s_{ij}^{+}}{\sqrt{s_{ii}^{+}}\sqrt{s_{jj}^{+}}} \right),max\left( \frac{s_{ij}^{-}}{\sqrt{s_{ii}^{-}}\sqrt{s_{jj}^{-}}},\frac{s_{ij}^{+}}{\sqrt{s_{ii}^{+}}\sqrt{s_{jj}^{+}}} \right) \right]$求出rij.

(4) 利用定理1求出rij的特征值和特征向量.

(5) 用公式${{y}_{1}}=t_{1}^{T}x,{{y}_{2}}=t_{2}^{T}x,\ldots ,{{y}_{p}}=t_{p}^{T}x~$得到p个主成分.

(6) 用公式${{\frac{\lambda _{i}^{-}+\lambda _{i}^{+}}{2p}}^{-}}\left( i=1,2,\ldots ,p \right)$求出每个主成分的贡献率.

(7) 确定最小的q,使得前q个主成分${{y}_{1}}=t_{1}^{T}x,{{y}_{2}}=t_{2}^{T}x,\ldots ,{{y}_{q}}=t_{q}^{T}x$的累计贡献率大于α.

(8) 对选择的每一个主成分进行解释.

3 实例分析

以文献[10]中的数据为例进行分析.区间样本数据如表 1所示.

表 1 区间样本数据表 Table 1 Interval sample data
样本变量样本变量
x1x2x3x4 x1x2x3x4
S1[0.93,0.94][-27,-18][170,204][118,196] S5[0.92,0.92][-21,-15][80,82][189,193]
S2[0.93,0.94][-5,-4][192,208][188,197] S6[0.91,0.92][0,6][79,90][187,196]
S3[0.92,0.92][-6,-1][99,113][189,198] S7[0.86,0.87][30,38][40,48][190,199]
S4[0.92,0.93][-6,-4][104,116][187,193] S8[0.86,0.86][22,32][53,77][190,202]

由于S中主对角线元素差异较大,因此从样本的相关矩阵R出发进行主成分分析.并由Matlab计算可以得到

$\begin{align} & R=\left[ \begin{matrix} \left[ 1,1 \right] & \left[ -0.921\text{ }5,-0.911\text{ }9 \right] & \left[ 0.748\text{ }1,0.775\text{ }4 \right] & \left[ -0.736\text{ }5,-0.359\text{ }3 \right] \\ \left[ -0.921\text{ }5,-0.911\text{ }9 \right] & \left[ 1,1 \right] & \left[ -0.655\text{ }6,-0.648\text{ }5 \right] & \left[ 0.550\text{ }5,0.767\text{ }0 \right] \\ \left[ 0.748\text{ }1,0.775\text{ }4 \right] & \left[ -0.655\text{ }6,-0.648\text{ }5 \right] & \left[ 1,1 \right] & \left[ -0.532\text{ }7,-0.207\text{ }8 \right] \\ \left[ -0.736\text{ }5,-0.359\text{ }3 \right] & \left[ 0.550\text{ }5,0.767\text{ }0 \right] & \left[ -0.532\text{ }7,-0.207\text{ }8 \right] & \left[ 1,1 \right] \\ \end{matrix} \right] \\ & \\ \end{align}$
由定理1可知,可以用Matlab[11, 12]计算出特征值和特征向量,见表 2.

表 2 相关矩阵R的前2个特征值和特征向量 Table 2 The first two values and eigenvector of correlation matrix
特征向量t1t2
x1 x2 x3 x4 [0.538 2,0.564 7] [-0.5713,-0.5253] [0.459 1,0.484 6] [-0.472 8,-0.346 3] [0.047 7,0.209 1] [0.074 2,0.194 4] [0.449 4,0.783 4] [0.588 4,0.865 4]
特征值 [2.785 0,3.207 7] [0.484 5,0.852 4]
贡献率/% 74.90816.711
累计贡献率/% 74.908 91.619

这里从相关矩阵进行主成分分析.从表 2可以看出,前2个主成分的累计贡献率已达到91.619%,而文献[10]中的累计贡献率只达到88.52%,因此可以考虑只取前面两个主成分,它们已能够很好地概括这组数据.

前2个标准化样本主成分中各标准化变量${{\tilde{x}}_{i}}=\frac{{{x}_{i}}-{{{\bar{x}}}_{i}}}{\sqrt{{{s}_{ii}}}}\left( i=1,2,3,4 \right)$前的系数取为对应特征向量,由此得到2个标准化样本主成分如下:

$\begin{align} & {{y}_{1}}=\left[ 0.5382,0.5647 \right]\times \left[ \tilde{x}_{1}^{-},\tilde{x}_{1}^{+} \right]+\left[ -0.5713,-0.5253 \right]\times \left[ \tilde{x}_{2}^{-},\tilde{x}_{2}^{+} \right]+ \\ & \left[ 0.4591,0.4846 \right]\times [\tilde{x}_{3}^{-},\tilde{x}_{3}^{+}\left] + \right[-0.4728,-0.3463\left] \times \right[\tilde{x}_{4}^{-},\tilde{x}_{4}^{+}], \\ & {{y}_{2}}=\left[ 0.0477,0.2091 \right]\times [\tilde{x}_{1}^{-},\tilde{x}_{1}^{+}\left] + \right[0.0742,0.1944\left] \times \right[\tilde{x}_{2}^{-},\tilde{x}_{2}^{+}]+ \\ & \left[ 0.4494,0.7834 \right]\times [\tilde{x}_{2}^{-},\tilde{x}_{3}^{+}\left] + \right[0.5884,0.8654\left] \times \right[\tilde{x}_{4}^{-},\tilde{x}_{4}^{+}]. \\ \end{align}$
由于第一个主成分对所有变量都有近似相等的载荷,因此可认为是对所有变量的度量.而第二主成分在变量x3和变量x4上有较高的正载荷,而在变量x1和变量x2存在很小的正载荷,可以认为这个主成分是用于度量变量x3和变量x4在样本变化上占的比重.

4 结束语

本文提出了一种针对区间数据的主成分分析方法,在求解主成分的过程中一直根据区间数的运算进行计算.将用该方法选取的主成分和利用V-PCA方法选取的主成分进行了比较,结合实例说明该方法的累计贡献率更高.

致谢: 在本文的选题、定稿过程中,硕士研究生陈晔、鄂建伟、杨小燕以及本科生徐兴全、田鹏、任珍珍、李文灿、李文达、曹富媛、艾鹏程参加了讨论并且提出了有益的建议,在此一并致谢.

参考文献
[1] CAZES P,CHOUAKRIA A,DIDAY E,et al.Extension de l'analyse en composantes principales des à données de type intervalle[J].Revue de Statisque Applique,1997,45(3):5-24.
Click to display the text
[2] LAURO N C,PALUMBO F.Principal components analysis of interval data: A symbolic data analysis approach[J].Computational Statistics,2000,15(1):73-87.
Click to display the text
[3] PIERPAOLO D,PAOLO G.A least squares approach to principal component analysis for interval data[J].Chemometrics and Intelligent Laboratory Systems,2004,70(2):179-192.
Click to display the text
[4] PALUMBO F,LAURO N C.A PCA for interval-valued data based on midpoints and radii[C]//New Developments in Psychometrics,Berlin:Springer-Verlag,2003.
Click to display the text
[5] GIORDANI P,KIERS H A L.Three-way principal component analysis of interval valued data[J].Journal of Chemometrics,2004(18):253-264.
Click to display the text
[6] 陈塑寰,邱志平,宋大同,等.区间矩阵标准特征值问题的一种解法[J].吉林工业大学学报,1993,23(3):1-8. CHEN Suhuan,QIU Zhiping,SONG Datong,et al.A method to solve standard egienvalue problem of interval matrixs[J].Journal of Jilin University of Technology,1993,23(3):1-8.
Cited By in Cnki (23)
[7] MOORSE R E.Method and applications of interval analysis[M].Pliladelphia:SIAM,1979.
Click to display the text
[8] 缪建群.多元离散型样本协方差阵的正定性[D].贵州:贵州大学,2006. MIU Jianqun.The positive definiteness of covariance matrices of multiple discrete samples[D].Guizhou: Guizhou University,2006.
Cited By in Cnki (1)
[9] 王学民.应用多元分析[M].上海:上海财经大学出版社,2009. WANG Xuemin.Applied multivariate analysis[M].Shanghai:Shanghai University of Finance and Economics Press,2009.
Click to display the text
[10] 李汶华,郭均鹏.区间主成分分析方法的比较[J].系统管理学报,2008,17(1):94-98. LI Wenhua,GUO Junpeng.Comparisons of interval principal component analysis methods[J].Journal of Systems Management,2008,17(1):94-98.
Cited By in Cnki (11)
[11] 陈仲生.基于Matlab 7.0的统计信息处理[M].长沙:湖南科学技术出版社,2005. CHEN Zhongsheng.Statistical information processing based on Matlab 7.0[M].Changsha:Hunan Science and Technology Press,2005.
Click to display the text
[12] 何正风.MATLAB概率与数理统计分析[M].北京:机械工业出版社,2012. HE Zhengfeng.MATLAB-Probability and mathematical statistics analysis[M].Beijing:Mechanical Industry Press,2012.
Click to display the text
西安工程大学; 中国纺织服装教育学会主办
0

文章信息

侯自盼, 李生刚
HOU Zipan, LI Shenggang
一种针对区间型数据的新主成分分析法
A new principal component analysis method for interval data
纺织高校基础科学学报, 2016, 29(02): 184-189
Basic Sciences Journal of Textile Universities, 2016, 29(02): 184-189.

文章历史

收稿日期: 2015-09-14

相关文章

工作空间