时间:2015-03-17 14:36 文章来源:http://www.lunwenbuluo.com 作者:刘佳佳等 点击次数:
摘要:介绍了统计分析方法中的主成分分析法,对考生考试成绩数据利用matlab软件进行了主成分分析,得出了数据的主成分和综合评价函数, 并结合学生成绩进行分析,了解到了每个考生在数学学科学习上有哪些优势和不足,从而为改善学习方法和提高学习成绩方面的提供重要参考。
关键词:主成分分析;考生考试数据;matlab软件
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2015)01-0010-05
Principal Component Analysis of Test Data Based on Matlab
LIU jia-jia, LIU Zhi-jie
(Guizhou Normal University & Laboratory of Information and Computation Science Guizhou Provience, Guiyang 55001, China)
Abstract:This paper introduces the methods of principal component analysis of multivariate statistical analysis method, and use matlab to conduct the principal component analysis on student achievement, concluded that principal components and the comprehensive evaluation function of the data, , and combining the students' test scores to analyze, in order to understand the advantages and disadvantages of each of the students in the subject, as an important reference to improve the learning methods and enhance academic performance indicators.
Key words:principal component analysis; test data of student;Matlab software
1 概述
考试是用来教学评价和检查考生学习情况的基本手段,但每一次考试带给我们的信息,绝不仅仅是每个考生的具体得了多少分数。其实我们还可以了解到更多考生的学习情况,那么我们就需要对批改试卷产生的数据进行统计分析,根据分析结果得到的结论,能够为教学和学习提供参考,从而能不断改进我们教学和学习工作。
对试卷进行统计分析时,我们会发现试卷各试题之问往往存在一定的相关性,即有些题目考察了相似的知识点和考点,对得到的数据不进行任何处理就进行分析,势必会把试卷分析的变得复杂化.就不容易抓住数据的主要规律并对事物的性质做出准确的评价。因此,我们需要把原来的指标转化为一个或少数几个互相独立的综合指标来达到分析的目的。该文讲的主成分分析法就是能达到这种目的的统计分析方法。
2 主成分分析的基本原理
2.1 主成分分析的基本思想[1]
主成分分析首先是Hotelling于1933年时提出的。主成分分析是一种利用数学思想达到降低维数的统计方法,即通过找出几个综合指标来代替众多的原始指标, 并尽可能多的反映原始数据所提供的信息量,而且彼此之间相互独立。主成分分析所要做的内容就是要设法把原来具有一定相关性的众多变量,重新组合成一组新的相互独立的综合变量来代替原来变量,通常数学上的处理方法就是将原来的变量做线性组合,作为新的综合变量,但这种组合如果不加以限制,就会有很多情况,那么我们如何选择呢?如果将选取的第一个线性组合作为第一个综合变量记为[F1],那么我们自然希望它能尽可能地反应原来变量的信息,这里我们把包含“信息”的多少用方差来测量,即[Var(F1)]越大,表示[Y1]包含的信息越多。
因此所选取的[F1]应该是所有的线性组合中方差最大的,我们把[F1称为]第一主成分。如果第一主成分不能够代表原来多个变量的基本信息,那么就再选取第二个线性组合[F2],为了有效的反应原来信息,[F1]已有的信息就不需要再出现在[F2]中,用数学语言表达就是要求[CovF1,F2=0],我们把[F2称]为第二主成分,依此类推,可以得到出第三、第四……第[p]个主成分。
2.2 主成分分析的基本理论[2]
设研究某一事物时涉及到[p]个变量,我们分别用[X1,X2,…,XP]表示,[X=(X1,X2,…,XP)T为]这[p]个指标构成的[p]维随机向量。设随机向量[X]均值[EX]和协方差阵[DX]分别为[μ]和Σ。对[X]进行线性变换,即可得到新的综合变量,它可由原来的变量线性表示,即满足下式:
[Yi=μTiX=μ1iX1+μ2iX21+…+μpiXpi=1,2,…,p ] (1)
易见 [VarYi=μTiμi,CovYi,Yj=μTiμj,(i,j=1,2,…,p)]
定义1 设[X=X1,X2,…,XPT] 为[P]维随机向量。称[Yi=μTiX] 为[X] 的第[i]主成分[i=1,2,…,p,如果:]
[μTiμi]=[μ21i+μ21i+…+μ21i=1,i=1,2,…,p] (2)
[CovYi,Yj=0],[i≠j, i,j=1,2,…,p,即Yi与Yj不相关] (3)
[VarY1?VarY2?…?VarYp] (4)
从这个定义1,我们可以知道主成分是原来[p]个原始变量进行特殊线性组合构成的. 那么, 我们如何来求主成分呢? 一般地, 我们有:
定理 2 设[X=X1,X2,…,XPT] 为[P]维随机向量。且[D(X)=Σ], [Σ] 的特征值为 [λ1≥λ2?…≥λp>0,] [α1,α2,…,αp]为相应的单位正交特征向量,
则[X]的第[i]主成分为[Fi=αTiX i=1,2,…,p]
从这个定义2,我们了解到要求[X]的第[i]主成分,必须首先求出[X]方差的第[i]大特征值和相应的单位正交特征向量。
2.3 主成分分析的分析步骤[3]
设研究某一事物涉及[到p]个变量,每个变量都有[n]个数据。那么我们就可以得到一个[n×p]阶的矩阵,将其记为
[X=xijnm=x11…x1p???xn1…xnp]=[X1,X2,...,Xp]
1)对矩阵[X]进行标准化处理
[xij=xij-xjσj],[i=1,2,...,n;j=1,2,...,p],
其中[xj=1ni=1nxij],[σj=1ni=1nxij-xij2] ,
得到标准化矩阵仍记为
[X=xijnm=x11…x1m???xn1…xnm]
[Xi=x1i,xni,...xniT,i=1,2,...,p]
2) 求标准化后矩阵的相关系数矩阵:
[R=r11…r1n???rp1…rpn]=[1nXTX]
其中,[rij=1ni=1nxijxik=1nXiTXk],[j,k=1,2,...,p]
3) 求相关系数矩阵[R]的特征值[λi]和相应的特征向量[αi]
联系方式
随机阅读
热门排行