1.华北理工大学材料科学与工程学院;河北 唐山 063210; 2.华北理工大学药学院,河北 唐山 063210; 3.华北理工大学机械工程学院,河北 唐山 063210
摘要:葡萄酒的质量评价是研究葡萄酒的一个重要因素,确定葡萄酒质量时由于认为主管因素的影响,对葡萄酒质量的评价带有一定的主观性。所以酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒的质量。本文根据酿酒葡萄以及葡萄酒的相关数据建立典型相关分析模型,求得典型变量的系数,根据典型变量的系数分析酿酒葡萄和葡萄酒理化指标之间的关系,从而客观评价葡萄酒的质量。建立评价葡萄酒质量的多元线性回归模型,验证能够用酿酒葡萄和葡萄酒的理化指标来评价葡萄酒的质量。
关键词:典型相关、主成分分析法、多元回归
一、建立典型相关分析的模型:
典型相关分析是研究两组变量之间相关关系的一种统计分析法,类似于主成分分析的方法,在两组变量中分别选取若干有代表性的变量组成有代表性的综合指标,通过研究综合指标间的关系来代表两组变量间的相关关系,这些综合指标称为典型变量。设有两随机变量的均值和方差矩阵为:E(X)=,COV(X)= .第二组变量的均值和协方差矩阵为:E(X)=,Cov(Y)= .第一组与第二组变量的协和方差矩阵为:E(Y)=,Cov(Y)= .于是,矩阵Z=[XY]有均值向量=E(Z)=E[E(x) E(Y)]=[].
协方差矩阵为:(Z-u)(Z-u).
设两组变量为 , ,…, 和 , ,…, ,研究两组变量之间的相关关系,分别作两组变量的线性组合,即 = + +…+ . = + +…+ .典型变量系数:通过计算两组数据之间的系数可以得出各个数据之间的相关性的大小,比较相关性的大小再结合实际分析就可以得出变量之的关系。
对得到的数据进行标准化处理,再通过SPSS计算,得出Y与X这两组变量间的多元回归的标准化系数。通过典型变量的重要程度和以及系数的大小,从模型中可以看出酿酒葡萄与葡萄酒的理化指标之间的联系:酿酒葡萄指标中,与花色苷呈比较大的相关的几个解释变量是苹果酸、葡萄总黄酮和单宁,并且与葡萄总黄酮有很强的相关性,由此可以得出花色苷的主要来源于酿酒葡萄中的葡萄总黄酮。对于酒总黄酮,在酿酒葡萄指标中与之相对应的解释变量是DPPH自由基,葡萄总黄酮和总酚。DPPH半抑制体积于果皮质量呈现最大相关,酿酒葡萄中的DPPH、自由基含量、PH值对其也有影响。葡萄酒理化指标单宁和总酚,花色苷的数据结果较为相近,与其对应的理化指标均呈极显著的正向关联。结合以上分析可得对应于葡萄酿酒过程,相应的三种氨基酸可能发生氧化反应或分解反应,产生了促进单宁和总酚的物质,或者其反应生成物中就包含单宁和总酚。对于单宁,对于酿酒葡萄指标中与之相对应的解释变量则是和葡萄总黄酮有着很大的关系。而酿酒葡萄指标中的白藜芦醇与葡萄酒中的果梗比,出汁率的有着很强的相关性。与DPPH紧密相联系的两项葡萄酒指标分别是花色苷和DPPH自由基[1]。
根据以上论述分析,葡萄酒的指标与酿酒葡萄有着很强的关联性,根据分析酿酒葡萄的指标可以分析出葡萄酒的指标,因此能够用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。
二、建立评价葡萄酒质量的多元线性回归模型:
1.多元线性回归方程的建立要求指标之间互不相关,即无多重共线性[2]。因此本文在分析酿酒葡萄与葡萄酒的理化指标间联系的基础上,在保留葡萄酒指标的前提下,剔除酿酒葡萄指标中某些认为可以被用于表示对应葡萄酒指标的部分。
2.(1)建立多元线性回归模型涉及p个自变量的多元线性回归模型可表示为
为了方便,我们通过n组实际观察数据实际观察数据而引入矩阵记号,其中X成为模型设计矩阵(常数矩阵),Y和β是随机向量,且 ,(I为n阶单位阵), 是不可观测的随机误差向量,β是回归系数构成的向量,是未知待定的常数向量[3]。
(2)回归系数β的最小二乘估计
选取β的一个估计值,记为 ,使随机误差 的平方和达到最小,即
由最小二乘法的要求,由多元函数取得极值的必要条件可求解回归参数的标准方程为
任意给定X、Y,正规方程组总有解,虽然当X不满秩时,其解不唯一但对任意一组解 都能使残差平方和最小,Q( )=min Q( ) 。当X秩时, ,则正规方程组的解为 ,即为回归系数的估计值。
(3)回归模型的显著性检验
为表明酿酒葡萄和葡萄酒的理化指标与葡萄酒质量有密切的关系,我们对求解得到的多元线性回归模型进行了显著性检验,结果如下:
模型 | | 平方和 | df | 均方 | F | Sig. |
1 | 回归 | 118413.803 | 7 | 16916.258 | 15.708 | 0 |
| 残差 | 12923.147 | 12 | 1076.929 | | |
| 总计 | 131336.950 | 19 | | | |
表 回归方程的显著性检验
A)判定系数。通过检验可得复相关系数R=0.950,多重判定系数R2 =0.902;调整后的R2=0.844。调整后R2的值越大,模型的拟合效果越好。
B)回归方程的显著性检验。通过检验可得 F =15.708,F >F0.05 (7,20)=2.51,回归方程显著,即自变量和因变量存在明显的函数关系。根据T检验结果显示,概率p值都小于显著性水平0.05,因此认为偏相关系数显著不等于零,每一个指标都和因变量线性相关显著。综上,酿酒葡萄和葡萄酒的理化指标与葡萄酒质量存在有密切的关系。
利用统计软件SPSS进行样本质量值的Wilcoxon符号秩检验如表
| V2-V1 |
Z | -.676a |
渐进显著性(双侧) | 0.499 |
表5 秩检验
a. 基于正秩;b.Wilcoxon 带符号秩检验。
可知,P >0.05,故接受原假设,认为酿酒葡萄和葡萄酒的理化指标与葡萄酒的质量之间的关系足够密切,通过中得到的七元线性回归方程来评价葡萄酒质量的做法是可行的。
参考文献:
[1]彭德华,影响葡萄酒质量的主要因素分析,中外葡萄与葡萄酒,05:44页,2004。
[2]于秀林,任雪松,《多元统计分析》,北京:中国统计出版社,1999年。
刘保东等,葡萄酒原址含量的多元回归分析[J],山东大学学报,33(2):236-240,1998。
作者简介:张雷(2000年4月-),男,汉,河北邯郸人,本科在读。研究方向:无机非金属材料工程。