聚類分析方法包括:pca 主成分分析、loading 分析、lda 線性判別分析。
主成分分析法(pca)是將原始數(shù)據(jù)(十個傳感器的輸出)通過算法降維成兩個新的指標主成分1(pc1)和主成分2(pc2)(二者沒有信息交叉,且指標無量綱),在圖形上顯示分別為x 軸和y 軸,性質相似的樣品,經過降維轉換后,距離上會很靠近,因此,可以用輸出的圖形來判斷組間的不同和比較組內樣品的差異。通過pca 可以使所有樣品差異z大化,用x 軸和y 軸來表示的圖形位置是新變量pc1 和pc2 的數(shù)值,值越高意味著,包含主要原始信息的量越大,如果兩個變量的總方差貢獻率不低于95%,基本上可以包含樣品的所有原始信息。
在文本窗口里,包含了模型文件和樣品以及樣品間的區(qū)分度,數(shù)值越接近于1,區(qū)分得越顯著。
該圖顯示的是棗花的loading 分析圖,從圖中可以看出7 號傳感器w1w 對di一主成分貢獻率大,同理6 號傳感器w1s 對第二主成分貢獻率大。loading 分析的算法與pca 的算法相同,有很好的相關性,不同的是,pca 是對樣品的分析,loading 分析是對傳感器的分析,可以分析出傳感器區(qū)分樣品的能力。
分析結果時,具有以下規(guī)則:
(1)傳感器在loading 分析中所在的方向與pca 方向一致。在同一軸方向的傳感器可以用pca 思維來分析。數(shù)值在軸上較大的傳感器對于區(qū)分是有作用的。
(2)位于圖*(0,0)附近的傳感器在pca 結構中對于樣品的區(qū)分作用較小。在當前的模板文件中,loading分析有利于識別對區(qū)分有用的傳感器。只要他們對區(qū)分過程有負面影響,單一傳感器就可以識別區(qū)分從而關閉分析。
lda 線性判別分析是區(qū)分-應用-分析的di一個步驟。lda 計算出識別結果并且類似于pca-----顯示培訓數(shù)據(jù)設置的二維圖。在pca 和lda 的區(qū)別是:lda 算法利用模型每組的信息,兼顧了組內分布和它們間的距離。因此,lda 收集了所有傳感器的信息盡力提高組間的差異,而pca 不考慮組間的差異,盡可能使每個數(shù)據(jù)點進行z大化地區(qū)分。
重要性:dfa/lda 與pca 相比,需要更多的數(shù)據(jù)。我們推薦數(shù)據(jù)點至少是所使用傳感器數(shù)量的6 倍(如10 傳感器就應該對應于至少60 個獨立數(shù)據(jù)點)。