作者:國工智能項(xiàng)目部—林鋒
前言
面對市場競爭的日益激烈,制造企業(yè)想要得到客戶的認(rèn)可,不得不從價(jià)格優(yōu)勢轉(zhuǎn)向高質(zhì)量的產(chǎn)品優(yōu)勢。產(chǎn)品質(zhì)量的高低已經(jīng)關(guān)系到企業(yè)核心競爭力的重要一環(huán)。如何有效地管理和利用這些從企業(yè)生產(chǎn)和經(jīng)營中產(chǎn)生的龐雜的質(zhì)量數(shù)據(jù),是企業(yè)迫切需要解決的問題。
將數(shù)據(jù)挖掘技術(shù)應(yīng)用于生產(chǎn)過程質(zhì)量管理中,挖掘出生產(chǎn)過程中影響質(zhì)量的關(guān)鍵因素及其內(nèi)在聯(lián)系,有針對性地采取預(yù)防措施,從而提高產(chǎn)品質(zhì)量,為企業(yè)持續(xù)改善質(zhì)量提供決策支持。
在實(shí)際工作中,為了避免漏掉某些重要因素,往往在一開始選取指標(biāo)的時(shí)候盡可能考慮所有的相關(guān)因素,而這樣做的結(jié)果,則是變量過多,變量間的相關(guān)度較高,給統(tǒng)計(jì)分析與建模帶來極大不便,因此人們希望能夠研究變量間的相似關(guān)系,按照變量的相似關(guān)系把他們聚合成若干類,進(jìn)而找出影響系統(tǒng)的主要因素,引入了變量聚類方法。
含義
根據(jù)不同變量之間相關(guān)程度高低進(jìn)行分類。研究中,若變量較多且相關(guān)較強(qiáng)時(shí),可以使用變量聚類法把變量聚為幾個(gè)大類,同一類變量之間有較強(qiáng)相關(guān)性,不同類變量之間相關(guān)程度低,并可以從同類變量中找出一典型性變量作為代表,最終減少變量個(gè)數(shù)達(dá)到降維目的。
案例
有10種500毫升啤酒的成分和價(jià)格等數(shù)據(jù),試用變量聚類對變量進(jìn)行聚類以達(dá)到縮減變量的目的,篩選出預(yù)測變量。數(shù)據(jù)的變量包括熱量、鈉含量、酒精含量、價(jià)格、麥芽濃度。
分析過程
從數(shù)據(jù)大腦中的組件面板查找變量聚類組件,拖到到工作面板,配置數(shù)據(jù)源以及變量聚類組件參數(shù),點(diǎn)擊運(yùn)行。
分析結(jié)果
如何篩選聚類變量?現(xiàn)在我們有5個(gè)變量用來對啤酒分類,是否有必要將5個(gè)變量都納入作為分類變量呢?熱量、鈉含量、酒精含量,麥芽濃度這4個(gè)指標(biāo)是要通過化驗(yàn)員的辛苦努力來測定,而且還有花費(fèi)不少成本,如果都納入分析的話,豈不太麻煩太浪費(fèi)?所以,有必要對5個(gè)變量進(jìn)行聚類處理。
從結(jié)果樹狀圖中可以看出酒精含量與麥芽濃度兩個(gè)變量距離為0.0683,二者之間相關(guān)系數(shù)最大(相關(guān)系數(shù)等于1 - 距離)選其一即可,沒有必要都作為預(yù)測變量,導(dǎo)致成本增加。至于酒精含量和麥芽濃度選擇哪一個(gè)作為典型指標(biāo)來代替原來的兩個(gè)變量,可以根據(jù)專業(yè)知識或測定的難易程度決定。(與因子分析不同,是完全踢掉其中一個(gè)變量以達(dá)到降維的目的。)這里選用酒精含量,至此,確定出用于預(yù)測的變量為:酒精含量,鈉含量,熱量,價(jià)格。
與國工銷售預(yù)測系統(tǒng)相融合
在國工銷售預(yù)測系統(tǒng)中,對預(yù)測因素的整理就用到了變量聚類的算法。通過變量聚類算法對影響因素的歸納整理確定最終影響系統(tǒng)的主要因素,降低預(yù)測的成本。
適用范圍
變量聚類可以用來:分析特征相關(guān)性,對指標(biāo)進(jìn)行分類等。
責(zé)任編輯:胡金鵬