Data Mining: Analisi cluster e regressione lineare di un dataset

Che relazione esiste tra quantità di memoria e capacità di elaborazione di un calcolatore? Le prestazioni di una CPU da quali parametri dipendono? Attraverso lo studio del dataset “CPU Performances” abbiamo cercato di dare una risposta a questi interrogativi. L’analisi è stata effettuata su un campione di 209 CPU, ognuna caratterizzata da 10 variabili, con l’ausilio del software MATLAB. L’analisi comprende lo studio della regressione, con selezione del modello applicando la tecnica Backward Elimination, selezionando le variabili in base alla significatività. Assieme alla stima dei parametri dei regressori, sono stati condotti test per controllare l’omoschedasticità, l’autocorrelazione e la distribuzione normale dei residui, la multicollinearità e la stabilità dei regressori.
Per quanto riguarda l’analisi Cluster, il Dataset è stato partizionato utilizzando algoritmi di natura gerarchica agglomerativa e partitiva (K Means). La migliore partizione, in entrambi i casi, è stata ottenuta valutando il Variance Ratio Criterion. Sono stati utilizzati gli strumenti grafici messi a disposizione da Matlab per visualizzare dendogrammi, cluster k means, istogrammi e box plot delle variabili. Il k-means è stato ripetuto una seconda volta considerando solamente le componenti principali.

Publish at Scribd or explore others: Research Science matlab Data Mining
Print This Page Print This Page