Test di Kruskal-Wallis

    Questo test è l'equivalente non parametrico del test della varianza ad un criterio di classificazione, si basa sui ranghi, quindi si utilizza quando lavoriamo con misure effettuate con una scala ordinale o i nostri dati, pur appartenendo ad una scala intervallare, non mostrano un andamento normale.
    Vediamo un esempio pratico: durante una sperimentazione clinica di un farmaco contro l'ipertrofia prostatica, immaginiamo che al gruppo A di pazienti formato da 18 individui (nA) somministriamo il farmaco A, al gruppo B formato anch'esso da 18 individui (nB) somministriamo il farmaco B ed al gruppo C, ugualmente formato da 18 individui (nC) somministriamo il farmaco C. Tutti i pazienti all'inizio della rispettiva terapia mostravano i tipici segni di ostacolato deflusso dell'urina durante la minzione. Dopo un mese di terapia i soggetti di entrambi i gruppi compilano un questionario composto da 50 domande alle quali il soggetto risponde scegliendo fra tre possibili risposte; ogni risposta è correlata all'importanza della sintomatologia (assente = 1, moderata = 2, grave = 3) per cui sommando tutti i punteggi ad ogni paziente sarà assegnato un punteggio totale che potrà andare da 50 a 150.
    Ci chiediamo se esistono dei validi motivi per affermare che i pazienti appartenenti al gruppo A hanno una sintomatologia più grave rispetto ai pazienti del gruppo B e del gruppo C in base ai dati riportati nella Tabella seguente.
 
 
Gruppo A
rango
Gruppo B
rango
Gruppo C
rango
 1
116
40,5
145
54
121
44,5
 2
143
53
126
46,5
93
15
 3
141
52
130
49
86
12,5
 4
106
24
126
46,5
115
36
 5
110
29
107
26,5
115
36
 6
115
36
106
24
120
42,5
 7
170
42,5
 93
15
96
17
 8
113
31,5
110
29
83
11
 9
127
48
115
36
113
31,5
10
107
26,5
 65
5,5
80
10
11
 98
19
 68
7,5
53
2
12
131
50
121
44,5
64
4
13
 55
3
 93
15
105
22
14
140
51
 86
12,5
115
36
15
110
29
115
36
116
40,5
16
115
36
106
24
98
19
17
 65
5,5
 70
9
50
1
18
 68
7,5
104
21
98
19
 
 
RA = 584,0
 
RB = 501,5
 
RC = 399,5

    Per prima cosa dobbiamo attribuire il rango ad ogni osservazione, indipendentemente al gruppo di appartenenza, assegnando il rango 1 all'osservazione più piccola. Terminata l'assegnazione dei ranghi, dobbiamo calcolare la somma dei ranghi per ogni gruppo. Se i ranghi, grandi e piccoli, sono distribuiti uniformemente in tutti i gruppi vuol dire che i tre gruppi hanno risposto al trattamento in modo simile. In questo caso il rango medio di ciascun gruppo, che si ottiene dividendo la somma dei ranghi per la numerosità del gruppo, sarà simile per tutti i gruppi in esame.

    Possiamo calcolare i ranghi medi per i tre gruppi:

Calcoliamo il rango medio complessivo di tutte le osservazioni come:

dove N = (nA + nB + nC) = (18 + 18 + 18) = 54

o più semplicemente come

    Dobbiamo ora definire la variabilità tra i valori osservati ed i valori attesi nell'ipotesi che i trattamenti abbiano lo stesso effetto e l'ipotesi nulla sia vera. Definiamo la somma D secondo questa formula:

con la quale calcoliamo la sommatoria del quadrato delle differenze tra il rango medio di ciascun gruppo ed il rango medio complessivo, moltiplicato per la rispettiva numerosità di ogni gruppo.

Calcoliamo ora la statistica KW

    La distribuzione campionaria è influenzata dai ranghi ripetuti (ties), in questo caso è necessario introdurre una correzione nel calcolo della statistica KW. Per correggere l'effetto dei ranghi ripetuti si divide la statistica KW per un fattore di correzione:

dove:

tj3 = è il cubo del numero dei ranghi ripetuti nel gruppo j-esimo
tj = è il numero dei ranghi ripetuti nel gruppo j-esimo
N = è il numero totale delle osservazioni in tutti i campioni.
 
 

ties 1° gruppo
ties 2° gruppo
ties 3° gruppo
29 = 2
46,5 = 2
36 = 3
36 = 2
15 = 2
19 = 2
 
36 = 2
 
4
6
5
Calcoliamo il fattore di correzione:

dividiamo il valore della statistica KW ottenuto prima per il fattore di correzione per i ranghi ripetuti:

    Se le dimensioni del campione non sono troppo ridotte, la distribuzione del  con (k - 1) gradi di libertà (dove k è il numero dei gruppi), rappresenta una buona approssimazione della distribuzione di KW. Di conseguenza, possiamo verificare se vi è una differenza fra i tre trattamenti confrontando il valore della statistica KW ottenuto dalle osservazioni con i valori critici del  nella Tabella dei Valori critici per la distribuzione del . Questa approssimazione è valida, in esperimenti con almeno tre gruppi, quando ciascun gruppo di trattamento contiene almeno 5 elementi, oppure in esperimenti con quattro gruppi di trattamento, quando sono coinvolti più di 10 individui.
    Nel nostro esempio abbiamo (3 - 1) = 2 gradi di libertà, per p = 0,05 il valore critico è 5,991 e per p = 0,01 il valore critico è 9,210; il valore della statistica KW è 3,845 quindi, poiché non supera i valori critici, possiamo affermare che i tre trattamenti non hanno mostrato differenze significative.
 
 
Indice generale
Pagina precedente
Pagina principale
Pagina successiva