Test di Kruskal-Wallis

    Questo test è l'equivalente non parametrico del test della varianza ad un criterio di classificazione, si basa sui ranghi, quindi si utilizza quando lavoriamo con misure effettuate con una scala ordinale o i nostri dati, pur appartenendo ad una scala intervallare, non mostrano un andamento normale.
    Vediamo un esempio pratico: durante una sperimentazione clinica di un farmaco contro l'ipertrofia prostatica, immaginiamo che al gruppo A di pazienti formato da 18 individui (n_A) somministriamo il farmaco A, al gruppo B formato anch'esso da 18 individui (n_B) somministriamo il farmaco B ed al gruppo C, ugualmente formato da 18 individui (n_C) somministriamo il farmaco C. Tutti i pazienti all'inizio della rispettiva terapia mostravano i tipici segni di ostacolato deflusso dell'urina durante la minzione. Dopo un mese di terapia i soggetti di entrambi i gruppi compilano un questionario composto da 50 domande alle quali il soggetto risponde scegliendo fra tre possibili risposte; ogni risposta è correlata all'importanza della sintomatologia (assente = 1, moderata = 2, grave = 3) per cui sommando tutti i punteggi ad ogni paziente sarà assegnato un punteggio totale che potrà andare da 50 a 150.
    Ci chiediamo se esistono dei validi motivi per affermare che i pazienti appartenenti al gruppo A hanno una sintomatologia più grave rispetto ai pazienti del gruppo B e del gruppo C in base ai dati riportati nella Tabella seguente.

Gruppo A rango Gruppo B rango Gruppo C rango

1 116 40,5 145 54 121 44,5

2 143 53 126 46,5 93 15

3 141 52 130 49 86 12,5

4 106 24 126 46,5 115 36

5 110 29 107 26,5 115 36

6 115 36 106 24 120 42,5

7 170 42,5 93 15 96 17

8 113 31,5 110 29 83 11

9 127 48 115 36 113 31,5

10 107 26,5 65 5,5 80 10

11 98 19 68 7,5 53 2

12 131 50 121 44,5 64 4

13 55 3 93 15 105 22

14 140 51 86 12,5 115 36

15 110 29 115 36 116 40,5

16 115 36 106 24 98 19

17 65 5,5 70 9 50 1

18 68 7,5 104 21 98 19

R_A = 584,0 R_B = 501,5 R_C = 399,5

Per prima cosa dobbiamo attribuire il rango ad ogni osservazione, indipendentemente al gruppo di appartenenza, assegnando il rango 1 all'osservazione più piccola. Terminata l'assegnazione dei ranghi, dobbiamo calcolare la somma dei ranghi per ogni gruppo. Se i ranghi, grandi e piccoli, sono distribuiti uniformemente in tutti i gruppi vuol dire che i tre gruppi hanno risposto al trattamento in modo simile. In questo caso il rango medio di ciascun gruppo, che si ottiene dividendo la somma dei ranghi per la numerosità del gruppo, sarà simile per tutti i gruppi in esame.

Possiamo calcolare i ranghi medi per i tre gruppi:

Calcoliamo il rango medio complessivo di tutte le osservazioni come:

dove N = (n_A + n_B + n_C) = (18 + 18 + 18) = 54

o più semplicemente come

Dobbiamo ora definire la variabilità tra i valori osservati ed i valori attesi nell'ipotesi che i trattamenti abbiano lo stesso effetto e l'ipotesi nulla sia vera. Definiamo la somma D secondo questa formula:

con la quale calcoliamo la sommatoria del quadrato delle differenze tra il rango medio di ciascun gruppo ed il rango medio complessivo, moltiplicato per la rispettiva numerosità di ogni gruppo.

Calcoliamo ora la statistica KW

La distribuzione campionaria è influenzata dai ranghi ripetuti (ties), in questo caso è necessario introdurre una correzione nel calcolo della statistica KW. Per correggere l'effetto dei ranghi ripetuti si divide la statistica KW per un fattore di correzione:

dove:

t_j³ = è il cubo del numero dei ranghi ripetuti nel gruppo j-esimo
t_j = è il numero dei ranghi ripetuti nel gruppo j-esimo
N = è il numero totale delle osservazioni in tutti i campioni.

ties 1° gruppo	ties 2° gruppo	ties 3° gruppo
29 = 2	46,5 = 2	36 = 3
36 = 2	15 = 2	19 = 2
	36 = 2
4	6	5

Calcoliamo il fattore di correzione:

dividiamo il valore della statistica KW ottenuto prima per il fattore di correzione per i ranghi ripetuti:

Se le dimensioni del campione non sono troppo ridotte, la distribuzione del con (k - 1) gradi di libertà (dove k è il numero dei gruppi), rappresenta una buona approssimazione della distribuzione di KW. Di conseguenza, possiamo verificare se vi è una differenza fra i tre trattamenti confrontando il valore della statistica KW ottenuto dalle osservazioni con i valori critici del nella Tabella dei Valori critici per la distribuzione del . Questa approssimazione è valida, in esperimenti con almeno tre gruppi, quando ciascun gruppo di trattamento contiene almeno 5 elementi, oppure in esperimenti con quattro gruppi di trattamento, quando sono coinvolti più di 10 individui.
Nel nostro esempio abbiamo (3 - 1) = 2 gradi di libertà, per p = 0,05 il valore critico è 5,991 e per p = 0,01 il valore critico è 9,210; il valore della statistica KW è 3,845 quindi, poiché non supera i valori critici, possiamo affermare che i tre trattamenti non hanno mostrato differenze significative.

Indice generale Pagina precedente Pagina principale Pagina successiva