Test di Wilcoxon per campioni indipendenti

    Se in uno studio utilizziamo dei dati di tipo ordinale o se, pur essendo di tipo intervallare, i dati non mostrano una distribuzione normale, per decidere se due gruppi di osservazioni possono essere considerati, a ragione, campioni diversi di una stessa popolazione dobbiamo servirci di un test statistico non parametrico. Il test di Wilcoxon per campioni indipendenti è uno dei più potenti test non parametrici; corrisponde al test t di Student per campioni indipendenti.
    Vediamo un semplice esempio. Durante una sperimentazione clinica di un farmaco contro l'ipertrofia prostatica, ai pazienti del gruppo A, formato da 27 individui (n1), viene somministrato il farmaco A mentre i pazienti del gruppo B, formato anch'esso da 27 individui (n2), ricevono il farmaco B. In genere si indica con n1 il gruppo con numero inferiore di osservazioni e con n2 il gruppo con numero maggiore di osservazioni, mentre se i due gruppi hanno la stessa numerosità è indifferente.
Tutti i pazienti all'inizio della terapia mostravano i tipici segni di ostacolato deflusso dell'urina durante la minzione. Dopo un mese di terapia i soggetti di entrambi i gruppi compilano un questionario composto da 50 domande alle quali il soggetto risponde scegliendo fra tre possibili risposte; ogni risposta è correlata all'importanza della sintomatologia (assente = 1, moderata = 2, grave = 3). Sommando tutti i punteggi di ogni domanda, ad ogni paziente sarà assegnato un punteggio totale che potrà variare da 50 a 150.
    Ci chiediamo: esistono dei validi motivi per affermare che i pazienti appartenenti al gruppo A hanno una sintomatologia più grave rispetto ai pazienti del gruppo B in base ai dati riportati nella seguente tabella.
 
 
 
Gruppo A
rango
Gruppo B
rango
 1
116
40,5
145
54
 2
143
53
126
46,5
 3
141
52
130
49
 4
106
24
126
46,5
 5
110
29
107
26,5
 6
115
36
106
24
 7
120
42,5
 93
15
 8
113
31,5
110
29
 9
127
48
115
36
10
107
26,5
 65
5,5
11
 98
19
 68
7,5
12
131
50
121
44,5
13
 55
3
 93
15
14
140
51
 86
12,5
15
110
29
115
36
16
115
36
106
24
17
 65
5,5
 70
9
18
 68
7,5
104
21
19
121
44,5
 80
10
20
 93
15
 53
2
21
 86
12,5
 64
4
22
115
36
105
22
23
115
36
115
36
24
120
42,5
116
40,5
25
 96
17
 98
19
26
 83
11
50
1
27
113
31,5
98
19
 
 
830
 
T = 655

    Per applicare il test di Wilcoxon per campioni indipendenti assegniamo ad ogni punteggio, di entrambi i gruppi, un numero di rango, disponendo i dati in ordine di grandezza crescente in una singola lista, etichettandoli in modo che possano essere  successivamente di nuovo distinti. Quando due o più numeri sono uguali, si assegna a ciascuno di essi la media dei numeri di posizione, come nella Tabella seguente.
 
 
1
50
B
2
53
B
3
53
A
4
64
B
5,5
65
A
5,5
65
B
7,5
68
A
7,5
68
B
9
70
B
10
80
B
11
83
A
12,5
86
A
12,5
86
B
15
93
A
15
93
B
15
93
B
17
96
A
19
98
A
19
98
B
19
98
B
21
104
B
22
105
B
24
106
A
24
106
B
24
106
B
26,5
107
A
26,5
107
B
29
110
A
29
110
A
29
110
A
31,5
113
A
31,5
113
A
36
115
A
36
115
A
36
115
A
36
115
A
36
115
B
36
115
B
36
115
B
40,5
116
A
40,5
116
B
42,5
120
A
42,5
120
A
44,5
121
A
44,5
121
B
46,5
126
B
46,5
126
B
48
127
A
49
130
B
50
131
A
51
140
A
53
141
A
53
143
A
54
145
B
 

    Si sommano i ranghi indicando con T il più piccolo di questi totali se i campioni hanno lo stesso numero di dati.
    Se invece i due campioni hanno diverso numero di dati si chiama T1 il totale del campione che ha minore numero di dati, diciamo n1 ed il numero dei dati del secondo campione si indica con n2.
    La somma dei ranghi del campione più numeroso sarà calcolato come:


 

anche in questo caso si indicherà con T il più piccolo fra i valori T1 e T2.

    Se l'ipotesi nulla è vera dobbiamo aspettarci che in media i ranghi, in ognuno dei due gruppi siano quasi uguali. Se la somma dei ranghi per un gruppo è molto grande (o molto piccola), potremmo aver ragione di sospettare che i campioni siano tratti dalla stessa popolazione o che vi siano differenze fra due gruppi tratti dalla stessa popolazione.
    Il test di Wilcoxon fornisce una risposta sempre più attendibile con l'aumento della numerosità dei gruppi in esame.
    Quando n1 e n2 aumentano di dimensioni, la distribuzione campionaria di T, si avvicina rapidamente alla distribuzione normale ridotta con:

 e deviazione standard:

da cui:

zT può essere confrontato con la distribuzione di t corrispondente ad un numero infinito di gradi di libertà perché quando i campioni sono numerosi (n > 20) tale distribuzione si avvicina a quella normale. Il confronto è reso più accurato introducendo una correzione per la continuità. Consideriamo ancora i dati del nostro esempio, essendoci 27 soggetti in ciascun gruppo, ricaviamo il valore di p calcolando zT e confrontiamo il valore ottenuto con la distribuzione normale. La media di tutti i possibili valori di T, per esperimenti di queste dimensioni, è:

e deviazione standard

    Utilizziamo la somma dei ranghi più piccola perchè i gruppi nello studio hanno la stessa numerosità, pertanto:


 

    Si confronta la tabella dei valori critici del t di Student per un numero di gradi di libertà infinito. Questo valore è minore di 1,960, il valore di z che individua, nella distribuzione normale, una quota di valori pari al 5% dei valori più elevati. Lo studio non da quindi elementi sufficienti per dire che il farmaco B abbia fornito un effetto nel miglioramento dei sintomi quando confrontato con il farmaco A.
 
 

Indice generale
Pagina principale
Pagina successiva