22 Relazioni tra variabili: La verifica delle ipotesi sul coefficiente di correlazione R di Pearson

Table of Contents

Il coefficiente di correlazione lineare R di Bravais-Pearson

A che serve la correlazione? Mettere in evidenza la relazione esistente tra due variabili. E consiste nello:

  • stabilire il tipo di relazione (ad esempio lineare)
  • stabilire il grado (forza o intensità) di tale relazione
  • stabilire la direzione di tale relazione

Ad esempio:

  • studiare la relazione tra età e peso, e capire se con l’avanzare dell’età aumenti anche il peso
  • Tempo di esecuzione di un compito e numero di errori
  • Stress e sintomi psicosomatici

Per meglio comprendere facciamo un esempio: Abbiamo 6 soggetti a cui chiediamo la loro intenzione di esercitarsi all’uso del computer durante la settimana successiva. Inoltre chiediamo loro se pensano sia difficle esercitarsi al computer. Vogliamo verificare se esiste una relazione fra intenzione nell’uso del pc e percezioni di controllo (quanto è difficile utilizzare il pc). Ecco la seguente distribuzione dei punteggi

  • int: intenzione
  • con: controllo

Per avere una visione grafica usiamo il diagramma di dispersione

La nube dei punti si sviluppa secondo una retta (la relazione è di tipo lineare)

Come fare per sisntetizzare i punteggi secondo un solo valore? In questo caso andiamo a Calcolare il punto le cui coordinate sono le medie (My e Mx)

Questo punto medio lo possiamo esprimere in termini di covarianza. La covarianza misura il grado di asociazione di 2 variabili (quanto la variabile x e y variano insieme)

Questo indice:

  • Può assumere valori positivi e negativi
  • Quando è 0, x e y sono indipendenti
  • Aumenta al crescere del grado di dipendenza tra x e y

La covarianza ha un Limite: è una misura relativa, quindi dipende dall’unità di misura delle variabili

Come fare allora per ottenere un valore che sia indipendente dalle unità di misura di x e y? Lo dobbiamo standardizzare andando a calcolare le deviazioni standard di x e y (dispersione della nube dei punti).

Questo coefficiente è il coefficiente di correlazione r di Pearson, ed è una sorta di covarianza standardizata.

Il coefficiente r costituisce un indice della bontà di adattamento della retta ai dati campionari.

Il coefficiente r di Pearson misura la forza della relazione attraverso il valore. Il segno denota la direzione della relazione.

Ancora r è sempre compreso tra -1 e +1. Infine r può essere usato solo con variabili metriche, misurate almeno su scala a intervalli.

Il coefficiente di correlazione r può essere calcolato attraverso varie formule, equivalenti alla precedente:

Guardando l’ultima formula abbiamo r = covarianza standardizzata ⇒ rapporto tra la covarianza (sxys_{xy} oppure CovxyCov_{xy}​) e le deviazioni standard (sxs_x​ e sys_y​) di xx e yy ⇒ coefficiente indipendente dall’unità di misura di xx e yy.

Abiamo detto che Il coefficiente r di Pearson misura:

  • la forza della relazione attraverso il valore
  • la direzione della relazione attraverso il segno
  • è sempre compreso tra -1 e +1 ⇒ −1 ≤ r ≤ +1

Come interpretare r?

  • se r = ±1 ⇒ relazione lineare perfetta
  • se r = 0 ⇒ assenza di relazione lineare
  • se r < |.20| ⇒ relazione molto debole
  • se |.20| < r < |0.40| ⇒ relazione moderata
  • se |.40| < r < |.60| ⇒ relazione abbastanza forte
  • se r > |.60| ⇒ relazione forte

Esempi

Esempio

Esempio di calcolo di r: Abbiamo 6 soggetti cui chiediamo la loro intenzione di esercitarsi all’uso del computer durante la settimana successiva; inoltre chiediamo loro se pensano sia difficile esercitarsi al computer. Vogliamo verificare se esiste una relazione fra intenzione e percezioni di controllo.
Osserviamo la seguente distribuzione di punteggi:

Sulla destra dell’immagine andiamo a calcolare il prodotto di x e y, x e y al qudrato. Sul fondo facciamo la somma, e otteniamo il numeratore della formula seguente

Quindi r = 0.53

r è un numero indipendente dall’unità di misura.

Nella formula di r il cambiamento ordine delle variabili non determina cambiamento del coefficiente di correlazione (r = media dei prodotti delle variabili standardizzate). In altre parole, la correlazione non ci dice nulla sulla direzione dell’effetto (quale variabile influenza l’altra).

L’influenza è reciproca, al variare di una varia anche l’altra.

Verifica delle ipotesi su R di Pearson

Come posso valutare se la relazione sintetizzata tramite il coefficiente di correlazione è significativa, cioè probabilmente diversa da zero?

Questo processo di verifica si basa sul ρ (rho). Il Rho è un parametro che corrispondente alla statistica r nella popolazione.

Come facciamo a verificare se la relazione sintetizzata con r è significativa? Lo facciamo trasformando la r in una t.

Sono anche disponibili dei valori critici del coefficiente r (per piccoli campioni), ma solo per ipotesi monodirezionali. Quindi usare t è una scelta spesso più comoda e generale.

In che situazione ci possiamo trovare quando abbiamo a che fare con la verifica delle ipotesi su un coefficiente di correlazione lineare r di Pearson?

  • Abbiamo una popolazione dalla quale estraiamo un campione
  • Su questo campione andiamo a misurare 2 variabili (x e y) metriche, e quindi l’inicatore di riferimento sarà quello della covarianza.

Quindi abbiamo a che fare con una distribuzione normale bivariata, che prevede uno spazio cartesiano a 3 assi (tridimensionale).

La distribuzione teorica di riferimento sarà la distribuzione teorica di probabilità t. La procedura da seguire è la seguente

1. Scelta del test statistico (di significatività): Si calcola r e si trasforma in t.

2. Definizione dell’ipotesi: Confrontare con la popolazione di riferimento:

  • H₀: ρ = 0
  • H₁: ρ ≠ 0 (bidirezionale)
  • H1: ρ > 0 oppure ρ < 0 (monodirezionale)

3. Fissare il livello di significatività α e calcolare i gradi di libertà

Si definisce la regione di rifiuto in base a:

  • α (= .05; .01; .001; ecc.)
  • gdl = n – 2
  • H₁ (mono/bi-direzionale)

Trovando un tcritico sulla Tavola.

4. Associare una probabilità ad H₀

Si associa una probabilità ad H₀ trasformando r in t:

5. Decisione su H₀ (⇒ H₁): Il confronto avviene tra t e tcritico

Se |t| < |tcritico| ⇒ p > α

  • Si accetta H₀ ⇒ L’ipotesi di un’assenza di relazione (ρ=0) è probabilmente vera ⇒ La relazione tra le due variabili non è significativa.

Se |t| > |tcritico| ⇒ p < α

  • Si rifiuta H₀ ⇒ Si accetta H₁ ⇒ L’ipotesi di un’assenza di relazione (ρ=0) è probabilmente falsa ⇒ La relazione tra le due variabili è significativa.

Esempio

Esempio: Abbiamo 6 soggetti cui chiediamo la loro intenzione di esercitarsi all’uso del computer durante la settimana successiva; inoltre chiediamo loro se pensano sia difficile esercitarsi al computer.
Vogliamo verificare se esiste una relazione fra intenzione e percezioni di controllo.

1. Scelta del test statistico (di significatività)

Abbiamo:

  • 1 Campione: n = 6
  • 2 variabili metriche: “Percezione di controllo” e “Intenzione uso pc”

Useremo la distribuzione normale bivariata e la confronteremo con la distribuzione di probabilità t.

2. Definizione dell’ipotesi

Le ipotesi sono

H₀: ρ = 0 (Percezione di controllo e Intenzione uso del computer non correlano (covariano) significativamente; non vi è una relazione tra le due variabili)

H₁: ρ ≠ 0 (bidirezionale, Percezione di controllo e Intenzione uso del computer correlano (covariano) significativamente; vi è una relazione significativa tra le due variabili)

3. Fissare il livello di significatività α:

Fissiamo α = .05;

H₁ è bidirezionale

gdl è = 6 – 2 = 4

Si definisce la regione di rifiuto secondo α, gdl e H₁ bidirezionale, trovando un tcritico sulla Tavola. Qual è il valore tcritico?

tcritico = 2.776

4. Associare una probabilità ad H₀:

Calcolo r e lo trasformo in t:

5. Decisione su H₀ (⇒ H₁)

|1.22| < |2.78| ⇒ p > .05

Quindi si accetta H₀, si considera vera l’ipotesi nulla.

La probabilità che Rho sia uguale a 0 è maggiore del 5% fissato con α, ne concludo che:

  • L’ipotesi di un’assenza di relazione (ρ=0) è probabilmente vera.
  • Non ho elementi per pensare esista una relazione tra le due variabili, la relazione non è significativa.
  • In altre parole, percezione di controllo e intenzione uso del pc non correlano

Quindi indagare la relazione esistente tra due variabili significa:

  • Stabilire l’esistenza di una relazione ⇒ la verifica dell’ipotesi sul valore del coefficiente di correlazione ottenuto attesta la presenza o meno di una relazione lineare significativa.
  • Stabilire il grado (intensità o strettezza) di tale relazione ⇒ il valore del coefficiente di correlazione indica la forza della relazione lineare (ad esempio, valori di r intorno a .70 indicano una relazione molto forte, attorno a .20 debole).
  • Stabilire la direzione della relazione ⇒ il segno del coefficiente di correlazione indica la direzione della relazione lineare (ad esempio, se r è positivo indica che al crescere di X cresce Y).

Dunque per interpretare la correlazione dobbiamo chiederci:

  • La relazione è (significativamente) diversa da zero?
  • Qual è il verso della relazione?
  • Quanto è forte la relazione?

In base alle risposte a queste domande interpretiamo il risultato.