Category: modulo3

  • 21 Verifica delle ipotesi con il χ2

    Table of Contents

    Verifica delle ipotesi con χ²: il caso di un campione

    Per capire l’utilità del test con χ² andiamo a fare un esempio.

    Immaginiamo di avere un campione di 120 depressi (Maschi 42 e femmine 78). Possiamo dire che la depressione ha un’incidenza maggiore fra le donne?

    La statistica del chi quadro χ² consente di confrontare una distribuzione teorica (frutto di un modello supposto vero sulla popolazione) e una distribuzione osservata (nel campione).

    Ci troveremo quindi di fronte a u disegno di ricerca con

    • 1 variabile con k categorie (⇒ e quindi 1 solo campione)
    • una distribuzione di frequenza con k categorie

    Questa distribuzione di frequenze osservata nel campione la andremo a confrontare con la distribuzione teorica del chi quadro, della quale i valori sono tabulati.

    Quindi ciò che si valuta, attraverso il campione estratto dalla popolazione, è la probabilità che il modello risulti vero nella popolazione.

    Uno dei modelli sottoposti a verifica è quello dell’equidistribuzione (gli n casi del campione si distribuiscono equamente nelle k categorie, fₜ = fₒ = … fₖ).

    La tavola del χ² mi consente di definire un valore critico di χ² (oltre il quale si rifiuta l’ipotesi nulla e accetta quella sostantiva) a partire da:

    • α = regione di rifiuto di H₀
    • Gradi di libertà (gdl)

    All’incrocio fra gdl=3 e α = 0.05 si trova χ² critico, cioè quello che lascia alla sua destra il 5% di probabilità di H₀ e alla sua sinistra il 95%:

    • p(0 < χ² < 7.82) = .95
    • p(7.82 < χ² < ∞) = .05

    Vediamo ora la procedura da seguire nel caso della verifica delle ipotesi con il x2.

    1. Scelta del test statistico (di significatività):

    Si calcola χ² facendo riferimento alla distribuzione di frequenza

    2. Definizione dell’ipotesi:

    Confronta tra la dist. delle popolazioni (teorica) e quella del campione (osservata)

    • H₀: χ² = 0 → o equidistribuzione nei diversi livelli della nostra variabile categoriale
    • H₁: χ² ≠ 0 → o non equidistribuzione all’interno delle diverse categorie

    3. Fissare il livello di significatività α e calcolare i gradi di libertà:

    Si definisce la regione di rifiuto di H₀ in base a:

    • α fissato ad es. 0.05, 0.01, ecc.
    • gdl = k-1 → Si calcolano in base a k e n (vincolo dato dal totale dei casi osservati)

    Si trova così un χ² critico sulla Tavola

    4. Associare una probabilità ad H₀:

    Si associa una probabilità ad H₀, calcolando χ² per confrontare la distribuzione osservata (fₒ = dati campionari) con la distribuzione teorica (fₜ) ottenuta in base all’equidistribuzione degli n casi nelle k categorie:

    Per il calcolo del x2 posso utilizzare le seguenti 2 formule (la seconda derivata dalla prima)

    5. Decisioni su H₀: (H₀:⇒H₁)

    Il confronto avviene tra χ² e χ² critico. Se χ² < χ² critico ⇒ p > α allora

    • Accetto H₀: Posta vera l’equidistribuzione, la probabilità di ottenere una distribuzione come quella osservata è sufficientemente elevata (maggiore di α)
    • La differenza tra distribuzione teorica e osservata è imputabile al caso ⇒ L’ipotesi di equidistribuzione è probabilmente vera

    Se χ² > χ² critico ⇒ p < α allora

    • Rifiuto H₀: Posta vera l’equidistribuzione, la probabilità di ottenere una distribuzione come quella osservata è molto bassa (minore di α) ⇒ La differenza tra distribuzione teorica e osservata NON è imputabile al caso ⇒ L’ipotesi di equidistribuzione NON è probabilmente vera

    Esempio

    Lanciando un dado 120 volte si otteniene:

    • 1 esce 19
    • 2, 3 escono 21 volte
    • 4 esce 23 volte
    • 5 e 6 escono 18 volte

    Il dado è truccato? Siamo di fronte a una sola variabile con k categorie (6 possibili)

    1. Scelta del test statistico (di significatività):
    Si calcola χ² facendo riferimento alla distribuzione di frequenze che caratterizzano i nostri dati

    2. Definisco le ipotesi:
    H₀: χ² = 0 ovvero p(1) = p(2) = p(3) = p(4) = p(5) = p(6);
    H₁: χ² ≠ 0 ovvero almeno 2 probabilità siano diverse.

    3. Delineo la regione di rifiuto di H₀:
    α = .05; gdl = 6 – 1 = 5 con k = 6 (1, 2, 3, 4, 5, 6)
    Da tabelle otteniamo χ² critico = 11.07

    4. Associare una probabilità ad H₀:

    Osservare le frequenze osservate fo e le frequenze teoriche ft osservando il principio dell’equidistribuzione

    Calcoliamo ft = 120 / 6 = 20

    Infine calcoliamo la statistica test del x2

    5. Decisione su H₀ (⇒ H₁):

    χ² < χ² critico (1.00 < 11.07) ⇒ p > .05

    Quindi si accetta H0. La differenza tra distribuzione teorica e osservata è casuale. Il dado molto probabilmente non è truccato. Infatti, la probabilità di avere i risultati ottenuti supponendo vera l’equidistribuzione è molto alta.

    Verifica delle ipotesi con X2: il caso di due campioni

    In questo caso Il confronto avviene tra distribuzione teorica (popolazione) e una distribuzione osservata (nel campione) considerando due o più variabili. E quindi procederemo con un’analisi delle contigenze.

    Andando ad eseguire un’analisi delle contigenze si analizza una cosidetta “tabella doppia entrata” o di contingenza.

    Ad esempio consideriamo due variabili con due livelli

    Il problema che ci poiniamo è se le frequenze sono distribuite casualmente, oppure i caratteri sono assocaiti in modo sistematico?

    Quindi ciò che abbiamo sono

    • 2 variabili (2 o più campioni indipendenti)
    • Tabella di contingenza a doppia entrata (r = righe) x (c = colonne)

    La distribuzione teorica che useremo per il confronto è la distribuzione teorica del chi quadro.

    Si analizza una cosiddetta “tabella a doppia entrata” o di contingenza.

    Il modello sottoposto a verifica H₀ è quello di indipendenza tra le due variabili in esame. Questo modello prevede che la variabile A varii indipendentemente dalla variabile B (e viceversa), ovvero tra le due variabili non c’è relazione (H₀).

    Le fasi del processo di verifica sono le seguenti

    1. Scelta del test statistico (di significatività):

    Si calcola χ² facendo riferimento alle (due o più) distribuzioni di frequenza.

    2. Definizione delle ipotesi:

    Confronto la distribuzione teorica (indipendenza variabili) e quella osservata (dati campionari):

    • H₀: χ² = 0 ovvero p(A1|B1) = p(A1)p(B2)
    • H₁: χ² ≠ 0 ovvero p(A1|B1) ≠ p(A1)p(B2)

    3. Fissare il livello di significatività α e calcolare i gradi di libertà:

    Delineamo la regione di rifiuto H0 in base a

    • α fissato a .05, .01, ecc.
    • gdl = (r-1)(c-1) → Si calcolano in base a righe (r) e colonne (c) della tabella di contingenza.

    Si calcola χ² critico sulla Tavola.

    I gradi di libertà data da una tabella di contingenza dipendono dai vincoli posti

    • Se l’unico vincolo è costituito dal totale dei casi osservati n allora la formula è ν = (r × c) – 1
    • Se i vincoli derivano anche dai marginali di riga (r-1) e colonna (c-1)allora la formula da usare è ν = (r – 1) × (c – 1)

    Esempio del primo caso

    Esempio del secondo caso

    4. Associare una probabilità ad H₀:

    Si associa una probabilità ad H₀ calcolando χ² per confrontare la distribuzione osservata (fₒ dati campionari) con la distribuzione teorica (fₜ) ottenuta in base all’indipendenza tra le variabili.

    Ogni ft, la si ottiene dividendo il prodotto dei marginali corrispondenti alla cella in questione per il totale dei casi

    Il calcolo ci informa su quanto dovrebbero essere le frequenze teoriche per ogni cella se i due caratteri fossero indipendenti.

    Di seguito le frequenze osservate e il successivo calcolo per le frequenze teoriche

    Ad esempio data la tabella 2×2 con n=50 e i seguenti marginali di riga e colonna, ho

    Caso particolare: se i marginali di riga e colonna sono tutti uguali (tabella quadrata, per es. 2×2, 3×3, 4×4, ecc.) il calcolo delle frequenze teoriche è dato da:

    • n = totale casi osservati
    • k = numero delle celle della tabella

    Una volta ottenuta la distribuzione teorica di frequenze (ft), si procede al calcolo del χ² per confrontarla con la distribuzione osservata (fₒ = dati campionari).

    Per il calcolo del χ² posso utilizzare indifferentemente una delle due formule:

    5. Decisione su H₀ (⇒ H₁):

    Il confronto avviene tra χ² e χ² critico

    Se χ² < χ² critico (p > α):

    • Accetto H₀: Posta vera l’indipendenza, la probabilità di ottenere una distribuzione come quella osservata è maggiore di α ⇒ La differenza tra distribuzione teorica e osservata è imputabile al caso ⇒ L’ipotesi di indipendenza è probabilmente vera, quindi tra le due variabili non c’è relazione

    Se χ² > χ² critico (p < α):

    • Rifiuto H₀: Posta vera l’indipendenza, la probabilità di ottenere una distribuzione come quella osservata è minore di α ⇒ La differenza tra distribuzione teorica e osservata NON è imputabile al caso ⇒ L’ipotesi di indipendenza NON è vera ⇒ Tra le due variabili c’è una qualche relazione, ovvero c’è dipendenza.

    Esempio

    Sono stati raccolti dati relativi alle iscrizioni ad una laurea triennale di 160 studenti. Osserviamo la seguente distribuzione di frequenze:

    Prima variabile: scuola di provenienza. Seconda variabile che è la scelta di iscriversi o meno a una larea triennale

    Si vuole verificare se la scelta di iscriversi all’università è legata alla scuola di provenienza.

    La variabile indipendente è la scuola di provenienza, la dipendente la scelta di iscriversi all’università.

    1. Scelta del test statistico (di significatività):

    Si calcola χ² facendo riferimento alla distribuzione di frequenze (tabella di contingenza).

    2. Definisco le ipotesi:

    Posto che IP (istituto professionale), L (liceo) e le risposte Si e No, per le ipotesi ho

    • H₀: χ² = 0 ovvero p(Sì | IP) = p(Sì | L);
    • H₁: χ² ≠ 0 ovvero p(Sì | IP) ≠ p(Sì | L).

    3. Delineo la regione di rifiuto di H₀:

    Pongo α = .001; gdl = (2-1)(2-1) = 1 con r = 2 e c = 2. Da cui il χ² critico = 10.83

    4. Associare una probabilità ad H₀:

    Calcolo le frequenze teoriche e la statistica test χ²:

    5. Decisione su H₀ (⇒ H₁):

    χ² > χ² critico (43.8 > 10.83) ⇒ p < .05

    Quindi rifiuto H₀. La differenza tra distribuzione teorica e osservata NON è casuale. Le due variabili molto probabilmente sono dipendenti.

    Infatti la probabilità di avere i risultati ottenuti supponendo vera l’indipendenza è molto bassa.

    Tra la provenienza scolastica e la scelta di iscriversi all’università c’è relazione.

    Infine, poiché il χ² è usato con variabili discrete (non metriche) ma la distribuzione χ² è continua, si utilizza la correzione di continuità di Yates (sottrazione .5):

    Alla differenza, in valore assoluto, tra le frequenze teoriche o attese e quelle osservate viene tolta la quantità di 0.5.

    Questa correzione è necessaria quando:

    • gdl > 1 e 20% delle frequenze teoriche fₜ ≤ 5
    • gdl = 1 e 50% di fₜ ≤ 5
  • 20 Verifica delle ipotesi – il caso di due campione (2) – Campioni indipendenti, Verifica delle ipotesi sulla media con Test T, Dalla media alla verifica delle ipotesi sulla varianza

    Table of Contents

    Introduzione

    Campioni indipendenti

    Nel caso di campioni indipendenti procediamo con il test t e z. Inoltre procediamo su due campioni indipendenti estratti casualmente dalla popolazione con caratteristiche omogenee.

    Questi due campioni vengono assegnati casualmente a delle condizioni sperimentali, e questo è il caso della cosidetta “SITUAZIONE SPERIMENTALE CLASSICA” o esperimento.

    Per esperimento intendiamo

    • prendere due gruppi indipendenti, uno sottoposto a trattamento (gruppo sperimentale) e uno no (gruppo di controllo). In questo caso la nostra variabile indipendente è dicotomica (si/no) ed è manipolata.
    • oppure prendere due gruppi indipendenti, sottoposti a trattamenti diversi (gruppo sperimentale 1 gruppo sperimentale 2). In questo caso la variabile è sempre indipendente, manipolata, e verranno confrontati dopo il trattamento 1 e 2.

    In entrambi i casi viene rilevata la variabile dipendente. In questo caso l’analisi statistica sarà mirata a rilevare le differenze a livello di variabile dipendente ascrivibili alla indipendente (posta l’omogeneità dei gruppi).

    Quando si ha a che fare con due o più campioni indipendenti si parla di disegni sperimentali o quasi sperimentali tra soggetti (o between)

    Campioni dipendenti

    Nel caso invece in cui abbiamo a che fare con campioni dipendenti (o correlati), avremo un unico campione estratto casualmente dalla popolazione con caratteristiche omogenee. Ma in questo caso viene ripetuta per due volte (misure ripetute) la misurazione della variabile dipendente, sullo stesso campione.

    Quindi abbiamo che un unico gruppo viene sottoposto a due livelli della variabile indipendente. La nostra variabile indipendete è data dal “trattamento prima-dopo” (ovvero misurazione prima e dopo il trattamento). La var. indip. può essere manipolata o non manipolata.

    La rilevazione della variabile dipendente verrà effettuata due volte sullo stesso gruppo di partecipanti. In questo caso l’analisi statistica mirerà a rilevare le differenze tra le due rilevazioni, ascrivibile alla indipendente.

    Facciamo un esempio:

    Vengono estratti in modo casuale tra gli impiegati di una grande azienda 80 soggetti. Viene rilevato il loro rendimento (1° rilevazione della V. D.). Tutti quanti poi seguono un corso di aggiornamento (V. I. manipolata). Al termine dell’aggiornamento andremo a rilevare nuovamente il rendimento (2° rilevazione V. D.). Quindi abbiamo:

    • VARIABILE INDIPENDENTE (manipolata): Aggiornamento prima/dopo
    • VARIABILE DIPENDENTE: 2 Rilevazioni del rendimento di un solo gruppo

    Quando abbiamo a che fare con campioni dipendenti, si parla di disegni sperimentali entro i soggetti (o within)

    I disegni descritti per due rilevazioni possono essere estesi a k rilevazioni sugli stessi soggetti (campione).

    I disegni sperimentali possono essere misti: contenere rilevazioni entro (2 o più rilevazioni sulla stessa V.I.) e tra soggetti (per diversi campioni coinvolti: sperimentale vs. controllo).

    Verifica delle ipotesi: campioni dipendenti

    Dato un campione di ampiezza n, dal quale sono state tratte le misure xᵢ e yᵢ, possiamo calcolare la media delle differenze tra le due misure.

    Nel caso di due campionamenti dipendenti, poiché abbiamo in realtà un solo campione, estraiamo un’unica misura.

    In questo disegno di ricerca la verifica delle ipotesi si basa su una media.

    Inoltre faremo riferimento alla DISTRIBUZIONE CAMPIONARIA DELLE MEDIE che confronteremo con la Distribuzione t di Student con n-1 gradi di libertà.

    Ci troveremo quind di fronte alla non conscenza dei parametri della popolazione di riferimento (σ non note)

    Andiamo a estrarre un uncio campione con cui andremo a misurare due volte la stessa variabile dipendente.

    La variabile indipendente è dicotomica, e avremo una variabile dipendente metrica (possiamo calcolare la media).

    Infine utilizzeremo la distribuzione campionaria delle medie e la confronteremo con la distribuzione teorica di probabilità t.

    La procedura segue questi punti

    1. Scelta del test statistico (di significatività): Si calcola t facendo riferimento alla dCM (distribuzione campionaria delle medie)
    2. Definizione dell’ipotesi: Il confronto è tra le due popolazioni di riferimento (in realtà è la stessa popolazione ma prima/dopo esposizione a un certo trattamento).
      • H₀: μD = μ₂ (μ₁ – μ₂ = 0)
      • H₁: μD ≠ 0 (bidirezionale) μD > 0 oppure μD < 0 (monodirezionale)
    3. Fissare il livello di significatività α e calcolare i gradi di libertà: Si delinea la regione di rifiuto trovando un tcritico sulla Tavola. La regione di rifiuto la si trova in base a:
      • α
      • gdl = n-1 (gradi di libertà)
      • H₁ (mono/bi-direzionale)
    4. Associare una probabilità ad H₀: Si associa una probabilità ad H₀ calcolando t:

    5. Decisioni su H₀ (⇒ H₁)

    Il confronto avviene tra t e tcritico, come nel caso di un solo campione.

    Esempio (σ IGNOTE, MEDIA).

    Su 8 pazienti con attacchi di panico viene rilevata la frequenza degli attacchi mensili prima e dopo una psicoterapia breve.
    I risultati sono seguenti:

    C’è un miglioramento nella frequenza degli attacchi di panico?

    1. Scelta del test statistico (di significatività)

    Abbiamo 2 campioni dipendenti, ovvero, due misurazioni (Tempo: 1=Prima vs. 2=Dopo) della V.D. sugli stessi soggetti (n=8)

    Poi abbiamo una variabile indipendente dicotomica è il Tempo (1=Prima vs. 2=Dopo)

    Abbiamo una variabile dipendente metrica e cosiste nel Numero di attacchi di panico

    Possiamo usare DISTRIBUZIONE CAMPIONARIA DELLE MEDIE e fare confronto con DISTRIBUZIONE DI PROBABILITÀ ‘t’

    2. Definizione dell’ipotesi

    Le nostre ipotesi di ricerca sono dunque

    • H₀: μD = 0 (la media della differenza tra prima e dopo è uguale a zero, cioè non c’è differenza prima/dopo, e la terapia non ha funzionato)
    • H₁: μ1 > 0 (monodirezionale, la media della differenza tra prima e dopo è maggiore di zero, cioè c’è un decremento dopo la terapia)

    3. Fissare il livello di significatività α

    Fissiamo α = .05; H₁ = monodirezionale; gdl = 8-1 = 7.

    Si delinea la regione di rifiuto secondo α, gdl e H₁ monodirezionale, trovando un tcritico sulla Tavola.

    Qual è il valore critico? tcritico = 1.895

    4. Associare una probabilità ad H₀:

    Si procede con il calcolo di MD (media delle differenze) e sD (deviazione standard delle differenze) utilizzando le formule con i dati grezzi:

    Di contiene la differenza tra xi e yi

    Procediamo con il calcolo della statistica t

    5. Decisione su H₀ (⇒ H₁):

    Abbiamo che

    |2.23| > |1.895| ⇒ p < .05

    Si rifiuta H₀, si accetta H₁: vera l’ipotesi alternativa.

    Posto μD = 0 la probabilità di ottenere le medie osservate è minore del 5% fissato con α; ne concludo che:

    • Tra prima e dopo c’è una diminuzione significativa degli attacchi di panico.
    • I risultati suggeriscono che la terapia ha avuto l’effetto desiderato.

    Verifica delle ipotesi sulla varianza

    Se si estraggono da due popolazioni distribuite normalmente con varianze omogenee (σ₁² = σ₂²), campioni indipendenti di ampiezza n₁ e n₂, s₁² e s₂² (s varianza campione)

    In questo caso la distribuzione campionaria di riferimento sarà quella del rapporto tra varianze. E infine la distribuzione che useremo come confronto sarà la distribuzione teorica di probabilità F. Quindi dobbiamo calcolare F.

    Il calcolo di F avviene nel seguente modo

    Ci troviamo in questo disegno di ricerca se

    • ho popolazioni con σ² omogenee
    • ho 2 campioni indipendenti
    • ho una variabile dipendente metrica sulla quale estraiamo le varianze dei 2 campioni

    La distribuzione campionaria è la “distribuzione campionaria del rapporto tra varianze (dCRV)” confrontata con la distribuzione di probabilità F.

    La procedura da seguire è la seguente

    1. Scelta del test statistico (di significatività):

    Si calcola F facendo riferimento alla dCRV

    2. Definizione dell’ipotesi:

    Il confronto è tra le due popolazioni di riferimento delle quali si vuol verificare l’omogeneità delle varianze:

    • H₀: σ₁² = σ₂²
    • H₁: σ₁² ≠ σ₂²

    3. Fissare il livello di significatività α e calcolare i gradi di libertà

    Si delinea la regione di rifiuto in base a:

    • α
    • Varianza stimata maggiore e minore
    • gdl₁ = n₁ – 1 e gdl₂ = n₂ – 1 (2 gdl perchè fanno riferimento alle due varianze, quella maggiore e quella minore)

    trovando un fcritico sulla Tavola. La tavola riporta i valori di F in base a α (.05 o .01) e a gdl di varianza stimata maggiore e minore.

    Esempio:

    • α = .05 (prima riga)
    • gdl₁ = n₁ (7) – 1 = 6
    • gdl₂ = n₂ (11) – 1 = 10
    • Fcritico = F(6,10) = 3.22

    4. Associare una probabilità ad H₀

    Si associa una probabilità ad H₀ calcolando F, tenendo conto quale è la varianza campionaria maggiore (che viene messa al numeratore):

    5. Decisione su H₀ (⇒ H₁)

    Il confronto avviene tra F e Fcritico:

    • Se F < Fcritico ⇒ p > α
      Si accetta H₀ ⇒ vera l’ipotesi nulla, ovvero le varianze sono omogenee
    • Se F > Fcritico ⇒ p < α
      Si rifiuta H₀ ⇒ si accetta H₁ ⇒ vera l’ipotesi alternativa, ovvero le varianze non sono omogenee

    Esempio

    Abbiamo 2 gruppi, ognuno composto da 10 soggetti, provengono da popolazioni distribuite in modo normale.

    Dopo aver somministrato loro un test si osserva che le varianze campionarie sono s₁² = .86 e s₂² = .67.

    Le varianze delle due popolazioni sono omogenee?

    1. Scelta del test statistico (di significatività):

    Abbiamo 2 campioni indipendenti: n₁ = 10; n₂ = 10

    La VARIABILE DIPENDENTE è METRICA, che è il punteggio ad un test. Abbiamo le due varianze s₁² = .86, s₂² = .67

    La DISTRIBUZIONE CAMPIONARIA DEL RAPPORTO TRA VARIANZE la andremo a confrontare con DISTRIBUZIONE DI PROBABILITÀ “F”.

    2. Definizione dell’ipotesi:

    Le ipotesi sono le seguenti

    • H₀: σ₁² = σ₂² (le varianze sono uguali)
    • H₁: σ₁² ≠ σ₂² (le varianze sono diverse)

    3. Fissare il livello di significatività α e calcolare i gradi di libertà

    Abbiamo α = .05; i gradi di libertà gdl₁ e gdl₂ = 10 – 1 = 9

    Si delinea la regione di rifiuto secondo α e gdl (essendo gradi di libertà uguali non è necessario stabilire quale sia la varianza maggiore) trovando un Fcritico sulla Tavola.

    Quale sarà il valore critico? Fcritico = 3.18

    4. Associare una probabilità ad H₀

    Calcoliamo la statistica F:

    5. Decisione su H₀ (⇒ H₁)

    Abbiamo

    1.28 < 3.18 ⇒ p > .05

    Si accetta H₀ ⇒ è vera l’ipotesi nulla

    Posto σ₁² = σ₂², la probabilità di ottenere varianze osservate è maggiore del 5% fissato con α; ne concludo che:

    Le varianze sono omogenee.

  • 19 Verifica delle ipotesi – il caso di due campione (1) – Campioni indipendenti, Ipotesi sulla media: Test z e Test t

    Table of Contents

    Introduzione – Campioni indipendenti

    Campioni indipendenti sono campioni estratti casualmente dalla popolazione con caratteristiche omogenee.

    In questo caso l’assegnazione avviene in modo casuale, alle diverse condizioni sperimentali. Ovvero sono due gruppi indipendenti uno sottoposto a trattamento (gruppo sperimentale) e uno no (gruppo di controllo).

    Questa è definita Situazione sperimentale classica, o esperimento.

    In entrambi i casi ho una variabile Trattamento che può assumenre due livelli (si/no). Questa è una variabile indipendente e manipolata.

    Oppure potremmo avere due gruppi indipendenti sottoposti a trattamento, ma questo trattamento è diverso (esemio gruppo sperimentale 1 e gruppo sperimentale 2).

    In questo caso abbiamo due gruppi sperimentali. La variabile indipendente in questo caso sarà trattamento 1 oppure trattamento 2. Anche in questo caso avremo a che fare con una variabile indipendente e manipolata.

    In tutti i casi andremo a rilevare la variabile dipendente dopo aver fatto il trattamento. Dunque l’analisi statistica sarà mirata a rilevare le differenze nella variabile dipendente, ascrivibili alla indipendente.

    Esempio A

    Vengono estratti in modo casuale tra gli impiegati di una grande azienda 80 soggetti. Vengono casualmente assegnati a due gruppi: gruppo sperimentale (segue un corso di aggiornamento) e gruppo di controllo (nessun aggiornamento)

    Abbiamo che:

    • var indipendente (manipolata): Aggiornamento sì/no
    • var dipendente: Rilevazione del rendimento di entrambi i gruppi
    Esempio B

    Estrazione casuale tra gli impiegati di una grande azienda di 80 soggetti. Assegnazione casuale a due gruppi: gruppo sperimentale 1 (segue un corso di aggiornamento) e gruppo sperimentale 2 (viene affiancato da un impiegato con esperienza decennale)

    • var indipendente (manipolata): Aggiornamento/Affiancamento
    • var dipendente: Rilevazione del rendimento di entrambi i gruppi

    Un’altra possibilità è quella di avere campioni estratti casualmente da due sub-popolazioni con caratteristiche omogenee eccetto una, quella che li distingue (esempio maschi e femmine). In questo caso l’assegnazione NON è casuale alle diverse condizioni sperimentali.

    In questo caso avremo una SITUAZIONE SPERIMENTALE o QUASI ESPERIMENTO.

    La variabile indipendente si/no non è manipolata (il ricercatore non ha effettuato nessuna operazione sulla variabile indipendente, ha semplicemente estratto, in base a una caratteristica, due gruppi diversi).

    Non c’è invece alcuna differenza sul modo in cui andiamo a rilevare la variabile indipendete, su entrambi i gruppi in esame. E l’analisi statistica avrò lo scopo di rilevare differenze a livello di V. Dipendete ascrivibili alla V. indipendente.

    Esempio (QUASI ESPERIMENTO):

    Vengono estratti in modo casuale tra gli impiegati di una grande azienda 40 soggetti con esperienza lavorativa di meno di 5 anni (gruppo sperimentale 1) e 40 soggetti con un’esperienza lavorativa di più di 5 anni (gruppo sperimentale 2)

    • VARIABILE INDIPENDENTE (manipolata): Esperienza +5/-5
    • VARIABILE DIPENDENTE: Rilevazione del rendimento di entrambi i gruppi

    In tutti i casi citati si parla di disegni sperimentali o quasi sperimentali tra soggetti (o between).

    I disegni descritti per due campioni possono essere estesi a k campioni.

    Verifica delle ipotesi – Campioni indipendenti

    Quando confronto due gruppi (variabile indipendente), composti da diverse persone su una data misura (variabile dipendente), sto confrontando due campioni indipendenti.

    Quando la variabile dipendente è metrica, devo confrontare la media dei due campioni.

    A seconda della numerosità dei due campioni e della conoscibilità della deviazione standard delle popolazioni, devo usare tecniche diverse.

    Quando ho noti i seguenti dati

    • POPOLAZIONI CON σ NOTA
    • 2 CAMPIONI INDIPENDENTI n > 30
    • Abbiamo una variabile metrica (possiamo usare le medie)

    si ricorre all’utilizzo della distribuzione campionaria della differenza tra medie, e il confronto verrà fatto (verifica dell’ipotesi) con la distribuzione di probabilità normale.

    Vediamo i 5 passaggi da effettuare

    1. Scelta del test statistico (di significatività): Si calcola z facendo riferimento alla dCDM (distribuzione campionaria differenza tra medie)
    2. Definzione dell’ipotesi: Il confronto è tra le due popolazioni di riferimento
      • ipotesi nulla H₀: μ₁ = μ₂ (μ₁ – μ₂ = 0) la media tra le due popolazioni ci aspettiamo siano uguali
      • ipotesi alternativa H₁: μ₁ ≠ μ₂ (bidirezionale) le due medie sono diverse, oppure se monodirezionale possiamo affermare che μ₁ > μ₂, oppure μ₁ < μ₂
    3. Fissare il livello di significatività α: Si delinea la regione di rifiuto secondo α e H₁ (mono/bidirezionale) trovando uno zcritico sulla Tavola (come nel caso di un campione)
    4. Associare una probabilità ad H₀: Si associa una probabilità ad H₀, ottenendo una differenza standardizzata delle medie in oggetto

    5. Decisione su H₀ (⇒ H₁): facciamo Il confronto avviene tra z e zcritico

    • Se |z| < |zcritico| = p > α ⇒ Si accetta H₀ ⇒ è vera l’ipotesi nulla
    • Se |z| > |zcritico| = p < α ⇒ Si rifiuta H₀ ⇒ Si accetta H₁ ⇒ è vera l’ipotesi alternativa

    Nella vita reale però dobbiamo considerare che

    • Le devianze standard delle popolazioni da cui estraiamo i campioni non le conosciamo quasi mai
    • Se la misura è metrica, ed entrambi i campioni sono > 30, posso comunque utilizzare la dCDM assumendo che essa sia distribuita normalmente

    Quindi se ci troviamo nella seguente condizione

    • POPOLAZIONE CON σ IGNOTA
    • 2 CAMPIONI INDIPENDENTI n > 30
    • VARIABILE METRICA (posso usare MEDIE)

    faremo riferimento alla dCDM e la verifica dell’ipotesi avverà con la distribuzione di probabilità normale.

    I punti 1, 2, 3 e 5 sono analoghi al caso precedente con σ note. Per il punto 4 invece si associa una probabilità ad H₀, ottenendo una differenza standardizzata delle medie in oggetto → stima di σ, o s₁, o s₂

    Quindi quando abiamo campioni indipendenti con n grandi e sigma ignota, con l’utilizzo di questa formula, posso verificare l’ipotesi a partire dai soli dati campionari:

    • Si assume μ₁ – μ₂ = 0
    • σ₁ e σ₂ vengono stimati

    Questa infatti è la situazione più frequente (quasi mai si conosce i parametri della popolazione)

    Esempio (σ IGNOTA, n > 30, MEDIE)

    Seleziono in modo casuale 36 pazienti che hanno seguito per un certo periodo una terapia sperimentale e rilevo che la media dei sintomi ottenuta su una scala sintomatologica è 25.4 ± 1.7.
    Seleziono in modo casuale 40 pazienti che hanno seguito invece una terapia tradizionale, si rileva che la media dei sintomi è 24.7 ± 0.9.

    Possiamo affermare che vi sia una differenza di efficacia fra le due terapie?

    1 Scelta del test statistico (di significatività)

    Questi sono i dati di partenza

    • 2 Campioni indipendenti:
      • n₁ = 36 pazienti terapia sperimentale (n > 30)
      • n₂ = 40 pazienti terapia tradizionale (n > 30)
      • Campione 1: M₁ = 25.4, s₁ = 1.7; Campione 2: M₂ = 24.7, s₂ = 0.9
    • VARIABILE INDIPENDENTE DICOTOMICA: Tipo di terapia (tradizionale e sperimentale)
    • VARIABILE DIPENDENTE METRICA: Punteggio sintomatologia

    Possiamo fare riferimento alla dCDM e utilizzare come distribuzione teorica di riferimento la distribuzione di probabilità normale (test z di differenza fra medie)

    2. Definizione delle ipotesi:

    Per le ipotesi avremo

    • H₀: μ₁ = μ₂ (la media della popolazione dei pazienti trattati con la terapia sperimentale è uguale alla media dei pazienti sottoposti alla terapia tradizionale)
    • H₁: μ₁ ≠ μ₂ (la media della popolazione dei pazienti trattati con la terapia sperimentale è diversa dalla media dei pazienti sottoposti alla terapia tradizionale)

    Non avendo una ipotesi sulla direzione ci aspettiamo che l’ipotesi alternativa (H₁) sia BIDIREZIONALE. Poniamo α = .05

    3. Fissare il livello di significatività α:

    Nella distribuzione di probabilità della normale, per ipotesi bidirezionali, se α = .05 allora α/2 = .0250 → Area tra 0 e lo zcritico è .4750.

    L’area oltre lo zcritico deve essere minore di .0500. Si trova il valore di z sulla tavola corrispondente all’area di .4750

    zcritico = 1.96 per l’ipotesi bidirezionale (quadrante sia positivo che negativo degli assi cartesiani)

    4. Associare una probabilità ad H₀:

    Effettuiamo il calcolo della statistica z:

    Il valore z di 2.19 è superiore al valore critico 1.96

    5. Decisione su H₀ (⇒ H₁):

    Quindi abbiamo che

    |2.19| > |1.96| ⇒ p < .05

    Si rifiuta H₀ ⇒ Si accetta H₁ ⇒ Si considera falsa l’ipotesi nulla e “vera” quella alternativa.

    Posta l’uguaglianza tra μ₁ = μ, la probabilità di ottenere una differenza fra le medie almeno come quella osservata è minore del 5% fissato con α; ne concludo che:

    • Pare vi sia una differenza sistematica fra gli esiti delle due terapie.
    • La media della terapia sperimentale è significativamente più elevata di quella riscontrata nella terapia tradizionale.

    Quando invece abbiamo dei campioni indipendenti con n < 30, e i soliti parametri

    • POPOLAZIONI CON σ NON NOTE
    • VARIABILE INDIPENDENTE DICOTOMICA
    • VARIABILE DIPENDENTE METRICA (possiamo usare le MEDIE)

    possiamo usare la dCDM e fare il confronto con la distribuzione di probabilità t (test t di differenza fra medie).

    Procedendo con i soliti punti abbiamo

    1 Scelta del test statistico (di significatività)

    Si calcola t facendo riferimento alla dCDM

    2. Definizione delle ipotesi:

    Come prima il confronto è tra le due popolazioni di riferimento

    • H₀: μ₁ = μ₂ (μ₁ – μ₂ = 0)
    • H₁: μ₁ ≠ μ₂ (bidirezionale)
    • μ₁ > μ₂ oppure μ₁ < μ₂ (monodirezionale)

    3. Fissare il livello di significatività α:

    Differentemente da prima ora per delineare la regione di rifiuto dobbiamo considerare

    • α
    • gdl = n₁ + n₂ – 2 (gradi di libertà)
    • H₁ (mono/bi-direzionale)

    con questi 3 elementi possiamo trovare tcritico sulla tavola

    4. Associare una probabilità ad H₀:

    Per calcolare t (probabilità associata ad H0) si tulizza la formula

    5. Decisione su H₀ (⇒ H₁):

    Il confronto avviene tra t e tcritico come nel caso di un solo campione

    Esempio (σ IGNOTA, n > 30, MEDIE)

    Per confrontare l’efficacia di due corsi di sostegno per studenti con difficoltà, vengono scelti in modo casuale 30 studenti con problemi di apprendimento: 16 seguono il corso Esperenziale e 14 il corso Normativo.
    Il punteggio medio ad un test di rendimento è 107 ± 10 per il primo gruppo, 112 ± 8 per il secondo gruppo.

    Cosa possiamo dire?

    1 Scelta del test statistico (di significatività)

    I dati che abbiamo sono

    • Due Campioni indipendenti:
      • n₁ = 16 Gruppo Esperenziale (n < 30)
      • n₂ = 14 Gruppo Normativo (n < 30)
    • VARIABILE INDIPENDENTE DICOTOMICA: Corso (Esperenziale vs. Normativo)
    • VARIABILE DIPENDENTE METRICA: Punteggio al test (primo M₁ = 107; s₁ = 10 e poi secondo M₂ = 112; s₂ = 8)

    Possiamo usare la dCDM e la distribuzione di probabilità t

    2. Definizione delle ipotesi:

    Rispettivamente sono

    • H₀: μ₁ = μ₂ (la media degli studenti che seguono il metodo Esperenziale è uguale a quella degli studenti che seguono il metodo Normativo)
    • H₁: μ₁ ≠ μ₂ (bidirezionale, la media degli studenti che seguono il metodo Esperenziale è diversa da quella degli studenti che seguono il metodo Normativo)

    3. Fissare il livello di significatività α:

    Abbiamo bisogno di definire

    • α = .01;
    • H₁ è bidirezionale;
    • gdl = 16 + 14 – 2 = 28

    Andando a vedere sulle tavole troviamo tcritico = 2.763

    4. Associare una probabilità ad H₀:

    Procediamo con il calcolo della statistica t

    5. Decisione su H₀ (⇒ H₁):

    Abbiamo

    |1.45| < |2.76| ⇒ p > .01

    Da ciò possiamo Si accetta H₀ ⇒ Si considera “vera” l’ipotesi nulla.

    Posta l’uguaglianza tra μ₁ = μ₂, la probabilità di ottenere una differenza fra le medie almeno come quella osservata è maggiore del 1% fissato con α; ne concludo che:

    • Tra i due metodi c’è una differenza attribuibile al caso.
    • Le medie delle due popolazioni che hanno seguito il metodo Esperenziale e il metodo Normativo sono uguali.

    In altre parole, i due metodi producono gli stessi risultati.

  • 18 Verifica delle ipotesi – il caso di un campione (2) – Ipotesi sulla media: Test z e Test t

    Table of Contents

    Introduzione

    Abbiamo visto che per VERIFICARE UN’IPOTESI SULLA POPOLAZIONE occorre in ordine

    • Scelta del test statistico
    • Definizione dell’ipotesi
    • Fissare il livello di significatività
    • Associare una probabilità ad H₀
    • Prendere una decisione su H₀ (⇒H₁)

    Verifica delle ipotesi: il caso di un campione

    Nel caso di un campione

    • con una numerosità campionaria n > 30,
    • e conosciamo la media e la deviazione standard (μ e σ NOTI) della popolazione,
    • e abbiamo una variabile metrica misurata su scala a intervalli o a rapporti di cui l’indicatore di tendenza centrale è la media

    possiamo fare riferimento alla distribuzione campionaria delle medie. Con la distribuzione campionaria delle medie possiamo verificare la nostra ipotesi tramite la distribuzione di probabilità normale

    Quindi possiamo procedere nel seguente modo

    1. Scelta del test statistico (di significatività): Si calcola z facendo riferimento alla dCM (distribuzione campionaria della media)
    2. Definizione dell’ipotesi: Il confronto lo facciamo con i parametri della popolazione di riferimento
      • H₀: μₘ = μ (media campione = media popolazione)
      • H₁: μₘ ≠ μ (bidirezionale)
      • μₘ > μ oppure μₘ < μ (monodirezionale)
    3. Fissare il livello di significatività α: quindi delineare la regione di rifiuto secondo α e H₁ (monodirezionale o bidirezionale) trovando uno zcritico sulla Tavola
    4. Associare una probabilità ad H₀: Si associa una probabilità ad H₀ standardizzando la media in oggetto

    5. Decisione su H₀ (⇒ H₁): Per prendere una decisione su H0 facciamo un confronto tra z (stimato nel punto 4) e zcritico (fornito dalle tavole)

    • se | z | < | zcritico| ⇒ p > α (probabilità associata ad H0 è minore di alpha) allora Si accetta H₀ ⇒ è vera l’ipotesi nulla
    • |z| > |zcritico| ⇒ p < α ⇒ Si rifiuta H₀ ⇒ Si accetta H₁ ⇒ è vera l’ipotesi alternativa

    Esempio

    (Abbiamo μ e σ NOTI, n > 30, MEDIA)

    Sappiamo che, considerando l’intera popolazione di pazienti di un professionista negli anni precedenti, il punteggio medio dei pazienti allo STAI era 24.7 ± 1.7 (μ ± σ). Scegliendo in modo casuale 36 (n) pazienti accorsi dal professionista nell’ultimo anno, si osserva che il punteggio medio da loro ottenuto è 25.4. Possiamo inferire che i pazienti dell’anno in corso siano più ansiosi rispetto a quelli degli anni precedenti?

    Procediamo con i vari punti.

    1 Scelta del test statistico (di significatività):

    • 1 Campione con n = 36 pazienti (n > 30)
    • Variabile metrica: punteggio STAI (media relativa al campione M = 25.4; i parametri della popolazione sono invece μ = 24.7, σ = 1.7)

    La scelta del test statistico in funzione di questi elementi sarà quella di un test z, perchè faremo riferimento alla distribuzione campionaria della media, che ci permette di fare dei confronti con la distribuzione normale

    2 Definizione dell’ipotesi:

    L’ipotesi nulla H0 prevederà che μₘ sarà uguale a μ la media della popolazione, ovvero la media dell’anno corrente è uguale a quella degli anni precedenti.

    H₀: μₘ = μ

    L’ipotesi H1 prevederà che la media dei 25 pazienti sia maggiore alla media della popolazione.

    H₁: μₘ > μ

    H1 è monodirezionale destra, ovvero la media dell’anno corrente è maggiore di quella degli anni precedenti.

    3 Fissare il livello di significatività α

    Convenzionalmente alpha è uguale a .05 (probabilità del 5%)

    α = .05

    Poi si delinea la regione di rifiuto secondo α e H₁ monodirezionale destra trovando uno zcritico sulla Tavola.

    Quindi ciò che bisogna fare è rintracciare lo scostamento dalla media (valore critico) che corrisponde alla probabilità alpha, sotto un’ipotesi monodirezionale.

    Per ipotesi monodirezionali, se α = .05 ⇒ l’area tra 0 e zcritico è 0.45 (su una sola coda della distribuzione); l’area oltre lo zcritico deve essere minore di .05

    Per ipotesi monodirezionali, se α = .05 ⇒ l’area tra 0 e zcritico è .4500; l’area oltre lo zcritico deve essere minore di .0500 ⇒ 1 – α = .4500

    Da ciò si trova il valore di z sulla tavola corrispondente a questa area. zcritico = 1.65 per l’ipotesi monodirezionale destra (quadrante positivo degli assi cartesiani)

    4 Associare una probabilità ad H₀

    Ora andiamo a stimare la z della nostra distribuzione campionaria

    z = 2.5 andremo a confrontarla con lo zcritico

    5 Decisione su H₀ (⇒ H₁)

    Essendo che

    |2.5| > |1.65|

    Abbiamo una probabilità asociata ad H0 molto bassa, inferiore a 0.5

    p < .05

    Quindi si rifiuta H₀ ⇒ Si accetta H₁ ⇒ si considera falsa l’ipotesi nulla e “vera” quella alternativa.

    Posta l’uguaglianza tra μₘ = μ, la probabilità di ottenere una media come quella osservata è minore del 5% fissato con alpha. Ne concludo che

    • La media dei pazienti dell’anno corrente si discosta significativamente dalla media generale (della popolazione)
    • I 36 pazienti erano significativamente più ansiosi di quelli che si erano presentati in passato

    Nel caso invece in cui abbiamo una popolazione con la devizione standard σ non nota, 1 campione n > 30 e abbiamo una varibile metrica (media), faremo riferimento alla distribuzione campionaria delle media e ala distribuzione di probabilità normale. L’unica differenza sta nel fatto che dovremo andare a individuare σ della popolazione da σ del campione.

    Esempio

    (σ NON NOTO, n > 30, MEDIA)

    La media della popolazione in un questionario di autostima è uguale a 100. Un campione di 61 soggetti divorziati, selezionati a caso, sottoposto al test ottiene una media di 98 ± 7.5. Possiamo concludere che i divorziati hanno un’autostima più bassa rispetto alla popolazione generale?

    1 Scelta del test statistico (di significatività):

    Abbiamo 1 Campione con n = 61 pazienti (n > 30)
    La variabile è metrica: punteggio test di autostima. Conosciamo la media M = 98 e la deviazione standard S = 7.5. Infine conosciamo la μ = 100 della popolazione.

    Faremo riferimento alla DISTRIBUZIONE CAMPIONARIA DELLE MEDIE e il confronto avverrà con la DISTRIBUZIONE DI PROBABILITÀ NORMALE

    2 Definizione dell’ipotesi:

    • L’ipotesi nulla è H₀: μₘ = μ (la media della distribuzione campionaria è uguale a quella della popolazione)
    • L’ipotesi H₁: μₘ < μ (monodirezionale sinistra, ovvero la media del campione è minore di quella della popolazione)

    3 Fissare il livello di significatività α:

    Fissiamo alpha più stringente α = .01.

    Si delinea la regione di rifiuto secondo α e H₁ monodirezionale sinistra trovando uno zcritico sulla Tavola.

    Per ipotesi monodirezionali, se α = .01 ⇒ l’area tra 0 e lo zcritico è .4900 (su una sola coda della distribuzione); l’area oltre lo zcritico deve essere minore di .0100

    Quindi 1 – α = .4900. Si trova il valore di z sulla tavola corrispondente a questa area.

    zcritico = -2.33 per l’ipotesi monodirezionale sinistra (quadrante negativo degli assi cartesiani)

    4 Associare una probabilità ad H₀:

    Calcolo della statitica z

    5 Decisione su H₀ (⇒ H₁):

    Quindi abbiamo

    |2.06| < |2.33| ⇒ p > .01

    Quindi si accetta H₀ ⇒ Non posso considerare falsa l’ipotesi nulla.

    Posta l’uguaglianza tra μₘ = μ, la probabilità di ottenere una media come quella osservata è maggiore dell’1% fissato con α; ne concludo che:

    • La media dei divorziati non si discosta significativamente dalla media nella popolazione.
    • I divorziati mostrano un livello di autostima analogo a quello della popolazione.

    Vediamo ora il caso in cui abbiamo un campione di n < 30. Non conosciamo la deviazione standard σ della popolazione, e abbiamo una vaiabile metrica (possiamo usare la media).

    Ciò che cambio è n < 30.

    In questo caso possiamo sempre usare la distribuzione campionaria delle medie però dobbiamo confrontarla con distribuzione di probabilità della t (con n <30 le variabili non sono distriuite normalmente)

    1 Scelta del test statistico (di significatività):

    Si calcola t facendo riferimento alla dCM (distribuzione campionaria della media)

    2 Definizione dell’ipotesi:

    Faremo confronto con la popolazione di riferimento. Quindi abbiamo

    • H₀: μₘ = μ (media distribuzione campionaria = media popolazione)
    • H₁: μₘ ≠ μ (bidirezionale)
      oppure μₘ > μ oppure μₘ < μ (monodirezionale)

    3 Fissare il livello di significatività α e calcolare i gradi di libertà

    Per individuare la regione di riuto devo avere

    • a (alpha)
    • gdl = n -1 (gradi di libertà)
    • H1 (mono / bi direzionale)

    trovando così tcritico sulla tavola. La tavola di t riporta i valori di t in base a alpha, H1 e gdl. Consideriamo i seguenti valori e troviamo t

    • α = .01
    • H₁: bidirezionale
    • gdl = n (11) – 1 = 10
    • tcritico = 3.169

    4 Associare una probabilità ad H₀

    Si associa una probabilità ad H₀ calcolando t:

    5 Decisione su H₀ (⇒ H₁)

    Il confronto avviene tra t e tcritico

    • |t| < |tcritico| ⇒ p > α ⇒ Si accetta H₀ ⇒ è verosimile l’ipotesi nulla
    • |t| > |tcritico| ⇒ p < α ⇒ Si rifiuta H₀ ⇒ Si accetta H₁ ⇒ è plausibile l’ipotesi alternativa

    Esempio

    Vengono selezionati in modo casuale 26 pazienti narcisisti; li si intervista e si calcola il numero medio di “relazioni positive”, pari a 10 ± 3. Se la media delle “relazioni positive” fra pazienti con altre diagnosi è 12, si può affermare che il narcisismo conduce a maggiori problemi di relazione rispetto ad altre diagnosi?

    1 Scelta del test statistico (di significatività):

    Questi sono i dati a nostra disposizione

    • 1 Campione: n = 26 Narcisisti (n < 30)
    • Variabile metrica: Numero di “relazioni positive” (media M = 10, deviazione standard S = 3; il parametro di riferimento per il confronto è μ = 12)

    Useremo una distribuzione campionaria delle media. Tuttavia essendo il campione inferiore a 30 useremo per il confronto la distribuzione di probabilità t

    2 Definizione dell’ipotesi:

    Abbiamo le seguenti ipotesi

    • H₀: μₘ = μ (la media della distribuzione campionaria è uguale a quella della popolazione; cioè la media dei narcisisti è uguale a quella generale)
    • H₁: μₘ < μ (monodirezionale sinistra, cioè la media di “relazioni positive” dei narcisisti è minore di quella generale)

    3 Fissare il livello di significatività α:

    Stabiliamo α = .05; H₁ è monodirezionale; I gradi di libertà sono
    gdl = 26 – 1 = 25

    Si delinea la regione di rifiuto secondo α, gdl e H₁ monodirezionale trovando un tcritico sulla Tavola.

    Quale sarà il valore critico? tcritico = 1.71

    4 Associare una probabilità ad H₀:

    Calcolo della statistica t (σ^M = errore standard della distribuzione campionaria)

    5 Decisione su H₀ (⇒ H₁):

    Possiamo concludere che

    |3.33| > |1.71| ⇒ p < .05

    Si rifiuta H₀ ⇒ Si accetta H₁ ⇒ è plausibile l’ipotesi alternativa.

    Posta l’uguaglianza tra μₘ = μ, la probabilità di ottenere una media come quella osservata è minore del 5% fissato con α; ne concludo che:

    • La media dei narcisisti si discosta significativamente dalla media generale.
    • Si può affermare che i narcisisti soffrano di problemi più gravi di tipo relazionale rispetto ad altre diagnosi.
  • 17 Verifica delle ipotesi – il caso di un campione (1) – test binomiale

    Table of Contents

    Introduzione

    Uno degli scopi della statistica inferenziale è la verifica delle ipotesi. Questo consiste nel verificare, in termini probabilistici, se una certa affermazione relativa alla popolazione è vera basandosi sui dati campionari.

    I pasaggi da seguire sono in ordine

    • Scelta del test statistico per verificare la presenza di effetti o meno
    • Definizione dell’ipotesi di ricerca
    • Fissare il livello di significatività (delineare la regione di rifiuto H0)
    • Associare una probabilità ad H₀ (ipotesi nulla) per deteminare la sua accettazione o rifiuto
    • Prendere una decisione su H₀ (⇒ permettendoci così di accettare o rifiutare H₁)

    1 La scelta del test statistico

    Avviene in base a

    • Natura della popolazione (che definisce la distribuzione che andremo a utilizzare per confrontare i nostri dati)
    • Livello di misurazione variabile/i (nominale, ordinale, …)
    • Caratteristiche del/i campione/i (in particolare faremo riferimento al numero e al tipo del campione). Potremo avere a che fare con 1 campione, o con più campioni, dipendenti e indipendenti tra loro.

    Tutto ciò determinerà la scelta del test statistico

    2 definzione delle ipotesi

    Le ipotesi possono essere

    • H₀: IPOTESI NULLA (da falsificare)
    • H₁: IPOTESI ALTERNATIVA (da verificare). Questa può essere
      • IPOTESI SEMPLICE:
      • IPOTESI COMPOSITA: può essere monodirezionale e bidirezionale

    3 Fissare il livello di significatività

    Si tratta di fissare α, che è la probabilità prefissata di considerare H₀ falsa quando è vera (errore di 1° tipo). In questo modo si delinea la regione di rifiuto. La regione di rifiuto è definita sulla base di due elementi

    • α prefissato
    • Tipo di H₁ (mono/bidirezionale)

    4 associare una probabilità ad H₀

    Per fare ciò andremo a fare nell’ordine

    • un test statistico sulle nostre variabili: ci fornirà degli indicatori statistici per ottenere la distribuzione campionaria
    • la distribuzione campionaria ci fornirà dei valori che confronteremo con le ditribuzioni teoriche di probabilità che avremo come riferimento
    • distribuzione teoriche di probabilità

    5 Prendere una decisione su H₀

    Il quindi punto, avendo dei valori di probabilità associati ad H₀, potremo compiere una decisione su H₀, e quindi H₁.

    • Se la probabilità associata ad H₀ è maggiore di α (p > α) ⇒ Si accetta H₀
    • Se la probabilità associata ad H₀ è minore di α (p < α) ⇒ Si rifiuta H₀. Si accetta H₁

    Questo processo è valido per tutta la statistica inferenziale. Ciò che cambia, in base alla distribuzione teorica di probabilità a cui faremo riferimento, è il tipo di test statisco che faremo.

    Verifica delle ipotesi: il caso di un campione

    In questo esempio andiamo a verificare le ipotesi di un campione in cui abbiamo misurato una variabile dipendente di tipo dicotomico.

    Le due varibili di riferimento (che confronteremo con la distribuzione teorica di probabilità) in questo caso sono la frequenza f e la probabilità p. In questo caso ci troviamo di fronte a una distribuzione di tipo binomiale, e quindi la nostra verifica sarà confrontare la nostra distribuzione campionaria con la distribuzione teroica di probabilità della binomiale.

    Il test statistico che tulizzeremo è il test della binomiale, che ci permette di associare una probabilità all’evento k.

    • pk : probabilità di k
    • qn−k : probabilità che k non si verifichi

    Secondo punto, per la definizione delle ipotesi avremo che

    • H₀: p=x (nel’ipotesi nulla la probabilità di k sarà uguale a un certo valore x)
    • H₁: pxp \neq x (bidirezionale) oppure
    • p>x oppure p<x (monodirezionale)

    Terzo punto, fissare il livello di significatività α, e quindi andare a delineare la regione di rifiuto all’interno della nostra distribuzione secondo α, e secondo H₁ (a seconda se è monodirezionale o bidirezionale).

    Il quarto punto è associare una probabilità a H₀. Questo viene fatto con il test della binomiale. Si calcola la probabilità associata all’ipotesi nulla sommando tutte le p, per k che tende a n.

    ll quinto punto è prendere decisione su H0 (e quindi H1). La probabilità che si ottiene deve essere messa in relazione con la regione di rifiuto definita in base ad α

    • p > α ⇒ Si accetta H₀ ⇒ è vera l’ipotesi nulla
    • p < α ⇒ Si rifiuta H₀ ⇒ Si accetta H₁ ⇒ è vera l’ipotesi alternativa

    Esempio A

    Si ipotizza che i depressi (popolazione) preferiscano una terapia dinamica piuttosto che una terapia cognitiva. A 10 pazienti (campione) viene chiesto di scegliere fra due terapeuti dei due diversi orientamenti. Si osserva che 7 prediligono quello dinamico, e 3 quello cognitivo.
    L’ipotesi è confermata?

    (1° Punto) Per prima cosa procediamo alla scelta del test statistico. Abbiamo un campione di 10 depressi.

    La variabile è dicotomica (scelta fra dinamica o cognitiva). La frequenza è

    • 7 per la dinamica
    • 3 per la cognitiva

    Quindi ho una BINOMIALE: con n = 10, e k = 7 → 10;

    • p = 1/2 probabilità di scelta per la Dinamica
    • q=1/2 probabilità di scelta per la Cognitiva

    (2° Punto) Definizione dell’ipotesi

    H₀, ovvero la probabilità di scegliere la dinamica è definita da p(D)=.50 (50%) (ipotesi che la scelta tra le due terapie sia casuale)

    Invece H₁: p(D)>.50 (50%) (ipotesi che la scelta non sia casuale, ma si prediliga l’orientamento dinamico)

    Ci troviamo quindi di fronte a una ipotesi monodirezionale

    (3° punto) Fissare il livello significativo α

    Per affermare che l’ipotesi nulla è falsa dobbiamo ottenere una probabilità associata ad H0 che sia inferiore ad α = .05 (e che quindi cade nella regione di rifiuto)

    La regione di rifiuto è costituita dalla coda destra della distribuzione essendo H1 monodirezionale.

    (4° punto) Associare una probabilità ad H₀

    La probabilità di H₀ è data dalla somma della probabilità per gli eventi maggiore o uguale a 7 (confronto con la regione di riufto α = .05)

    p(7) + p(8) + p(9) + p(10)

    La domanda che ci dobbiamo porre è quindi “La probabilità associata ad H₀, ovvero a k >= 7, è maggiore o no al livello di alpha = 0.05?”

    la probabilità di 7 (p(7)) è circa intorno al 12%. Essendo p = .1172 maggiore di .05 è inutile proseguire il calcolo per k = 8 oppure 9 o 10

    (5° punto) Decisione su H₀ (e quindi H1)

    Abbiamo che

    p>α (.1172 > .05) ⇒ Si accetta H₀ e quindi rifiutare H1

    Data l’ipotesi che la scelta sia casuale (.50) la probabilità di avere un risultato come quello ottenuto (7 pazienti su 10 scelgono la terapia dinamica) è abbastanza elevata (più del 12%) ⇒ Il risultato ottenuto non consente di scartare l’ipotesi che la scelta tra le due terapie sia casuale. (La scelta tra i due orientamente è probabilmente dovuta al caso e non a una preferenza).

    In altre parole, i depressi non hanno preferenze verso una particolare terapia.

    Esempio B

    Dopo aver condotto un esperimento di condizionamento classico mirato a orientare le galline verso il colore blu, a 10 galline vengono mostrate due ciotole, una rossa e una blu, con il mangime. Si osserva che 9 galline su 10 si dirigono verso la ciotola blu. Il condizionamento ha avuto effetto?

    (punto 1) Scelta del test statistico (di significatività):

    • 1 Campione: 10 galline
    • Variabile dicotomica: Ciotola può essere Blu o Rosso (frequenze f assoiate al blu sono B=9; al rosso sono R=1)

    Il test è quello della BINOMIALE: n = 10; k = 9 → 10;

    • p=1/2 probabilità di Blu
    • q=1/2 probabilità di Rosso

    (punto 2) Definizione dell’ipotesi

    • Ipotesi nulla è H₀. La sua probabilità è p(B)=.50 (ipotesi che la scelta tra le due ciotole sia casuale)
    • Mentre H₁ è dato da p(B)>.50 (ipotesi che la scelta non sia casuale, ma che le galline prediligano la ciotola Blu)

    (punto 3) Fissare il livello di significatività α:

    La regione di rifiuto è costituita dalla coda destra della distribuzione assumendo H₁ monodirezionale.

    (punto 4) Associare una probabilità ad H₀ (attraverso il test binomiale):

    La p associata a H₀ è data da: p(9) + p(10) e confronto con la regione di rifiuto (α = .05)

    La probabilità associata a k ≥ 9 è maggiore o inferiore al livello di alpha = .05 ?

    • p(9) = .01
    • p(10)=.001

    La p associata ad H₀ è .011, inferiore a α

    (punto 5) Decisione su H₀ (⇒ H₁)

    Abbiamo che

    p < α (.011 < .05) ⇒ Si rifiuta H₀ ⇒ Si accetta H₁

    Data l’ipotesi (nulla) che la scelta sia casuale (.50), la probabilità di avere un risultato come quello ottenuto (9 galline su 10 scelgono la ciotola blu) è molto bassa (1%) ⇒ Il risultato ottenuto consente di scartare l’ipotesi che la scelta tra le due ciotole sia casuale.

    In altre parole, il condizionamento ha prodotto una preferenza per il colore blu.

  • 16 Verifica delle ipotesi

    Table of Contents

    Statistica inferenziale

    Sappiamo che la statistica inferenziale ha due obiettivi: la verifica delle ipotesi e dei parametri.

    • Teoria della verifica dell’ipotesi: si verifica, in termini probabilistici, se una certa affermazione relativa alla popolazione è da ritenersi vera sulla base dei dati campionari
    • Teoria della stima dei parametri: si stabilisce, in termini probabilistici, il valore numerico di uno o più parametri incogniti della popolazione a partire dai dati campionari

    Per verificare le ipotesi possiamo procedere con le seguenti fasi

    1. Formulazione Ipotesi Statistiche
    2. Estraggo un campione in modo casuale
    3. Misuro sul campione la statistica che definisce la mia ipotesi
    4. Con la STATISTICA INFERENZIALE definisco, in termini probabilistici, la validità della mia ipotesi sulla popolazione a partire dalle statistiche del campione

    Formulazione delle ipotesi

    Il primo passo da compiere per procedere alla verifica di un’ipotesi è quello della sua formulazione.

    Essa viene declinata attraverso due ipotesi:

    • H₀: ipotesi nulla (“non c’è effetto”) non ci sono differenze tra popolazione e campione, o tra due campioni
    • H₁: ipotesi alternativa, o sostantiva, o sperimentale (“qualche effetto c’è”)

    Per verificare un’ipotesi (H₁) che afferma la presenza di effetti, si assume che sia invece vera un’ipotesi contraria (H₀), che nega la presenza di effetti. Si utilizza dunque una logica falsificazionista.

    Si calcola la probabilità di osservare il valore “sperimentale” assunto come vera l’ipotesi nulla.

    Se tale probabilità è bassa si decide che H₀ è forse falsa, e H₁ è relativamente più verosimile.

    Bisogna però ricordare che H₀ può essere vera, e che noi abbiamo semplicemente sbagliato campionamento.

    Facciamo un esempio. Due diverse terapie garantiscono diversa efficacia?

    • H₀ (ipotesi nulla): non esiste una differenza tra due terapie
    • H₁ (ipotesi alternativa): esiste una differenza tra due terapie

    Si cerca di falsificare probabilisticamente l’ipotesi che non vi siano differenze (H₀) per dimostrare che la differenza c’è (H₁).

    L’ipotesi sperimentale H₁ può essere:

    • Semplice: si fissa un unico valore del parametro
    • Composta: si fissano diversi valori possibili del parametro
    • MONODIREZIONALE (una coda): prevede la direzione della differenza
    • BIDIREZIONALE (due code): non prevede direzione

    Per riassumere

    • le medie in H0 sono identiche
    • se semplice media può assumere valore 60 (valore a caso)

    Una volta definite le nostre ipotesi sappiamo che i prossimi passi sono

    • estraggo un campione in modo casuale
    • misuro sul campione la statistica che definisce la mia ipotesi
    • Con la STATISTICA INFERENZIALE definisco, in termini probabilistici, la validità della mia ipotesi sulla popolazione a partire dalle statistiche del campione

    Prendo quindi una decisione (in base alla teoria della probabilità) circa la veridicità di H₀ e H₁. Tale decisione è:

    • Sempre soggetta ad errore
    • Si assume a priori un rischio accettabile (poco probabile) di errore

    Decisione su H0

    Come faccio a prendere la mia decisione su H0 (ipotesi nulla)?

    Si calcola la probabilità associata agli eventi osservati posto che H₀ sia vera.

    • Se la probabilità è alta accetto H₀
    • Se la probabilità è bassa respingo H₀ e accetto H₁

    A questo punto dovrebbe sorgere spontanea una domanda: Come si stabilisce che la probabilità associata a H₀ è alta o bassa?
    Si definiscono dei limiti probabilistici:

    • Entro certi livelli di probabilità accetto H₀
    • Oltre certi livelli di probabilità rifiuto H₀

    Questi limiti sono dati dal livello di significatività = α. Alfa è l’area sotto la curva e:

    • definisce la regione di rifiuto di H₀: α è una probabilità e definisce la Regione della distribuzione campionaria composta dai risultati che hanno una probabilità molto bassa di essere osservati quando H₀ è vera
    • definisce la regione di accettazione di H₀: Regione della distribuzione campionaria composta dai risultati che hanno una probabilità molto alta di essere osservati quando H₀ non è vera (1 – α)

    Osserviamo le regioni di accettazione e rifiuto per ipotesi monodirezionali

    è importante ricordare che

    • L’area sotto la curva rappresenta una probabilità
    • L’asse delle ascisse rappresenta una statistica (z o t, o chi quadrato…)

    Ora osserviamo le regioni di accettazione e rifiuto per ipotesi bidirezionali

    RICORDA!

    • L’area sotto la curva rappresenta una probabilità
    • L’asse delle ascisse rappresenta una statistica (z o t, o chi quadrato…)

    Sia p il valore di probabilità calcolato per l’evento osservato:

    Regole di decisione

    Dobbiamo ricordarci che le regole di decisione sono su base probabilistica, la decisione non è mai certa.

    La decisione è sempre soggetta ad errore. Il rischio di errore che ci sentiamo di correre è rappresentato da α.

    Nello stabilire il livello di α stiamo stabilendo il rischio che siamo disposti a correre di commettere l’errore di respingere H₀ quando è vera (ovvero respingere h0 quando in realtà non dovrebbe essere respinta). Questo genere di errore si dice Errore di I° Tipo.

    Per questo motivo si tende a stabilire un valore di α basso:

    • È preferibile non affermare l’esistenza di un fenomeno se non si è probabilisticamente “sicuri” della sua presenza
    • “Andare presso” a risultati apparentemente significativi (che dipendono da eccessivo errore di campionamento) è scientificamente una perdita di tempo

    Se H₀ è vera:

    • Si può decidere di accettare H₀ = Decisione corretta
    • Si può decidere di rifiutare H₀ = Decisione scorretta (Errore di I° tipo)

    In soldoni l’errore di I° Tipo si verifica quando

    • Rifiuto H₀ quando è vera
    • Accetto H₁ quando è falsa

    Commetendo l’errore di I tipo si considera presente (vero) un effetto assente (falso) nella popolazione. La probabilità di questo errore è α:

    • α = probabilità di evidenziare un fenomeno che in realtà non esiste
    • α = probabilità di rintracciare un effetto presente solo in un campione (per errore di campionamento), ma assente nella popolazione di riferimento

    Se H₀ è falsa:

    • Si può decidere di rifiutare H₀ = Decisione corretta
    • Si può decidere di accettare H₀ = Decisione scorretta (Errore di II° tipo)

    Quindi l’ERRORE DI II° TIPO si verifica quando:

    • Accetto H₀ quando è falsa
    • Rifiuto H₁ quando è vera

    Quindi nell’errore di 2 tipo si considera assente (falso) un effetto presente (vero) nella popolazione di riferimento.

    La probabilità di questo errore è β:

    • β = probabilità di non evidenziare un fenomeno che in realtà esiste
    • β = probabilità di non rintracciare un effetto assente solo nel campione, ma in realtà presente nella popolazione di riferimento

    Purtroppo il valore di β, a differenza di quello di α, non può essere determinato.

    Sopra rappresentate le distribuzioni di h0 e h1.

    La regione di accettazione di H0 sarà dato da 1-alpha. In maniera simile la regione di acettazione di H1 sarà dato da 1-beta.

    Se α diminuisce, β aumenta. Evitare errori di I° tipo può portare ad una elevata probabilità di commettere errori di II° tipo.

    Riassumendo possiamo dire

    Potenza del test

    La potenza del test (ovvero la Capacità del test di arrivare alla decisione corretta) è la probabilità di respingere H₀ quando è vera H₁:

    La potenza del test è data da 1 – β

    La potenza del test è determinata da diversi parametri

    • ampiezza del campione (è il parametro più importante)
    • grandezza dell’effetto
    • la potenza è in parte influenzata dal tipo di analisi statistica effettuata. L’applicabilità delle tecniche di analisi dipende a sua volta da:
      • Livello di misura
      • Grandezza campione
      • Distribuzione

    Riassunto Mistral

    La verifica delle ipotesi è uno dei concetti fondamentali in statistica e psicometria, e comprendere H₀ (ipotesi nulla), H₁ (ipotesi alternativa), e gli errori di primo e secondo tipo è essenziale per interpretare correttamente i risultati di un test statistico. Provo a spiegartelo in modo chiaro e pratico.

    1. Cos’è la verifica delle ipotesi?

    È un metodo statistico per prendere decisioni su una popolazione basandosi su un campione. L’obiettivo è stabilire se c’è abbastanza evidenza nei dati per rifiutare o non rifiutare un’ipotesi predefinita (di solito l’ipotesi nulla, H₀).

    2. Le ipotesi: H₀ e H₁

    • H₀ (Ipotesi nulla):
      • Rappresenta lo status quo, l’assenza di effetto o di differenza.
      • Esempio: “Non c’è differenza tra i punteggi medi di due gruppi” o “Il trattamento non ha effetto”.
      • Presunzione di innocenza: in statistica, partiamo sempre assumendo che H₀ sia vera, fino a prova contraria.
    • H₁ (Ipotesi alternativa):
      • Rappresenta l’effetto o la differenza che vogliamo dimostrare.
      • Esempio: “C’è differenza tra i punteggi medi dei due gruppi” o “Il trattamento ha effetto”.
      • Può essere unidirezionale (es. “il punteggio del gruppo A è maggiore di quello del gruppo B”) o bidirezionale (es. “c’è differenza tra i due gruppi”).

    3. Gli errori nella verifica delle ipotesi

    Quando prendiamo una decisione (rifiutare o non rifiutare H₀), possiamo commettere due tipi di errore:

    DecisioneH₀ è veraH₀ è falsa
    Non rifiutiamo H₀CorrettoErrore di II tipo (β)
    Rifiutiamo H₀Errore di I tipo (α)Corretto

    Errore di primo tipo (α, “falso positivo”)

    • Cosa succede? Rifiutiamo H₀ quando in realtà è vera.
    • Esempio: Concludiamo che un trattamento funziona (H₁), ma in realtà non ha alcun effetto (H₀ vera).
    • Probabilità: α (livello di significatività, di solito 0.05 o 5%).
    • Controllo: Lo fissiamo a priori (es. α = 0.05). Più α è basso, meno probabile è commettere questo errore.

    Errore di secondo tipo (β, “falso negativo”)

    • Cosa succede? Non rifiutiamo H₀ quando in realtà è falsa.
    • Esempio: Concludiamo che il trattamento non funziona (H₀), ma in realtà funziona (H₁ vera).
    • Probabilità: β (dipende dalla dimensione del campione, dalla variabilità dei dati e dalla differenza reale tra le ipotesi).
    • Controllo: Aumentando la potenza statistica (1 – β) del test, riduciamo β. La potenza dipende da:
      • Dimensione del campione (più grande = più potenza).
      • Livello di significatività (α più alto = più potenza, ma anche più rischio di errore di I tipo).
      • Effetto reale (più grande è la differenza/effetto, più facile da rilevare).

    4. Relazione tra α, β e potenza

    • α e β sono inversamente correlati: se riduci α (es. da 0.05 a 0.01), β aumenta (e viceversa), a parità di altre condizioni.
    • Potenza (1 – β): Probabilità di rifiutare correttamente H₀ quando è falsa. Un test con alta potenza ha meno rischio di errore di II tipo.

    5. Esempio pratico

    Contesto: Vuoi testare se un nuovo metodo di studio migliora i punteggi di un test rispetto al metodo tradizionale.

    • H₀: “Il nuovo metodo non migliora i punteggi (differenza media = 0)”.
    • H₁: “Il nuovo metodo migliora i punteggi (differenza media > 0)”.

    Risultati possibili:

    1. Rifiuti H₀ (concludi che il metodo funziona):
      • Se H₀ era vera → Errore di I tipo (falso positivo).
      • Se H₀ era falsa → Decisione corretta.
    2. Non rifiuti H₀ (concludi che il metodo non funziona):
      • Se H₀ era vera → Decisione corretta.
      • Se H₀ era falsa → Errore di II tipo (falso negativo).

    6. Come ridurre gli errori?

    • Errore di I tipo (α): Fissare un livello di significatività rigoroso (es. α = 0.01 invece di 0.05).
    • Errore di II tipo (β): Aumentare la dimensione del campione o usare test più sensibili.
  • 15 Uso della distribuzione campionaria della media

    Table of Contents

    Uso della distribuzione campionaria della media

    Statistica inferenziale

    Abbiamo visto che nella statistica inferienziale possiamo studiare le caratteristiche della popolazione studiando le caratteristiche su un campione di interesse.

    Con la statistica inferienziale possiamo ottenere i seguenti risultati:

    • Teoria della verifica dell’ipotesi: si verifica, in termini probabilistici, se una certa affermazione relativa alla popolazione è da ritenersi vera sulla base dei dati campionari
    • Teoria della stima dei parametri: si stabilisce, in termini probabilistici, il valore numerico di uno o più parametri incogniti della popolazione a partire dai dati campionari

    Per conoscere le caratteristiche della popolazione posso procedere sequenzialmente nel seguente modo:

    1. Estraggo un campione in modo casuale
    2. Misuro la statistica (indicatore) sul campione (attraverso dei test per esempio)
    3. Con la STATISTICA INFERENZIALE definisco, in termini probabilistici, il parametro della popolazione a partire dalla statistica del campione

    Uso della distribuzione campionaria della media

    In questo processo gioca un ruolo fondamentale la distribuzione campionaria della media (dcm).

    La dcm la si ottiene calcolando la media di ciascun campione estratto da una popolazione con una sua distribuzione con μ e σ

    La media della dcm è la media delle medie, la deviazione standard si calcola con gli scarti di ciascuna media campionaria dalla media delle medie.

    La POPOLAZIONE può avere distribuzione: normale, diversa dalla normale, non nota.

    Se n>30 la distribuzione delle medie dei campioni da essa estratti è NORMALE, per qualsiasi distribuzione della variabile. Per fare le nostre inferenze sulla popolazione, partendo dai dati campionari, faremo riferimento alla normale e normale standardizzata, impiegando z. La distribuzione teorica di probabilità della normale definisce la probabilità come pari a 1 sotto la curva.

    Per esempio poniamo di aver raccolto dei dati su un campione, e di conoscere la media della popolazione infinita o grandissima da cui abbiamo tratto il campione. Se vogliamo sapere se il campione è un rappresentante più o meno probabile o strano della popolazione, possiamo ricorrere alla normale standardizzata. In questo caso, ciò che standardizziamo è la media del nostro campione, per paragonarla alla media della popolazione. L’equivalente della ds (deviazione standard) che serve per la comune standardizzazione è in questo caso il rapporto fra ds della popolazione e radice quadrata di n, vale a dire l’errore standard.

    In formule abbiamo

    La trasformazione in z, traduce una differenza fra medie dalla metrica originale (es: peso), in una nuova metrica, in cui la nuova unità di misura corrisponde all’errore standard.

    Possiamo risalire alla probabilità di osservare una discrepanza dalla media dell’entità espressa da z → Infatti, la z, segue la distribuzione normale di probabilità.

    Rispetto alle differenze fra medie nella metrica originale, la z ci aiuta a capire quanto è importante in termini probabilistici la differenza osservata.

    • Questo perché l’errore standard è un’unità di misura delle differenze più interessante rispetto alle unità di misura originarie
    • L’errore standard rappresenta l’errore medio della stima che effettuiamo calcolando la media campionaria.
    • Una differenza grande svariate volte l’errore medio della stima, è un evento poco probabile, e tutto ciò che è poco probabile è in genere molto informativo.
    Esempio uso di Z

    Poniamo di aver ottenuto su un campione di nostri pazienti (n = 19) un punteggio pari a 24.5 in un test di depressione.

    Nel campione normativo il test ha una media di 24.1 con ds = 1.7.

    Il mio campione è “strano” rispetto a quello normativo?

    Traformiamo in z la nostra media

    Andiamo i vedere i valori tabulati

    .50 – .3461 perchè dobbiamo togliere metà della curva. Il valore .1549 rappresenta una probabilità.

    Ne posso concludere che il mio campione rappresenta un caso relativamente banale e abbastanza rappresentativo della popolazione fotografata dal campione normativo. Detto in modo più tecnico, i dati possono confermare che il mio campione proviene probabilmente dalla medesima popolazione da cui è stato tratto il campione normativo.

    Distribuzione t di Student

    La distribuzione t di Student ha delle caratteristiche simili alla normale. Se n<30 la distribuzione delle medie dei campioni è del tipo t di Student. Ha le seguenti caratteristiche (simili alla normale):

    • ASINTOTICA
    • INFINITA
    • SIMMETRICA
    • UNIMODALE

    La forma della distribuzione t varia secondo la dimensione n dei campioni.

    Ciascuna distribuzione t è definita dai parametri μ, σ e v = gradi di libertà

    La t è quindi una Famiglia di distribuzioni legate al numero v = gradi di libertà (all’aumentare di v la distribuzione tende alla normale).

    Come la Z, anche la t definisce la probabilità pari a 1 sotto la curva.

    La t è una funzione delle medie del campione, della popolazione (media delle medie) e dell’errore standard in cui compaiono i gradi di libertà.

    La t è la z sono analoghe: entrambe sono trasformazioni dei punteggi grezzi, o delle medie, in un nuovo tipo di punteggio basato sullo scostamento fra medie (o punteggi).

    Come per la normale

    La curva definisce una distribuzione di probabilità ⇒ Distribuzione di probabilità t definita dall’indicatore:

    Abbiamo quindi

    A che serve quindi la t?

    Come la trasformazione in z, la trasformazione in t scala le differenze osservate secondo una nuova unità di misura data dall’errore standard. Questa nuova scala segue una distribuzione nota.

    Quindi possiamo sapere quanto è probabile osservare una data differenza. Se una differenza supera di svariate volte l’errore standard di misura ci troviamo di fronte ad una differenza improbabile, e quindi interessante e informativa.

    ESEMPIO dell’uso di t

    Poniamo di aver ottenuto su un campione di nostri pazienti (n = 19) un punteggio medio pari a 25.3 (d.s. = 1.7) in un test di depressione. Le tabelle del campione normativo suggeriscono che punteggi superiori a 25 sono da considerarsi problematici.

    Quanto è problematico il mio campione? Calcoliamo t

    Il punteggio t da noi ottenuto (0.75) è inferiore ai punteggi tcritico fissati ad un livello di probabilità pari allo 0.05 relativi ad un’ipotesi monodirezionale e bidirezionale (valori segnati in rosso nell’immagine).

    • 0.75 < 1.734
    • 0.75 < 2.101

    Dunque, il nostro campione non è così problematico. In altre parole, abbiamo un’alta probabilità (95%) che il valore della nostro campione corrisponda a quello del campione normativo.

    Intervallo di fiducia

    Nella stima dei parametri ci interessa scoprire in quale intervallo cadrà la media della popolazione dalla quale abbiamo estratto un campione. Tale intervallo, detto di fiducia, valuta la probabilità (“fiducia”) che il parametro della popolazione ha di cadere in una determinata “forchetta” di valori.

    Consideriamo un campione di anziani affetti da tre anni da demenza progressiva e osservando una X̄ = 68 al QI, quale sarà la media μ della popolazione dei pazienti sofferenti da tre anni di demenza?

    Sappiamo che possiamo fare riferimento alla normale, quindi sfruttando la prorietà della normale possiamo ricavare facilmente alcune sotto la distanza delle ascisse

    Posso affermare che in un campione casuale di n > 30 soggetti si avrà una probabilità di ottenere compreso nell’intervallo pari al:

    • 68,26% per μ ± σ
    • 95,47% per μ ± 2σ
    • 99,73% per μ ± 3σ

    Oppure posso affermare che avendo estratto un campione casuale di n > 30 soggetti con media , la probabilità che la media della popolazione μ sia compresa nell’intervallo sarà pari al:

    • 68,26% per μ ± σ
    • 95,47% per μ ± 2σ
    • 99,73% per μ ± 3σ
    Esempio

    Esempio: Dato un campione di numerosità n = 50 con X̄ = 19 e S = 1.8 (deviazione standard), qual è la media della popolazione da cui il campione è stato estratto?

    Primo passo: Stabiliamo il rischio che accettiamo di correre nel dichiarare che il parametro μ ricada nell’intervallo di valori da noi stimato.
    Di solito si accetta un rischio del 5% (probabilità pari a 0.05) o, per essere più sicuri dell’1% (probabilità pari a 0.01).

    Scegliamo il primo caso (5%), avendo dunque una fiducia al 95% (probabilità 0.95) che l’intervallo contenga μ.

    Sappiamo che la distribuzione campionaria della media si avvicina alla forma normale, ed abbiamo a disposizione una distribuzione già tabulata e cioè la distribuzione normale standardizzata (che ha μ = 0 e σ² = 1).

    Utilizzando la tavola, possiamo andare a trovare i punti z che corrispondono ad una probabilità pari ad un’area di 0.95.
    La tavola fornisce per ogni z l’area compresa tra 0 e z>0.

    Ma sappiamo che la distribuzione normale standardizzata è simmetrica, quindi dobbiamo dividere l’area in due parti uguali: 0.95/2 = 0.475.

    Nella tavola andiamo ad individuare z corrispondente all’area 0.475.

    Individuiamo sulla tavola l’area pari a .4750. Andiamo poi ad individuare il valore z corrispondente. Dall’incrocio del valore in riga (primo decimale = 1.9) e il valore in colonna (secondo decimale = .06) otteniamo una z pari a 1.96

    Dato il campione di numerosità n = 50 con X̄ = 19 e S = 1.8 andiamo a calcolare l’intervallo di fiducia al 95% per la media della popolazione. Faremo riferimento alla distribuzione normale standardizzata e all’area 95%.

    Sostituendo a z₉₅% il valore corrispondente e stimando la deviazione standard col campione (stima non distorta) si ottiene:

    Possiamo concludere che la media della popolazione sarà compresa tra:

    con una probabilità del 95%.

  • 14 Distribuzioni campionarie

    Table of Contents

    Popolazioni e campioni

    La Popolazione (o Universo) è l’insieme di tutti gli elementi a cui si rivolge il ricercatore nel fare la sua indagine. Quindi tutte le persone (o cose) che possono essere oggetto della ricerca.

    Esempi:

    • tutti i cittadini italiani aventi diritto al voto (indagini elettorali)
    • tutti i giovani dai 13 ai 18 anni (indagine sulla contraccezione)

    Definiamo inoltre:

    • Popolazioni finite: insieme finito
    • Popolazioni infinite: insieme infinito

    In entrambi i casi non è quasi mai possibile studiare l’intera popolazione, per motivi di tempi e di costi. Si deve pensare ad un sottoinsieme di n elementi della popolazione.

    Tale sottoinsieme di n<N è detto campione (n elementi che compongono il campione, N elementi che compongono la popolazione).

    Per fare in modo che il risultato ottenuto sul campione sia valido per la popolazione, occorre che il campione sia rappresentativo.

    Un campione è rappresentativo quando ha tutte le più importanti caratteristiche della popolazione da cui proviene.

    È difficile avere un campione perfettamente rappresentativo ma, se viene estratto casualmente dalla popolazione, le eventuali differenze tra popolazione e campione sono imputabili al caso e non a cause sistematiche.

    Facciamo un esempio, sondaggi elettorali. In questo caso abbiamo:

    • Popolazione di riferimento = tutti i cittadini italiani aventi diritto al voto.

    Se si intervistasserо sulle intenzioni di voto gli iscritti ad un partito, si otterrebbe un risultato distorto. Mentre invece se si intervistasserо solo i residenti in un’area geografica oppure solo i cittadini di una certa fascia d’età, si otterrebbe un risultato distorto a causa di un errore sistematico.

    Se, invece, si estraggono a caso dalle liste elettorali n<N elettori, si ottiene un campione abbastanza rappresentativo della popolazione. Gli errori sono casuali e, aumentando la numerosità del campione, tendono a ridursi (i margini d’errore sono sempre più ridotti man mano che le proiezioni si basano su un maggior numero di schede scrutinate).

    Da questo esempio possiamo concludere dicendo che il modo di campionare una popolazione è dunque importante. Il campionamento casuale è quello che, a parità di condizioni, dà maggiori garanzie che il campione sia rappresentativo.

    Esistono diverse tipologie di campionamento:

    • Campione casuale semplice: tutti gli elementi della popolazione hanno la stessa probabilità di essere estratti.
    • Con reinserimento: ad ogni successiva estrazione del campione, non cambia la popolazione di riferimento.
    • Senza reinserimento: la popolazione cambia ad ogni estrazione. È il metodo maggiormente utilizzato in psicologia (non serve far compilare lo stesso test o lo stesso questionario alle stesse persone).

    Parametri e indicatori

    Nella ricerca ciò che interessa è lo studio di una caratteristica di una popolazione (che può essere un’atteggiamento verso un problema sociale, età media degli studenti universitari, …).

    Tale caratteristica, riferita:

    • alla popolazione si definisce Parametro
    • al campione si definisce Indicatore

    L’indicatore sintetizza la caratteristica oggetto di esame nel campione (estratto dalla popolazione).

    Ciò a cui siamo interessati è quindi: che rapporto c’è tra l’Indicatore e il Parametro? La statistica inferenziale si occupa proprio della stima dei parametri attraverso gli indicatori del campione (unici valori empirici disponibili).

    A questo scopo si utilizzano le distribuzioni campionarie degli indicatori (proporzioni, medie, varianze, …) che hanno forma e caratteristiche conosciute.

    Le distribuzioni campionarie (media, proporzioni, varianza, e qualsiasi altro indicatore) assumono forme simili alle più importanti distribuzioni teoriche di probabilità (normale, t di Student, c2, F di Fisher, …).

    Di queste ultime (distribuzioni teoriche) si possono usare le proprietà e i valori tabulati. Ciascuna di esse ha, infatti, media, varianza, deviazione standard noti.

    Distribuzione campionario della media (dcm)

    La più importante distribuzione campionaria è la distribuzione campionaria della media.

    Le sue proprietà sono:

    • La media delle medie dei campioni coincide con la media della popolazione dalla quale i campioni sono stati estratti:
      μ = μ
      Nonostante ciò, non è detto che la forma delle due distribuzioni coincida, ma, mano a mano che l’ampiezza dei campioni aumenta, la media di ciascuno di essi diventa una stima sempre più precisa della media della popolazione.
    • Le due medie coincidono quando n=N, cioè quando i campioni estratti coincidono con l’intera popolazione.

    Possiamo dire allora che esiste una relazione tra:

    • variabilità della distribuzione campionaria delle medie
    • variabilità della popolazione
    • ampiezza del campione

    Tale relazione è espressa dalla formula

    σx2=σ2n\sigma_{x}^{2} = \frac{\sigma^{2}}{n}

    Dove

    • σx2\sigma_{x}^{2} è la varianza distribuzione campionaria
    • σ2\sigma^{2}è la varianza della popolazione
    • n è l’ampiezza del campione

    All’aumentare di n la variabilità della distribuzione campionaria delle medie diminuisce fino a tendere a zero.

    La forma della distribuzione campionaria delle medie non è sempre nota. Esiste però il Teorema del limite centrale che dimostra che per campioni di numerosità n>30 la distribuzione campionaria delle medie si approssima alla distribuzione normale, qualunque sia la forma della distribuzione della popolazione.

    Nella ricerca empirica di solito non si conosce la varianza della popolazione, cioè σ2 non è nota. Tuttavia è possibile calcolare la varianza della popolazione stimandola a partire dalla varianza di uno dei campioni estratti.

    Ricordiamo che:

    • σ2 è la varianza della distribuzione campionaria della media;
    • σ2 è la varianza della popolazione;
    • s2 è la varianza del campione.

    Il nostro scopo è calcolare la varianza della popolazione. Non si può calcolare σ2 = σ2/n perché, essendo σ2 riferita ad un solo campione, è una stima distorta di σ2.

    Passaggi teorici

    Si dimostra che una stima non distorta di σ2 si ha dividendo la varianza del campione per (n-1) invece che per n, cioè:

    In pratica, conoscendo s2, si possono stimare la varianza della distribuzione campionaria della media e lo scarto quadratico medio della distribuzione campionaria della media (σ).

    Chiamiamo ŝ2 la varianza stimata della popolazione e s2 la varianza di un campione. Si può dimostrare che:

    Allora la varianza della distribuzione campionaria della media sarà:

    Da ciò si rica va che

    Quindi

    È la varianza della distribuzione campionaria della media stimata a partire dalla varianza del campione.

    Esempio

    Facciamo ora un esempio di distribuzione campionaria della media. Supponiamo di avere una popolazione con media μ e varianza s2 e supponiamo di estrarre in modo casuale campioni tutti di numerosità n. Si dimostra che calcolando le medie X̄ dei campioni estratti, la distribuzione di tali medie è una normale con media μ e varianza σ2/n.

    Esempio: Consideriamo una popolazione fittizia di N=3 che assume i seguenti valori:

    • X = 5, 7, 9

    I parametri della popolazione sono:

    • μ = 7
    • σ2 = 2.66 (varianza)
    • σ = 1.63 (deviazione standard)

    Estraiamo tutti i possibili campioni di numerosità n = 2 e calcoliamo su ciascuno il valore medio x.

    Per riassumere le proprietà della distribuzione campionaria della media:

    La forma della distribuzione campionaria della media dipende dalla n (numerosità dei campioni). Se n è piccolo (numerosità scarsa) la media sarà meno precisa.

    Se si estraggono ripetuti campioni di ampiezza n da una popolazione, qualunque sia la forma della distribuzione nella popolazione,
    con l’aumento di n, la distribuzione campionaria della media tende ad avvicinarsi alla normale e può essere considerata normale per n ≥ 30.

    Uso della distribuzione campionaria della media

    La distribuzione campionaria della media (dCM) si ottiene calcolando la media di ciascun campione estratto da una popolazione con una sua distribuzione con μ e σ.

    La media della dCM è la media delle medie di tutti i campioni. La deviazione standard si calcola con gli scarti di ciascuna media campionaria dalla media delle medie.

    La POPOLAZIONE può avere dunque distribuzione:

    • Normale
    • Diversa dalla normale
    • Non nota

    Se n > 30, la distribuzione delle medie dei campioni da essa estratti è NORMALE, per qualsiasi distribuzione della variabile. Per fare le nostre inferenze sulla popolazione, partendo dai dati campionari, faremo riferimento alla normale e normale standardizzata, impiegando z.

    Se n < 30, la distribuzione delle medie dei campioni da essa estratti NON è NORMALE, per qualsiasi distribuzione della variabile.
    Per fare le nostre inferenze sulla popolazione, partendo dai dati campionari, faremo riferimento alla distribuzione teorica di probabilità t di Student, impiegando t.

    Distribuzione campionaria della differenza tra le medie

    Per fare il confronto tra due diverse popolazioni possiamo fare riferimento alla DISTRIBUZIONE CAMPIONARIA DELLA DIFFERENZA TRA MEDIE (dCDM).

    Se si estraggono da due popolazioni distribuite normalmente (con medie μ₁ e μ₂, varianze σ₁² e σ₂²) un gran numero di campioni indipendenti di ampiezza n₁ e n₂, e si calcola la differenza tra le loro medie ottengo la (dCDM)

    La dCDM è caratterizzata da:

    • una media (μM1-M2);
    • un errore standard (σM1-M2).

    Se n₁ e n₂ sono maggiori di 30, per il Teorema del limite centrale, la dCDM è normale qualunque sia la distribuzione delle popolazioni.

    La media della distribuzione campionaria della differenza tra medie è uguale alla differenza delle medie μ₁ e μ₂ delle due popolazioni:

    L’errore standard è uguale alla radice quadrata della somma delle varianze σ₁² e σ₂² delle due popolazioni fratto le rispettive ampiezze campionarie n₁ e n₂:

    Usando questo errore standard possiamo riscalare la differenza osservata fra le due medie in termini di errore standard (trasformazione in z).

    Spesso in psicologia non abbiamo la minima idea di quali siano le varianze delle popolazioni. Dobbiamo quindi stimare l’errore standard a partire dalle varianze dei campioni che abbiamo tratto dalle popolazioni.

    Se σ₁² e σ₂² non sono note, occorre stimarle a partire da s₁² e s₂² → Stima dell’errore standard