Author: padmin_23235389

  • 15 Uso della distribuzione campionaria della media

    Table of Contents

    Uso della distribuzione campionaria della media

    Statistica inferenziale

    Abbiamo visto che nella statistica inferienziale possiamo studiare le caratteristiche della popolazione studiando le caratteristiche su un campione di interesse.

    Con la statistica inferienziale possiamo ottenere i seguenti risultati:

    • Teoria della verifica dell’ipotesi: si verifica, in termini probabilistici, se una certa affermazione relativa alla popolazione è da ritenersi vera sulla base dei dati campionari
    • Teoria della stima dei parametri: si stabilisce, in termini probabilistici, il valore numerico di uno o più parametri incogniti della popolazione a partire dai dati campionari

    Per conoscere le caratteristiche della popolazione posso procedere sequenzialmente nel seguente modo:

    1. Estraggo un campione in modo casuale
    2. Misuro la statistica (indicatore) sul campione (attraverso dei test per esempio)
    3. Con la STATISTICA INFERENZIALE definisco, in termini probabilistici, il parametro della popolazione a partire dalla statistica del campione

    Uso della distribuzione campionaria della media

    In questo processo gioca un ruolo fondamentale la distribuzione campionaria della media (dcm).

    La dcm la si ottiene calcolando la media di ciascun campione estratto da una popolazione con una sua distribuzione con μ e σ

    La media della dcm è la media delle medie, la deviazione standard si calcola con gli scarti di ciascuna media campionaria dalla media delle medie.

    La POPOLAZIONE può avere distribuzione: normale, diversa dalla normale, non nota.

    Se n>30 la distribuzione delle medie dei campioni da essa estratti è NORMALE, per qualsiasi distribuzione della variabile. Per fare le nostre inferenze sulla popolazione, partendo dai dati campionari, faremo riferimento alla normale e normale standardizzata, impiegando z. La distribuzione teorica di probabilità della normale definisce la probabilità come pari a 1 sotto la curva.

    Per esempio poniamo di aver raccolto dei dati su un campione, e di conoscere la media della popolazione infinita o grandissima da cui abbiamo tratto il campione. Se vogliamo sapere se il campione è un rappresentante più o meno probabile o strano della popolazione, possiamo ricorrere alla normale standardizzata. In questo caso, ciò che standardizziamo è la media del nostro campione, per paragonarla alla media della popolazione. L’equivalente della ds (deviazione standard) che serve per la comune standardizzazione è in questo caso il rapporto fra ds della popolazione e radice quadrata di n, vale a dire l’errore standard.

    In formule abbiamo

    La trasformazione in z, traduce una differenza fra medie dalla metrica originale (es: peso), in una nuova metrica, in cui la nuova unità di misura corrisponde all’errore standard.

    Possiamo risalire alla probabilità di osservare una discrepanza dalla media dell’entità espressa da z → Infatti, la z, segue la distribuzione normale di probabilità.

    Rispetto alle differenze fra medie nella metrica originale, la z ci aiuta a capire quanto è importante in termini probabilistici la differenza osservata.

    • Questo perché l’errore standard è un’unità di misura delle differenze più interessante rispetto alle unità di misura originarie
    • L’errore standard rappresenta l’errore medio della stima che effettuiamo calcolando la media campionaria.
    • Una differenza grande svariate volte l’errore medio della stima, è un evento poco probabile, e tutto ciò che è poco probabile è in genere molto informativo.
    Esempio uso di Z

    Poniamo di aver ottenuto su un campione di nostri pazienti (n = 19) un punteggio pari a 24.5 in un test di depressione.

    Nel campione normativo il test ha una media di 24.1 con ds = 1.7.

    Il mio campione è “strano” rispetto a quello normativo?

    Traformiamo in z la nostra media

    Andiamo i vedere i valori tabulati

    .50 – .3461 perchè dobbiamo togliere metà della curva. Il valore .1549 rappresenta una probabilità.

    Ne posso concludere che il mio campione rappresenta un caso relativamente banale e abbastanza rappresentativo della popolazione fotografata dal campione normativo. Detto in modo più tecnico, i dati possono confermare che il mio campione proviene probabilmente dalla medesima popolazione da cui è stato tratto il campione normativo.

    Distribuzione t di Student

    La distribuzione t di Student ha delle caratteristiche simili alla normale. Se n<30 la distribuzione delle medie dei campioni è del tipo t di Student. Ha le seguenti caratteristiche (simili alla normale):

    • ASINTOTICA
    • INFINITA
    • SIMMETRICA
    • UNIMODALE

    La forma della distribuzione t varia secondo la dimensione n dei campioni.

    Ciascuna distribuzione t è definita dai parametri μ, σ e v = gradi di libertà

    La t è quindi una Famiglia di distribuzioni legate al numero v = gradi di libertà (all’aumentare di v la distribuzione tende alla normale).

    Come la Z, anche la t definisce la probabilità pari a 1 sotto la curva.

    La t è una funzione delle medie del campione, della popolazione (media delle medie) e dell’errore standard in cui compaiono i gradi di libertà.

    La t è la z sono analoghe: entrambe sono trasformazioni dei punteggi grezzi, o delle medie, in un nuovo tipo di punteggio basato sullo scostamento fra medie (o punteggi).

    Come per la normale

    La curva definisce una distribuzione di probabilità ⇒ Distribuzione di probabilità t definita dall’indicatore:

    Abbiamo quindi

    A che serve quindi la t?

    Come la trasformazione in z, la trasformazione in t scala le differenze osservate secondo una nuova unità di misura data dall’errore standard. Questa nuova scala segue una distribuzione nota.

    Quindi possiamo sapere quanto è probabile osservare una data differenza. Se una differenza supera di svariate volte l’errore standard di misura ci troviamo di fronte ad una differenza improbabile, e quindi interessante e informativa.

    ESEMPIO dell’uso di t

    Poniamo di aver ottenuto su un campione di nostri pazienti (n = 19) un punteggio medio pari a 25.3 (d.s. = 1.7) in un test di depressione. Le tabelle del campione normativo suggeriscono che punteggi superiori a 25 sono da considerarsi problematici.

    Quanto è problematico il mio campione? Calcoliamo t

    Il punteggio t da noi ottenuto (0.75) è inferiore ai punteggi tcritico fissati ad un livello di probabilità pari allo 0.05 relativi ad un’ipotesi monodirezionale e bidirezionale (valori segnati in rosso nell’immagine).

    • 0.75 < 1.734
    • 0.75 < 2.101

    Dunque, il nostro campione non è così problematico. In altre parole, abbiamo un’alta probabilità (95%) che il valore della nostro campione corrisponda a quello del campione normativo.

    Intervallo di fiducia

    Nella stima dei parametri ci interessa scoprire in quale intervallo cadrà la media della popolazione dalla quale abbiamo estratto un campione. Tale intervallo, detto di fiducia, valuta la probabilità (“fiducia”) che il parametro della popolazione ha di cadere in una determinata “forchetta” di valori.

    Consideriamo un campione di anziani affetti da tre anni da demenza progressiva e osservando una X̄ = 68 al QI, quale sarà la media μ della popolazione dei pazienti sofferenti da tre anni di demenza?

    Sappiamo che possiamo fare riferimento alla normale, quindi sfruttando la prorietà della normale possiamo ricavare facilmente alcune sotto la distanza delle ascisse

    Posso affermare che in un campione casuale di n > 30 soggetti si avrà una probabilità di ottenere compreso nell’intervallo pari al:

    • 68,26% per μ ± σ
    • 95,47% per μ ± 2σ
    • 99,73% per μ ± 3σ

    Oppure posso affermare che avendo estratto un campione casuale di n > 30 soggetti con media , la probabilità che la media della popolazione μ sia compresa nell’intervallo sarà pari al:

    • 68,26% per μ ± σ
    • 95,47% per μ ± 2σ
    • 99,73% per μ ± 3σ
    Esempio

    Esempio: Dato un campione di numerosità n = 50 con X̄ = 19 e S = 1.8 (deviazione standard), qual è la media della popolazione da cui il campione è stato estratto?

    Primo passo: Stabiliamo il rischio che accettiamo di correre nel dichiarare che il parametro μ ricada nell’intervallo di valori da noi stimato.
    Di solito si accetta un rischio del 5% (probabilità pari a 0.05) o, per essere più sicuri dell’1% (probabilità pari a 0.01).

    Scegliamo il primo caso (5%), avendo dunque una fiducia al 95% (probabilità 0.95) che l’intervallo contenga μ.

    Sappiamo che la distribuzione campionaria della media si avvicina alla forma normale, ed abbiamo a disposizione una distribuzione già tabulata e cioè la distribuzione normale standardizzata (che ha μ = 0 e σ² = 1).

    Utilizzando la tavola, possiamo andare a trovare i punti z che corrispondono ad una probabilità pari ad un’area di 0.95.
    La tavola fornisce per ogni z l’area compresa tra 0 e z>0.

    Ma sappiamo che la distribuzione normale standardizzata è simmetrica, quindi dobbiamo dividere l’area in due parti uguali: 0.95/2 = 0.475.

    Nella tavola andiamo ad individuare z corrispondente all’area 0.475.

    Individuiamo sulla tavola l’area pari a .4750. Andiamo poi ad individuare il valore z corrispondente. Dall’incrocio del valore in riga (primo decimale = 1.9) e il valore in colonna (secondo decimale = .06) otteniamo una z pari a 1.96

    Dato il campione di numerosità n = 50 con X̄ = 19 e S = 1.8 andiamo a calcolare l’intervallo di fiducia al 95% per la media della popolazione. Faremo riferimento alla distribuzione normale standardizzata e all’area 95%.

    Sostituendo a z₉₅% il valore corrispondente e stimando la deviazione standard col campione (stima non distorta) si ottiene:

    Possiamo concludere che la media della popolazione sarà compresa tra:

    con una probabilità del 95%.

  • 14 Distribuzioni campionarie

    Table of Contents

    Popolazioni e campioni

    La Popolazione (o Universo) è l’insieme di tutti gli elementi a cui si rivolge il ricercatore nel fare la sua indagine. Quindi tutte le persone (o cose) che possono essere oggetto della ricerca.

    Esempi:

    • tutti i cittadini italiani aventi diritto al voto (indagini elettorali)
    • tutti i giovani dai 13 ai 18 anni (indagine sulla contraccezione)

    Definiamo inoltre:

    • Popolazioni finite: insieme finito
    • Popolazioni infinite: insieme infinito

    In entrambi i casi non è quasi mai possibile studiare l’intera popolazione, per motivi di tempi e di costi. Si deve pensare ad un sottoinsieme di n elementi della popolazione.

    Tale sottoinsieme di n<N è detto campione (n elementi che compongono il campione, N elementi che compongono la popolazione).

    Per fare in modo che il risultato ottenuto sul campione sia valido per la popolazione, occorre che il campione sia rappresentativo.

    Un campione è rappresentativo quando ha tutte le più importanti caratteristiche della popolazione da cui proviene.

    È difficile avere un campione perfettamente rappresentativo ma, se viene estratto casualmente dalla popolazione, le eventuali differenze tra popolazione e campione sono imputabili al caso e non a cause sistematiche.

    Facciamo un esempio, sondaggi elettorali. In questo caso abbiamo:

    • Popolazione di riferimento = tutti i cittadini italiani aventi diritto al voto.

    Se si intervistasserо sulle intenzioni di voto gli iscritti ad un partito, si otterrebbe un risultato distorto. Mentre invece se si intervistasserо solo i residenti in un’area geografica oppure solo i cittadini di una certa fascia d’età, si otterrebbe un risultato distorto a causa di un errore sistematico.

    Se, invece, si estraggono a caso dalle liste elettorali n<N elettori, si ottiene un campione abbastanza rappresentativo della popolazione. Gli errori sono casuali e, aumentando la numerosità del campione, tendono a ridursi (i margini d’errore sono sempre più ridotti man mano che le proiezioni si basano su un maggior numero di schede scrutinate).

    Da questo esempio possiamo concludere dicendo che il modo di campionare una popolazione è dunque importante. Il campionamento casuale è quello che, a parità di condizioni, dà maggiori garanzie che il campione sia rappresentativo.

    Esistono diverse tipologie di campionamento:

    • Campione casuale semplice: tutti gli elementi della popolazione hanno la stessa probabilità di essere estratti.
    • Con reinserimento: ad ogni successiva estrazione del campione, non cambia la popolazione di riferimento.
    • Senza reinserimento: la popolazione cambia ad ogni estrazione. È il metodo maggiormente utilizzato in psicologia (non serve far compilare lo stesso test o lo stesso questionario alle stesse persone).

    Parametri e indicatori

    Nella ricerca ciò che interessa è lo studio di una caratteristica di una popolazione (che può essere un’atteggiamento verso un problema sociale, età media degli studenti universitari, …).

    Tale caratteristica, riferita:

    • alla popolazione si definisce Parametro
    • al campione si definisce Indicatore

    L’indicatore sintetizza la caratteristica oggetto di esame nel campione (estratto dalla popolazione).

    Ciò a cui siamo interessati è quindi: che rapporto c’è tra l’Indicatore e il Parametro? La statistica inferenziale si occupa proprio della stima dei parametri attraverso gli indicatori del campione (unici valori empirici disponibili).

    A questo scopo si utilizzano le distribuzioni campionarie degli indicatori (proporzioni, medie, varianze, …) che hanno forma e caratteristiche conosciute.

    Le distribuzioni campionarie (media, proporzioni, varianza, e qualsiasi altro indicatore) assumono forme simili alle più importanti distribuzioni teoriche di probabilità (normale, t di Student, c2, F di Fisher, …).

    Di queste ultime (distribuzioni teoriche) si possono usare le proprietà e i valori tabulati. Ciascuna di esse ha, infatti, media, varianza, deviazione standard noti.

    Distribuzione campionario della media (dcm)

    La più importante distribuzione campionaria è la distribuzione campionaria della media.

    Le sue proprietà sono:

    • La media delle medie dei campioni coincide con la media della popolazione dalla quale i campioni sono stati estratti:
      μ = μ
      Nonostante ciò, non è detto che la forma delle due distribuzioni coincida, ma, mano a mano che l’ampiezza dei campioni aumenta, la media di ciascuno di essi diventa una stima sempre più precisa della media della popolazione.
    • Le due medie coincidono quando n=N, cioè quando i campioni estratti coincidono con l’intera popolazione.

    Possiamo dire allora che esiste una relazione tra:

    • variabilità della distribuzione campionaria delle medie
    • variabilità della popolazione
    • ampiezza del campione

    Tale relazione è espressa dalla formula

    σx2=σ2n\sigma_{x}^{2} = \frac{\sigma^{2}}{n}

    Dove

    • σx2\sigma_{x}^{2} è la varianza distribuzione campionaria
    • σ2\sigma^{2}è la varianza della popolazione
    • n è l’ampiezza del campione

    All’aumentare di n la variabilità della distribuzione campionaria delle medie diminuisce fino a tendere a zero.

    La forma della distribuzione campionaria delle medie non è sempre nota. Esiste però il Teorema del limite centrale che dimostra che per campioni di numerosità n>30 la distribuzione campionaria delle medie si approssima alla distribuzione normale, qualunque sia la forma della distribuzione della popolazione.

    Nella ricerca empirica di solito non si conosce la varianza della popolazione, cioè σ2 non è nota. Tuttavia è possibile calcolare la varianza della popolazione stimandola a partire dalla varianza di uno dei campioni estratti.

    Ricordiamo che:

    • σ2 è la varianza della distribuzione campionaria della media;
    • σ2 è la varianza della popolazione;
    • s2 è la varianza del campione.

    Il nostro scopo è calcolare la varianza della popolazione. Non si può calcolare σ2 = σ2/n perché, essendo σ2 riferita ad un solo campione, è una stima distorta di σ2.

    Passaggi teorici

    Si dimostra che una stima non distorta di σ2 si ha dividendo la varianza del campione per (n-1) invece che per n, cioè:

    In pratica, conoscendo s2, si possono stimare la varianza della distribuzione campionaria della media e lo scarto quadratico medio della distribuzione campionaria della media (σ).

    Chiamiamo ŝ2 la varianza stimata della popolazione e s2 la varianza di un campione. Si può dimostrare che:

    Allora la varianza della distribuzione campionaria della media sarà:

    Da ciò si rica va che

    Quindi

    È la varianza della distribuzione campionaria della media stimata a partire dalla varianza del campione.

    Esempio

    Facciamo ora un esempio di distribuzione campionaria della media. Supponiamo di avere una popolazione con media μ e varianza s2 e supponiamo di estrarre in modo casuale campioni tutti di numerosità n. Si dimostra che calcolando le medie X̄ dei campioni estratti, la distribuzione di tali medie è una normale con media μ e varianza σ2/n.

    Esempio: Consideriamo una popolazione fittizia di N=3 che assume i seguenti valori:

    • X = 5, 7, 9

    I parametri della popolazione sono:

    • μ = 7
    • σ2 = 2.66 (varianza)
    • σ = 1.63 (deviazione standard)

    Estraiamo tutti i possibili campioni di numerosità n = 2 e calcoliamo su ciascuno il valore medio x.

    Per riassumere le proprietà della distribuzione campionaria della media:

    La forma della distribuzione campionaria della media dipende dalla n (numerosità dei campioni). Se n è piccolo (numerosità scarsa) la media sarà meno precisa.

    Se si estraggono ripetuti campioni di ampiezza n da una popolazione, qualunque sia la forma della distribuzione nella popolazione,
    con l’aumento di n, la distribuzione campionaria della media tende ad avvicinarsi alla normale e può essere considerata normale per n ≥ 30.

    Uso della distribuzione campionaria della media

    La distribuzione campionaria della media (dCM) si ottiene calcolando la media di ciascun campione estratto da una popolazione con una sua distribuzione con μ e σ.

    La media della dCM è la media delle medie di tutti i campioni. La deviazione standard si calcola con gli scarti di ciascuna media campionaria dalla media delle medie.

    La POPOLAZIONE può avere dunque distribuzione:

    • Normale
    • Diversa dalla normale
    • Non nota

    Se n > 30, la distribuzione delle medie dei campioni da essa estratti è NORMALE, per qualsiasi distribuzione della variabile. Per fare le nostre inferenze sulla popolazione, partendo dai dati campionari, faremo riferimento alla normale e normale standardizzata, impiegando z.

    Se n < 30, la distribuzione delle medie dei campioni da essa estratti NON è NORMALE, per qualsiasi distribuzione della variabile.
    Per fare le nostre inferenze sulla popolazione, partendo dai dati campionari, faremo riferimento alla distribuzione teorica di probabilità t di Student, impiegando t.

    Distribuzione campionaria della differenza tra le medie

    Per fare il confronto tra due diverse popolazioni possiamo fare riferimento alla DISTRIBUZIONE CAMPIONARIA DELLA DIFFERENZA TRA MEDIE (dCDM).

    Se si estraggono da due popolazioni distribuite normalmente (con medie μ₁ e μ₂, varianze σ₁² e σ₂²) un gran numero di campioni indipendenti di ampiezza n₁ e n₂, e si calcola la differenza tra le loro medie ottengo la (dCDM)

    La dCDM è caratterizzata da:

    • una media (μM1-M2);
    • un errore standard (σM1-M2).

    Se n₁ e n₂ sono maggiori di 30, per il Teorema del limite centrale, la dCDM è normale qualunque sia la distribuzione delle popolazioni.

    La media della distribuzione campionaria della differenza tra medie è uguale alla differenza delle medie μ₁ e μ₂ delle due popolazioni:

    L’errore standard è uguale alla radice quadrata della somma delle varianze σ₁² e σ₂² delle due popolazioni fratto le rispettive ampiezze campionarie n₁ e n₂:

    Usando questo errore standard possiamo riscalare la differenza osservata fra le due medie in termini di errore standard (trasformazione in z).

    Spesso in psicologia non abbiamo la minima idea di quali siano le varianze delle popolazioni. Dobbiamo quindi stimare l’errore standard a partire dalle varianze dei campioni che abbiamo tratto dalle popolazioni.

    Se σ₁² e σ₂² non sono note, occorre stimarle a partire da s₁² e s₂² → Stima dell’errore standard

  • 13 Distribuzione di probabilità (seconda parte)

    Table of Contents

    Distribuzione di probabilità

    I possibili risultati di un esperimento costituiscono uno spazio campionario di n eventi. A ciascun evento possiamo associare la probabilità del suo verificarsi.

    La distribuzione di probabilità ci offre la posibilità di definire tutti i possibili risultati e le corrispondenti probabilità.

    Gradi di libertà (gdl)

    I gradi di libertà sono quante cose puoi scegliere liberamente, dopo aver rispettato i vincoli.

    Immagina di avere dei numeri che devono soddisfare una regola.

    • Se non ci sono vincoli, puoi scegliere tutti i valori liberamente → tanti gradi di libertà.
    • Se ci sono vincoli, ogni vincolo “toglie libertà” → meno gradi di libertà.

    Esempio ho 3 numeri che devono sommare a 10.

    • Puoi scegliere liberamente i primi due (es. 3 e 4)
    • Il terzo è obbligato (deve essere 3 per arrivare a 10)

    Quindi: 3 numeri – 1 vincolo = 2 gradi di libertà

    Consideriamo N osservazioni tutte indipendenti, ognuna libera di assumere qualsiasi valore, in questo caso i gdl sono N.

    Tuttavia, se vengono imposti dei vincoli, per esempio che la somma = 20, allora i gdl diventano N-1 vincolo. Per cui, se N=5, gdl saranno 5-1, cioè 4.

    In generale, i gradi di libertà sono il numero di elementi liberi di variare – il numero di vincoli.

    Distribuzione chi quadro χ²

    La distribuzione chi-quadro serve per misurare “quanto i dati osservati si discostano da quelli attesi”.

    Hai sempre due cose:

    • frequenze osservate (quello che vedi nei dati)
    • frequenze attese (quello che ti aspetteresti se non ci fosse effetto)

    La chi-quadro misura quanto sono grandi le differenze tra queste due. Come interpretare il dato:

    • χ² piccolo → osservato ≈ atteso → nessuna differenza importante
    • χ² grande → osservato ≠ atteso → c’è una differenza significativa

    È una distribuzione di valori al quadrato e viene quindi definita solo sul semiasse positivo da 0 a +∞ nel seguente modo:

    Dove μ e σ² sono media e varianza di una variabile normale casuale e ν (n in greco) è l’unico parametro che varia e corrisponde all’ampiezza del campione (numero di prove).

    Data una distribuzione normale standardizzata (μ=0; σ=1) ho la seguente relazione con i punti z.

    Se prendo dei valori standardizzati (cioè punti z) e li elevo al quadrato, ottieni una distribuzione chi-quadro.

    χ2=z12+z22++zk2\chi^2 = z_1^2 + z_2^2 + \dots + z_k^2

    All’aumentare di v=n (numero degli elementi del campione) ottengo le seguenti curve.

    La curva:

    • è una funzione continua che va da 0 a ∞ (entro il quadrante positivo degli assi cartesiani)
    • La forma dipende da ν (al crescere dei gradi di libertà tende alla simmetria)
    • Si usa la curva per calcolare la probabilità associata ai valori di χ² (porzioni di area), sapendo che la probabilità totale è 1, ovvero

    La distribuzione chi-quadro è la somma dei quadrati di valori indipendenti di una variabile normale standardizzata. Se tali valori NON sono indipendenti, bisogna stabilire quanti sono i vincoli che li condizionano. Se vi sono vincoli, il parametro ν della distribuzione, quindi, non coincide con il numero effettivo dei valori che generano la distribuzione. In questi casi esso coincide con i gradi di libertà (gdl) ossia con il numero dei valori veramente indipendenti che generano la distribuzione.

    Facciamo un esempio, i gradi di libertà sono dati dal numero di valori liberi di variare entro un’equazione n₁ + n₂ + n₃ = N con k=3 (n* addendi)

    • Se N non è fisso, tutti gli addendi sono liberi di variare: ν = k
    • Se N è fisso, tutti gli addendi sono liberi di variare meno uno: ν = k – 1
    Esempio

    Esempio: n₁ + n₂ + n₃ = 20 → gdl = k – 1 = 3 – 1 = 2. Infatti, due sono gli addendi liberi di variare, il terzo è vincolato al totale che deve essere 20

    Se considero 10+9 per arrivare a 20 il terzo addendo è vincolato e vale per forza 1. Nella seconda riga 8+3+9 il terzo addendo 9 è vincolato se la somma è 20. Lo stesso dicasi anche per la terza riga. (fine esempio)

    Anche nel caso di questa distribuzione è possibile calcolare l’area sotto la curva. I valori sono stati tabulati per proporzioni di area di probabilità e gdl.

    • le righe corrispondono ai gdl
    • le colonne a diverse aree di probabilità cumulate (P) prefissate.

    All’incrocio di riga x colonna viene riportato il valore del χ² corrispondente.

    Esempio

    Ad esempio: ho gdl = 3 e la proporzione di area di prob. che ci interessa = 0.05

    All’incrocio fra gdl=3 e area 0.05 si trova χ² critico, cioè quello che lascia alla sua destra il 5% dei casi e alla sua sinistra il 95%. Ciò vuol dire che, estraendo a caso un campione di n=3, e calcolando il χ² critico, si ha una probabilità P(χ² > 7.82) = 0.05

    7.82 è il valore soglia (χ² critico) e ciò vuol dire che se i dati fossero dovuti al caso, solo il 5% delle volte otterresti un valore di χ² maggiore di 7.82

    Immagina di ripetere l’esperimento tantissime volte:

    • nel 95% dei casi → χ² sarà ≤ 7.82
    • nel 5% dei casi → χ² sarà > 7.82

    👉 Quindi 7.82 separa:

    • zona “normale” (sinistra)
    • zona “rara” (destra)

    Nei casi reali calcolo il χ² dai dati (esempio: 6 oppure 10) e poi lo confronti con 7.82

    Caso 1: χ² = 6 → più piccolo di 7.82 👉 risultato normale → non significativo

    Caso 2: χ² = 10 → più grande di 7.82 👉 risultato raro → significativo

    Nella pratica tale procedimento è utile nella verifica delle ipotesi.

    Pearson dimostra che considerando una distribuzione di frequenza con f0 (frequenze osservate), ft (frequenze teoriche) e k (numero categorie della istribuzione) abbiamo che

    Ogni volta si debba confrontare una distribuzione teorica e una osservata si può fare riferimento alla distribuzione teorica di probabilità del χ².

    Disponendo di una distribuzione di frequenza è possibile usare il χ² per la VERIFICA DELL’IPOTESI.

    (Prevalentemente il χ² si usa quando si hanno variabili su scala non metriche)

    Distribuzione F di Fisher

    La distribuzione F serve per confrontare due variabilità (varianze). In altre parole mi dice se due gruppi sono diversi davvero oppure se la differenza è solo casuale.

    Esempio: Ho 3 classi con risultati di un test:

    • se i punteggi medi sono simili → F piccolo
    • se una classe è molto diversa → F grande

    La distribuzione teorica F di Fisher (o Snedecor) è definita dal rapporto tra χ² indipendenti.

    Da questa distribuzione possiamo ottenere delle famiglia di distribuzioni che variano al variare dei parametri ν1 e ν2.

    La forma della funzione di Fiscer dipende da ν1 e ν2. Inoltre la funzione è continua, che va da 0 a ∞ (entro il quadrante positivo degli assi cartesiani).

    Si usa la curva per calcolare la probabilità associata ai valori di F (porzioni di area), sapendo che:

    La curva definisce una distribuzione di probabilità, e tale distribuzione F è definita da:

    Anche le distribuzioni F sono tabulate.

    È possibile, fissati i due parametri ν1 e ν2​, conoscere il valore F in corrispondenza alle probabilità p=.05 e p=.01

    Nella tavola, all’incrocio delle coppie ν1​, ν2 si trovano due valori: sopra gli F critici allo 0.05 e sotto allo 0.01.

    Esempio

    Per esempio voglio stimare il valore di un F critico, alla probabilità di 0.05 e 0.01, per due chi quadrati con gradi di libertà 5 (per il primo) e 10 (per il secondo). Incrociando come si vede nell’immagine si vedono due righe, la prima riga relativa a F 0.05, la seconda a F 0.01.

    Ciò vuol dire che la probabilità di avere un valore F ≥ 4.74 è uguale a 0.05 e che la probabilità di avere un valore F ≥ 10.05 è uguale a 0.01.

    Distribuzione t di Student

    Se avessimo campioni enormi (es. N > 100), useremmo quasi sempre la distribuzione Normale. Ma in psicologia spesso lavoriamo con gruppi piccoli (es. 20 persone che seguono un trattamento).

    Quando il campione è piccolo, non conosciamo la vera deviazione standard della popolazione e dobbiamo stimarla partendo dai dati del campione. Questa stima introduce un’incertezza extra. La distribuzione t è stata “inventata” proprio per correggere questa incertezza.

    Se n < 30, la distribuzione delle medie dei campioni è del tipo t di Student. Questa distribuzione ha le seguenti caratteristiche (in modo simile alla normale):

    • Infinità (da meno a più infinito)
    • Simmetrica (rispetto al valore centrale)
    • Unimodale (media moda e mediana corrispondono)
    • Asintotica (non tocca ma l’asse ascisse)

    Rispetto alla normale la varianza sarà maggiore. Questo perchè n < 30 (campioni piccoli) e quindi maggiore dispersione. Inoltre la curva sarà più appiattita e code più lunghe (ad esempio la porzione di area compresa tra ±1σ dalla media sarà minore del 68%)

    La forma della distribuzione t di Student varia secondo la dimensione n dei campioni. Questo è il parametro che la fa variare.

    Ciascuna distribuzione t è definita dai parametri μ (media), σ (deviazione standard) e ν = gradi di libertà.

    La t è quindi una famiglia di distribuzioni legate al numero di ν = gradi di libertà (all’aumentare di ν la distribuzione tende alla normale).

    Come per la normale abbiamo:

    Inoltre la curva definisce una distribuzione di probabilità, e nello specifico tale distribuzione di probabilità t è definita dall’indicatore:

    t=Xμsnt = \frac{\bar{X} – \mu}{\frac{s}{\sqrt{n}}}

    Abbiamo che

    • Il numeratore rappresenta la differenza pura tra quello che hai osservato nel tuo esperimento e quello che ci si aspetterebbe teoricamente. Più questa differenza è grande, più il valore di t cresce.
    • al denominatore, poiché non conosciamo la vera variabilità della popolazione, usiamo la deviazione standard del campione (s) corretta per la numerosità del campione (n).

    Anche per questa distribuzione abbiamo delle tavole. In questo caso le righe corrispondono ai gradi di libertà (gdl) e le colonne a diverse aree di probabilità prefissate. Inoltre, nelle tabelle appaiono due diciture:

    • Ipotesi monodirezionale → questo sta ad indicare che il valore p, al quale noi facciamo riferimento, riguarda un’unica estremità della curva (a una coda)
    • Ipotesi bidirezionale → in qiesto caso il valore p è equamente diviso nelle due estremità della curva (a due code)

    Ad esempio:

    • p=0.05 a una coda
    • p=0.05 a due code

    (Nell’immagine è mostrato un esempio di tavola con tcritico=2.015 per ipotesi monodirezionale, e tcritico=2.571 per ipotesi bidirezionale con gdl = 5).

  • 12 Distribuzioni di Probabilità (prima parte)

    Table of Contents

    Distribuzione di probabilità

    Una DISTRIBUZIONE DI PROBABILITÀ è definita da tutti i possibili risultati di un esperimento e le corrispondenti probabilità

    Distribuzione binomiale

    Quando ciascun evento semplice può avere soltanto due possibili risultati mutuamente escludentisi (per es. testa o croce; vero o falso; ecc.) dalla loro combinazione (ripetendo le prove) si ottengono eventi composti indipendenti ai quali è possibile associare la probabilità del loro verificarsi.

    La distribuzione teorica di probabilità assume una forma ben precisa che si chiama BINOMIALE con equazione:

    con:

    • p(k) = probabilità associata a kk eventi favorevoli in nn prove
    • nn = numero delle prove
    • k = numero degli eventi favorevoli (successi) che va da 0 a n
    • pp = probabilità associata al successo, singolo evento
    • qq = probabilità associata all’insuccesso
    • (nk)\binom{n}{k} = coefficiente binomiale

    dove n! è n fattoriale, ovvero il prodotto degli interi positivi da n a 1. Per il calcolo, occorre moltiplicare nnn per tutti i numeri interi che lo precedono:

    Esempio

    Se a k si fanno assumere tutti i valori da 0 a n, allora le probabilità associate sono

    Per esempio se a k si fanno assumere tutti i valori da 0 a 10, allora le probabilità associate sono

    La somma di tutte le probabilità ottenute con 0 <= k <= 10 è uguale a 1. Inoltre le probabilità così calcolate definiscono una distribuzione di probabilità binomiale che ha la caratteristica di essere discreta e simmetrica (intorno al valore massimo).

    Le distribuzioni binomiali sono già tabulate, cioè vengono fornite le probabilità di verificarsi di evento/i per determinati p e n.

    Vediamo alcune proprietà

    • Se p = q = 0.50 la distribuzione è simmetrica
    • Se p ≠ q ≠ 0.50 la distribuzione è asimmetrica:
      • Se p < 0.50 è asimmetrica positiva.
      • Se p > 0.50 è asimmetrica negativa.

    Aumentando n (il numero delle prove) la distribuzione tende alla simmetria qualsiasi sia p ≠ 0.50.

    Esempio

    Un test è composto da 10 domande con risposta vero/falso/non so. Quali sono le probabilità associate ai possibili risultati? Quindi ho

    • n = 10 eventi possibili.
    • k = 0 … 10 eventi favorevoli.
    • n−k = 0 … 10 eventi non favorevoli.
    • p=1/3 probabilità di successo.
    • q=2/3 probabilità di insuccesso.

    Se a k si fanno assumere tutti i valori da 0 a 10 si calcolano le relative probabilità:

    La somma di tutte le probabilità al variare di k da 0 a 10 è uguale a 1.

    Relazione tra binomiale e normale

    Facciamo l’esempio del lancio della moneta. k = “risultato testa” con
    p = .05. Aumentando i lanci abbiamo che la distribuzione assume una forma simmetrica

    Distribuzione binomiale proprietà

    La distribuzione di probabilità binomiale ha una media, una varianza e una devianza standard:

    • μ=np (media )
    • σ2=npq (varianza)
    • σ (deviazione standard)

    Faciamo qualche esempio

    Distribuzione normale (Ripetizione ????)

    La distribuzione normale è importante poichè molti dei fenomi che si possono studiare si assimilano alla normale, tendono ad avere una forma normale. La distribuzione normale è rappresentata da una curva continua a forma di campana (gaussiana).

    È definita dalla seguente equazione

    Soddisfa le seguenti caratteristiche:

    • INFINITA: va da -∞ a +∞
    • SIMMETRICA rispetto alla YY massima (f(x)f(x) punto più alto se x=μx = \mu)
    • UNIMODALE: (μ=Mo=Me\mu = Mo = Me) media moda e mediana si equivalgono
    • ASINTOTICA: si avvicina all’asse delle XX senza mai toccarlo, se non ai valori di ascissa -∞ e +∞ che non sono rappresentabili.
    • CRESCENTE per -∞ < xx < μ\mu e DECRESCENTE per μ\mu < xx < +∞ → due punti di flesso a ± σ\sigma da μ\mu.

    La curva normale è interamente definita dai parametri μ\mu (media) e σ\sigma (deviazione standard). Di seguito qualche esempio di famiglia di distribuzioni normali con medie e deviazioni standard diverse.

    Inoltre sappiamo anche che qualsiasi siano i parametri μ\mu e σ\sigma, l’area sottesa dall’intera curva è = 1. Il valore 1 è un simbolo che rappresenta il fatto che sotto la curva si trova il 100% degli individui (frequenze) rappresentati dalla variabile.

    La porzione di curva delimitata dalla media (come ascissa) e un’ordinata espressa in termini di deviazioni standard è costante:

    • μ+3σ\mu + 3\sigma = 49.86% della distribuzione
    • μ+σ\mu + \sigma = 34.13% della distribuzione
    • μ+2σ\mu + 2\sigma = 47.73% della distribuzione

    Conoscendo μ\mu e σ\sigma, possiamo stimare f(x)f(x) e l’area compresa tra due qualsiasi valori di xx.

    Poiché la curva è simmetrica, l’area compresa tra -∞ e μ\mu è uguale a 0.50 come quella compresa tra μ\mu e +∞. In altre parole, sopra la media ci sono il 50% dei casi, come sotto la media.

    Qualunque siano i valori di μ\mu e σ\sigma, l’area corrispondente a intervalli definiti è sempre la stessa → Porzioni della distribuzione compresse tra ± 1, 2, 3 σ\sigma da μ\mu (in %).

    L’uso pratico di questa distribuzione è rappresentata dall’utilizzo della distribuzione normale stardardizzata. In pratica si tratta di convertire i punteggi di x in punteggi z.

    E attraverso le tavole Z possiamo andare a conoscere determinate aree riferiti a specifici valori Z.

  • 11 Probabilità (seconda parte)

    Table of Contents

    Probabilità

    Dati due eventi (evento A e evento B), possono verificarsi:

    • l’uno o l’altro (A ∪ B)
    • entrambi:(A ∩ B)

    A e B si dicono mutuamente escludentisi (o incompatibili) se A ∪ B = 0

    Se A e B sono mutuamente escludentisi allora:

    • non possono verificarsi contemporaneamente
    • non hanno elementi in comune

    Esempio eventi escludentisi:

    • Nel lancio di un dado: l’evento “numero pari” e l’evento “numero dispari” sono escludentisi
    • Nell’estrazione di una carta da un mazzo di 40: l’evento “carta di cuori” e l’evento “carta di fiori” sono escludentisi

    A e B sono non mutuamente escludentisi (o compatibili) se:A ∩ B ≠ ∅

    Se A e B sono non mutuamente escludentisi:

    • possono verificarsi contemporaneamente (il verificarsi dell’uno NON esclude il verificarsi dell’altro)
    • hanno elementi in comune

    Esempio eventi non mutuamente escludentisi:

    • Nel lancio di un dado: l’evento “numero pari” e l’evento “numero maggiore o uguale a 4”.
    • Nell’estrazione di una carta da un mazzo di 40: l’evento “carta di fiori” e l’evento “figura”

    La probabilità di A ∪ B (verificarsi disgiunto di A e B) deve essere calcolata stabilendo se gli eventi sono mutuamente escudentisi oppure non mutuamente escudentisi

    Principio della somma

    Dati due eventi A e B mutuamente escludentisi, la probabilità del verificarsi del due eventi è uguale alla somma delle probabilità del verificarsi dei singoli eventi:

    p(A ∪ B) = p(A) + p(B)

    Esempio 1: Lanciando un dado

    Quale è la probabilità che si ottenga 6 oppure 2? Gli eventi “6” e “2” sono mutuamente escludentisi (il verificarsi dell’uno esclude il verificarsi dell’altro)

    p(2 ∪ 6) = p(2) + p(6) = 1/6 + 1/6 = 1/3 ≈ 0.33

    Esempio 2

    Quale è la probabilità di estrarre a caso un re di fiori oppure un fante di cuori da un mazzo di carte di 40? Gli eventi “R♠” e “F♡” sono mutuamente escludentisi (il verificarsi dell’uno esclude il verificarsi dell’altro)

    p(R ∪ F) = p(R) + p(F) = 1/40 + 1/40 = 1/20 = 0.05

    Dati tre eventi A, B e C mutuamente escludentisi abbiamo che:

    p(A ∪ B ∪ C) = p(A) + p(B) + p(C)

    Dati k eventi mutuamente escludentisi:

    p(A ∪ B ∪ … ∪ K) = p(A) + p(B) + … + p(K)

    Esempio calcolo per eventi non mutamente escludentisi

    Lanciando un dado, quale è la probabilità che si ottenga un numero minore di 3 oppure un numero dispari? Gli eventi “3” e “dispari” NON sono mutuamente escludentisi

    Quindi abbiamo

    La probabilità di “1” viene conteggiata due volte, una si toglie

    Eventi dipendenti o indipendenti

    Dati due eventi (evento A e evento B), può accadere che l’uno NON influenza il verificarsi dell’altro, oppure che l’uno influenza il verificarsi dell’altro.

    A e B si dicono indipendenti se il verificarsi di A NON influisce sul verificarsi di B. Questo comporta che sapere che A si è verificato non dà informazioni sul verificarsi di B (A non modifica il verificarsi di B).

    ESEMPIO

    Due estrazioni di una carta da un mazzo RIMETTENDO la 1° carta estratta nel mazzo:

    Evento “A = 1° estrazione” e evento “B = 2° estrazione” sono indipendenti, ovvero il risultato ottenuto con la 1° estrazione NON modifica la probabilità associata al risultato della seconda.

    A e B si dicono dipendenti se il verificarsi di A influisce sul verificarsi di B. Sapere che A si è verificato dà informazioni sul verificarsi di B (o modifica il verificarsi di B)

    Esempio

    Due estrazioni di una carta da un mazzo SENZA RI METTERE la 1° carta estratta nel mazzo:

    Evento “A = 1° estrazione” e evento “B = 2° estrazione” sono dipendenti

    il risultato ottenuto con la 1° estrazione modifica la probabilità associata al risultato della seconda.

    Esempio estrazione carta

    Dato un mazzo di carte da 40 sia evento “A = un asso alla 1° estrazione”; “evento B = un asso alla 2° estrazione”:

    • Determinare la probabilità di A e B nel caso in cui vi sia reinserimento
    • Determinare la probabilità di A e B nel caso in cui non vi sia reinserimento

    SOLUZIONE ESTRAZIONE CON REINSERIMENTO

    Reinserendo la carta della 1° estrazione, non si modifica lo spazio campionario (=40 in entrambe le estrazioni) e il numero degli eventi favorevoli (sempre 4). Il verificarsi o non verificarsi di A non modifica la probabilità di B:

    • p(A) = 4/40, sia che si sia stato estratto un asso o non stato estratto un asso
    • p(B) = 4/40

    SOLUZIONE ESTRAZIONE SENZA REINSERIMENTO

    Non reinserendo la carta della 1° estrazione, si modifica lo spazio campionario (=40 nella prima estrazione, 39 nella seconda) e nel caso in cui A si verifica, si modifica anche il numero degli eventi favorevoli (=4 nella 1°, e 3 nella 2° estrazione).

    Il verificarsi o non verificarsi di A modifica la probabilità di B:

    • p(A) = 4/40, se non è stato estratto un asso → p(B) = 4/39
    • p(A) = 4/40, se è stato estratto un asso → p(B) = 3/39

    Principio del prodotto (o delle probabilità composte)

    Dati due eventi A e B indipendenti, la probabilità del verificarsi simultaneo o in successione dei due eventi è data:

    p(A ∩ B) = p(A) × p(B)

    Esempio

    ESEMPIO 1: Lanciando due volte un dado (o due dadi), quale è la probabilità che si ottenga 2 come somma dei risultati?
    L’evento “somma=2” è dato dal verificarsi congiunto di 1 col 1° lancio, e 1 col 2°, dove i due lanci sono indipendenti

    p(1 ∩ 1) = p(1) × p(1) = 1/6 × 1/6 = 1/36 = 0.027

    Esempio

    ESEMPIO 2:
    Quale è la probabilità di estrarre due re da un mazzo di carte da 40, reinserendo la carta estratta? I due eventi sono indipendenti (il realizzarsi dell’uno non influisce sul verificarsi dell’altro)

    p(R₁ ∩ R₂) = p(R₁) × p(R₂) = 4/40 × 4/40 = 16/1600 = 1/100 = 0.01

    Dati tre eventi A, B e C indipendenti abbiamo che :

    p(A ∩ B ∩ C) = p(A) × p(B) × p(C)

    E in generale dati k eventi indipendenti:

    p(A ∩ B ∩ … ∩ K) = p(A) × p(B) × … × p(K)

    Dati due eventi A e B dipendenti, la probabilità del verificarsi in successione dei due eventi è data da:

    p(A ∩ B) = p(A) × p(B/A)

    Dove p(B/A) = probabilità di B posto che A si è verificato

    Esempio

    ESEMPIO 1: Quale è la probabilità di estrarre in sequenza un re e un asso da un mazzo da 40 senza reinserire la carta estratta? I due eventi sono dipendenti (il realizzarsi del 1° evento influisce sul verificarsi del 2° modificando solo lo spazio campionario)

    p(R ∩ A) = p(R) × p(A/R) = 4/40 × 4/39 = 16/1560 ≈ 0.01

    Esempio

    ESEMPIO 2: Quale è la probabilità di estrarre due re da un mazzo di carte da 40 senza reinserire la carta estratta? Il realizzarsi del 1° evento influisce sul verificarsi del 2° modificando lo spazio campionario e il n° degli eventi favorevoli

    p(R₁ ∩ R₂) = p(R₁) × p(R₂/R₁) = 4/40 × 3/39 = 12/1560 = 1/130 ≈ 0.008

  • 10 Probabilità (prima parte)

    Table of Contents

    Introduzione – statistica inferenziale

    La SATISTICA INFERENZIALE ci permette di andare a fare alcune inferenze partendo da dati rilevati su un campione arrivando poi alla popolazione.

    Il campione è un sottoinsieme della popolazione di cui conosciamo determinate caratteristiche. Le caratteristiche della popolazione non sono conosciute ma possono essere ricavate dallo studio del campione.

    Attraverso la statistica inferienziale possiamo fare riferimento a due principi

    • VERIFICA DELL’IPOTESI: si intende la verifica, in termini probabilistici, se una certa affermazione relativa alla popolazione è da ritenersi vera sulla base dei dati ottenuti sul campione. Per fare ciò posso procedere così
      • Estraggo un campione in modo casuale
      • vado a fare delle operazioni statistiche che confermano o meno le mie ipotesi di ricerca
      • Con la STATISTICA INFERENZIALE definisco, in termini probabilistici, la validità della mia ipotesi sulla popolazione a partire dalle statistiche del campione
    • STIMA DEI PARAMETRI: si stabilisce, in termini probabilistici, il valore numerico di uno o più parametri incogniti della popolazione a partire dai dati campionari. Per fare ciò posso procedere così
      • Estraggo un campione in modo casuale
      • misuro la caratteristica/parametro sul campione
      • con la STATISTICA INFERENZIALE definisco, in termini probabilistici, il parametro della popolazione a partire dalla statistica del campione

    Probabilità

    Il calcolo delle probabilità ci fornisce le regole per associare ad ogni possibile evento/risultato di un esperimento aleatorio un valore numerico che ne indichi il grado di avverabilità. Tale valore viene chiamato probabilità dell’evento.

    Spazio campionario

    Un concetto chiave nella probabilità è quello di spazio campionario (S). Questo è l’insieme degli eventi possibili (o dei possibili risultati) di un esperimento casuale, aleatorio.

    Nel lancio di una moneta lo spazio campionario è costituito da due possibili eventi/risultati: testa o croce. Nel lancio di un dato sono le 6 facce del dado.

    Evento

    L’evento all’interno dello spaizo campionario è quello di cui spesso siamo interessati ad andare a calcolare la probabilità che si verifichi. Quindi l’evento che siamo interessati ad andare a studiare è un sottoinsieme dello spazio campionario.

    L’evento può essere

    • semplice: dato da un solo evento
    • composto: dato da più eventi semplici

    Esempio nel lancio di un dado:

    • il risultato “5” è un evento semplice;
    • il risultato “numero pari” è un evento composto da tre eventi semplici: 2,4,6.

    In probabilità abbiamo che

    • Il verificarsi di un evento A (semplice o composto) lo andremo a chiamare SUCCESSO -> p(A)
    • Il non verificarsi di un evento A (semplice o composto) lo chiameremo INSUCCESSO -> q(A)

    Dato uno spazio campionario e un evento A entro tale spazio la probabilità associata ad esso è sempre compresa tra 0 e 1

    0 < p(A) < 1

    Quindi se:

    • Se p(A) = 0 → A = evento impossibile
    • Se p(A) = 1 → A = evento certo

    Lo spazio campionario (S) può essere considerato un evento costituito da tutti gli eventi possibili. Quindi S è l’evento certo → p(S) = 1

    La somma di tutte le singole probabilità associate a ciascun evento possibile è 1. Ne consegue che:

    • p(A) + p(non A) = 1
    • p(non A) = 1 – p(A) = q(A)

    Probabilità a priori

    (Probabilità a priori) Se un evento si può verificare in f modi diversi su n modi possibili, essendo questi tutti ugualmente possibili (equiprobabili) la probabilità di questo evento è f/n.

    Quindi la probabilità di un evento (A) è data dal rapporto tra il numero degli eventi favorevoli (o successi) (f) e il numero degli eventi ugualmente possibili (n)

    La probabilità di insuccesso di un evento è la differenza tra 1 e la probabilità di successo p(A). È indicata con q(A).

    ESEMPIO (lancio moneta):

    Voglio conoscere la probabilità che esca croce p(A), sapendo che

    • S (spazio campionario) = 2 eventi possibili (Testa o croce);
    • A = Croce
    • non A = Testa

    La probabilità può essere espressa come una proporzione (sotto forma di frazione o numero decimale compreso tra 0 e 1). Inoltre può essere espressa anche in termini percentuali

    p * 100

    (se, per esempio, p = .45 possiamo dire che la probabilità è del 45%)

    Probabilità a posteriori o empirica

    (Probabilità a priori e empirica) La probabilità di un evento (A) è uguale alla frequenza (f) del successo in (n) numero di prove ripetute nelle medesime condizioni (con n sufficientemente grande).

    Se dopo aver ripetuto un esperimento casuale (aleatorio) un numero n elevato di volte, e l’evento A si verifica f volte, allora la probabilità è data dal limite cui tende il rapporto tra successi e prove

    ESEMPIO (lancio moneta)

    Vogliamo stimare la probabilità di croce

    Aumentando il numero di lanci la probabilità che si verifichi testa si avvicina a 0.5.

    Nel grafico la rappresentazione grafica di ottenere croce

    ESEMPIO: Lancio DADO (esperimento casuale):

    Lo spazio campionario S = 1,2,3,4,5,6 (6 eventi possibili). Allora abbiamo che:

    Esempio: lancio del dado (evento composto)

    L’evento che vogliamo calcolare è A = NUMERO pari (3 eventi possibili). L’evento non A è quindi = numeri dispari (3 eenti possibili). Da cui abbiamo:

    ESEMPIO: Estrazione CARTA (mazzo da 40):

    Lo spazio campionario è S = 1,2,3,4,5,6,7,8,9,10,fante,regina,re (40 eventi possibili). Vogliamo calcolare la probabilità che si verifichi l’evento A = Asso di cuori. Allora abbiamo che

    Se invece consideriamo un evento composto

    A = carta di cuori (10 eventi possibili)

    Su S = 40 abbiamo che

  • 09 La distribuzione normale

    Table of Contents

    Distribuzione normale

    La curva normale o curva di Gauss è una distribuzione teorica di punteggi in una popolazione.

    Teorema del limite centrale: gauss ci dice che la somma di n variabili casuali con media e varianza finite tende a una distribuzione normale al tendere di n all’infinito

    Riguarda solo le variabili metriche continue, quindi le misure almeno su scale a intervalli equivalenti.

    L’importanza di questa distribuzione è dovuta al fatto che molti dei fenomeni osservati si distribuiscono normalmente o con forme che si approssimano alla curva normale Inoltre, gran parte della statistica inferenziale si basa sulle proprietà di questa distribuzione.

    Partendo da una distribuzione di frequenza, riducendo l’ampiezza degli intervalli, otteniamo la distribuzione normale (curva continua a forma di campana – gaussiana).

    Al centro della curva abbiamo il valore centrale di X. Tale curva è definita dalla seguente equazione.

    Caratteristiche e proprietà

    Vediamo alcune proprietà di questa curva

    • INFINITA: x va da -∞ a +∞
    • SIMMETRICA rispetto alla Y massima f(x): punto più alto x = μ
    • UNIMODALE: (μ = Mo = Me) (media = moda = mediana)
    • ASINTOTICA: si avvicina all’asse delle X senza mai toccarlo, se non ai valori di ascissa -∞ e +∞ che non sono rappresentabili
    • DUE PUNTI DI FLESSO: da concava diventa convessa nella metà sinistra e da convessa diventa concava nella metà destra (in corrispondenza di valori di x uguali alla media meno o più una deviazione standard)
    • CRESCENTE per -∞ < x < μ e DECRESCENTE per μ < x < +∞ due punti di flesso a ± σ da μ
    • La curva NORMALE è interamente definita dai parametri μ (la media) e σ (deviazione standard).
    • Poiché la distribuzione normale varia al variare di μ e σ si può parlare di famiglia di distribuzioni normali con medie e deviazioni standard diverse. Esempio di seguito famiglia distribuzioni normali con stessa media e deviazione standard diversa, e poi con media e deviazione standard diverse, e infine con media diversa e con deviazione standard uguale
    • Qualsiasi siano i parametri μ e σ, l’AREA sottesa dall’intera curva è = 1. Infatti “1” è un simbolo che rappresenta il fatto che sotto la curva si trova il 100% degli individui (frequenze) rappresentati dalla variabile.
    • La porzione di curva delimitata dalla media e un’ordinata espressa in termini di deviazioni standard è costante:
      • μ + σ = 34.13% della distribuzione
      • μ + 2σ = 47.73% della distribuzione
      • μ + 3σ = 49.86% della distribuzione
    • Conoscendo μ e σ, possiamo stimare f(x) e l’area compresa tra due qualsiasi valori di x

    Poiché la curva è simmetrica, l’area compresa tra -∞ e μ è uguale a .50 come quella compresa tra μ e +∞. In altre parole, sopra la media ci sono il 50% dei casi, come sotto la media

    Qualunque siano i valori di μ e σ, l’area corrispondente a intervalli definiti è sempre la stessa → Porzioni della distribuzione compresse tra ± 1, 2, 3 σ da μ (in %)

    Distribuzione normale standardizzata

    Per gli usi pratici della distribuzione normale si ricorre alla CURVA NORMALE STANDARDIZZATA. L’equazione della curva dipende da un solo parametro, zeta; pertanto:

    I parametri di z sono noti → μ = 0; σ = 1. Di conseguenza anche i valori nella distribuzione, che pertanto possono essere tabulati (essere anch’essi noti).

    In un’unica tavola sono riportate le aree della curva in corrispondenza dei diversi valori di z. La tavola prende in considerazione la metà destra della curva, quindi le aree comprese tra la media (z=0) e qualunque valore positivo di z > 0

    Poiché la curva normale standardizzata è simmetrica, si considera solo il valore assoluto di z, ovvero n.

    • nel caso di z positivo l’area relativa sarà a destra (superiore) della media
    • nel caso di z negativo l’area relativa sarà a sinistra (inferiore) della media

    Quindi, per ogni valore x della variabile originaria esiste sulla curva normale un corrispondente valore di z.

    L’area al di là del valore di z sulla curva normale corrisponde all’area che si trova al di là del punteggio x nella distribuzione originaria.

    Tavola di Z ed esempio uso tavole

    Le tavole Z riportano le aree comprese tra μ = 0 e un dato valore di z

    La prima colonna riporta z con la prima cifra decimale, la prima riga invece riporta la seconda cifra decimale di z Incrociando i valori ottengo l’area sotto la curva.

    Esempio

    Esempio: Sapendo che la variabile “dominanza” si distribuisce normalmente con media = 32 e deviazione standard = 5, trovare, in un gruppo di 80 soggetti, la proporzione di casi con punteggio superiore a 35.

    Per prima cosa devo standardizzare il punteggio 35.

    Ora trovo sulla tavola l’area compresa tra μ = 0 (i.e., media) e z = 0.6

    Quindi la’rea compresa tra 0 e 0.6 è quella rappresentata in figura.

    Sapendo che l’area di mezzo curva è = 0.5, ottengo l’area cercata per differenza:

    L’area trovata corrisponde al 27.43% dell’intera area. Poiché i miei soggetti sono 80, potrò prevedere che il 27.43% di 80, cioè circa 22 soggetti avranno un punteggio superiore a 35.

    Esempio inverso

    Si può anche porre il problema inverso: trovare il punteggio minimo che un soggetto deve ottenere per non essere incluso nel 30% dei peggiori, in una distribuzione con:

    Per prima cosa trovo sulle tavole il valore di z corrispondente ad un’area di .2000 (i.e., 0.50 – 0.30). Z è .2019

    Il 20% dei soggetti è incluso fra 0 e 0.53 (devo ricordare che mi interessa il versante negativo)

    Ora trasformo il valore z in punteggio X conoscendo media e deviazione standard della distribuzione:

    N.B. Il valore di z è negativo (-.53) perché si trova nella parte sinistra della distribuzione.

    Otteniamo che Per non essere considerati nel 30% dei peggiori bisogna avere un punteggio di almeno 30

  • 08 Standardizzazione delle misure

    Table of Contents

    Standardizzazione delle misure

    Un punteggio all’interno di una distribuzione è in realtà privo di significato se preso da solo.

    Per esempio se si sa che un soggetto è alto 1.80m, questa informazione assume un significato ben diverso se il soggetto è un pigmeo o uno svedese. Nel primo caso sarebbe “molto alto” mentre nel secondo sarebbe “nella media”

    La standardizzare consente di definire la posizione di un soggetto all’interno di una distribuzione di frequenza e, dunque, di:

    • confrontare due prestazioni dello stesso soggetto entro due diverse distribuzioni
    • confrontare le prestazioni di soggetti diversi in differenti distribuzioni

    Standardizzare significa riferire la misura ad una scala standard di cui sono noti i parametri (media e varianza)

    Per ottenere la standardizzazione delle misure possiamo essere utilizzati gli indicatori di tendenza centrale e di dispersione (media e devianza standard, rispettivamente) della misura non standardizzata.

    La scala standard o input z

    Una delle scale più comunemente utilizzate è detta «standard» o «z». Questa ha

    media = 0 e varianza = 1

    Questa scala si ottiene trasformando i punteggi Xi di una distribuzione in punteggi zi tramite la formula:

    s è la deviazione standard.

    I punti z

    I punti z consento di riferire una misura ad una scala standard con media uguale a zero e devianza standard uguale a 1.

    Esempio (confronto tra diversi soggetti)

    In un test di percezione visiva la media è 21.25 e deviazione standard 6.74. Trasformare in punti z i seguenti punteggi ottenuti da 6 soggetti dislessici.

    utilizzando la formula vista in rpecedenza abbiamo che

    otteniamo quindi la seguente scala

    Faciamo alcune considerazioni sui punteggi ottenuti

    • Il soggetto n°2 con 14 è una devianza standard sotto la media (21.25 – 6.74 = pressapoco 14).
    • Il soggetto n°6 con 28 è una devianza standard sopra la media (21.25 + 6.74 = 28).
    • Il soggetto n°5 con 25 è circa mezza devianza standard sopra la media, ad esempio, dista dalla media la metà rispetto al soggetto n°6.
    • Il soggetto n°1 con 8 è due deviazioni standard sotto la media e, ad esempio, dista dalla media il doppio rispetto al soggetto n°2.
    Esempio

    Facciamo un altro esempio (stesso soggetto test diversi). Un soggetto ha ottenuto il punteggio di 30 in un test che misura l’ansia e 30 in un test che misura l’introversione; come è possibile sapere se in entrambe le situazioni il soggetto si è dimostrato più introverso o più ansioso? È necessario utilizzare una scala comune sulla quale “leggere” i punteggi dei due test.

    Andiamo quindi a standardizare i punteggi ottenuti.

    Sapendo che la media di punteggi al test di ansia è 36.6 e la devianza standard 5.97 il punteggio 30 del nostro soggetto potrà essere trasformato in:

    Sapere che ha ottenuto un punteggio z di -1.05 significa che si trova al di sotto della media (segno negativo) di circa 1 devianza standard.

    La media dei punteggi al test di introversione è 31.2 e la devianza standard 5.62; di conseguenza il punteggio di 30 diviene:

    Quindi z ansia = -1.05 e z introversione = -0.21.

    Su questa base si può affermare che il nostro soggetto è molto meno ansioso che introverso

    Naturalmente può essere effettuata anche l’operazione inversa nel caso in cui si voglia conoscere il valore di X a partire dal valore di z corrispondente. Basta trasformare la formula nota e otteniamo l’equazione seguente

    Esempio

    Esempio: In un test attitudinale la media dei punteggi è 72 con s = 4. Per trovare il punteggio Xi di un partecipante di cui si sa che z = -0.25:

    Altre scale standardizzate

    Oltre alla scala in punti z, nei manuali dei test psicologici si incontrano altre scale che sono trasformazioni lineari della scala z (cioè, non modificano la relazione d’ordine esistente):

    • Scala in punti T
    • Scala stanine (standard nine)
    • Scala sten (standard ten)

    Scala in punti T

    Si trata di una scala con Media (M) = 50 e deviazione standard (s) = 10

    La formula è la seguente

    varia tra 0 e 100 e non prevede valori negativi

    Esempio

    Esempio: Dai dati precedenti con media dei punteggi al test di ansia 36,6 e deviazione standard 5.97, il punteggio 30 equivaleva a z = -1.07

    Fate attenzione al segno! Se la z è negativa il valore di T deve essere inferiore a 50

    Scala stanine (standard nine)

    La scala ha M = 5 e s = 2. Si ottiene applicando la formula:

    Divide la distribuzione in 9 categorie.

    Scala Sten (standard ten)

    La scala ha M = 5.5 e s = 2. Si ottiene applicando la formula:

    Divide la distribuzione in 10 categorie.

    Rango percentile

    Il rango percentile RP(X) di un punteggio X può essere definito come la percentuale di dati che assumono valore minore o uguale a X.

    Se un soggetto ha un punteggio Xi, dire che RP(Xi) = 35 significa che nella distribuzione ordinata dei dati il punteggio Xi lascia alla sua sinistra il 35% dei dati della distribuzione.

    Per il calcolo possiamo procedere nel modo seguente

    • Si dispongono i dati in ordine crescente;
    • Si individua la posizione (POS) del punteggio che interessa;
    • Si applica la formula: (primo caso solo se minore 30 partecipanti, altrimenti si applicala seconda)
    Esempio

    Esempio: Supponiamo di aver ottenuto i seguenti punteggi (dati non raggruppati): 25, 34, 34, 58, 48, 38, 54. Vogliamo conoscere il RP del punteggio 38.

    Prima ordino i dati: 25, 34, 34, 38, 48, 54, 58.

    Abbiamo che 38 occupa la terza posizione.

    Un caso un pò più complicato riguarda la stima del rango percentile di una distribuzione di frequenza con dati raggruppati in classi.

    La prima cosa da fare è disporre le classi in ordine crescente. Poi si individua la posizione (POS) del punteggio Xi che interessa, con la formula

    Esempio

    Esempio consideriamo la seguente tabella

    Ora si individua la posizione POS del punteggio 28 con la formula.

    Calcoliamo il RP del punteggio 28

    Esempio

    Esercitazione: Nella classe di Giulio i voti all’ultimo compito di Matematica sono stati i seguenti:

    Giulio ha preso 6 al compito di matematica. Come valuto la sua prova?

    Si individua la posizione (POS) del voto 6:

    Calcoliamo il RP del voto 6

    Se le classi hanno ampiezza unitaria si può usare la formula abbreviata

    Esercizio

    Esercizio: Giulio ha preso 6 anche al compito di Italiano. I voti della classe sono i seguenti:

    Come valuti la sua prova? Avendo preso sia a Matematica che a Italiano 6, posso dire che Giulio è ugualmente bravo nelle due materie rispetto alla sua classe?

    Calcoliamo il RP del voto 6 con la formula abbreviata:

    Il voto 6 in Italiano corrisponde al 20° percentile → Giulio lascia dietro di sé solo il 20% dei compagni. Sebbene il voto sia lo stesso, la sua prova è peggiore rispetto a quella di matematica relativamente alla classe.

    Ergo Giulio non è particolarmente bravo in Italiano, mentre è abbastanza bravo in Matematica (RP = 70).

    Esercizio

    Esercizio: Marta ha preso 6 al compito di Matematica. I voti della sua classe sono i seguenti:

    Come valuti la sua prova? Posso dire che Giulio e Marta sono ugualmente bravi in Matematica, tenendo conto dei risultati delle rispettive classi di appartenenza?

    Calcoliamo il RP del voto 6 di Marta

    Il voto 6 in matematica corrisponde al 50° percentile → Marta lascia dietro di sé il 50% dei compagni. Sebbene il voto sia lo stesso, relativamente alle classi di appartenenza, la sua prestazione è peggiore rispetto a quella di Giulio (RP = 70).

    Percentile e rango percentile

    Nota bene:

    • Il percentile è un valore.
    • Il rango percentile è una posizione.

    Esempio:

    • Il 20° percentile è 6 → Valore.
    • Il rango percentile di 6 è 20 → Posizione.
  • 07 Indicatori di dispersione

    Table of Contents

    Indicatori di dispersione

    I due parametri fondamentali che consentono di sintetizzare i dati sono:

    • INDICATORE DI TENDENZA CENTRALE
    • INDICATORE DI DISPERSIONE

    Oltre all’indicatore di tendenza centrale (valore che riassume i dati), è utile disporre di un valore o parametro capace di rappresentare la variabilità dei dati (cioè, la loro dispersione).

    Tale valore o parametro è definito INDICATORE DI DISPERSIONE. Può essere ottenuto SOLAMENTE su scale di misura a INTERVALLI EQUIVALENTI e a RAPPORTI EQUIVALENTI.

    Nel caso di dati qualitativi rilevati su scala nominale o ordinale, non si ha possibilità di quantificare la dispersione perché i dati non variano. Infatti i numeri sono semplici etichette per identificare categorie e per ordinarle.

    Abbiamo una vasta scelta intermini di indicatori di variabilità dei dati, ciascuno con i propri vantaggi e svantaggi

    • Campo di variazione
    • differenza interquartilica
    • scarto semplice medio
    • varianza
    • Scarto quadritico medio o deviazione standard
    • coefficiente i variazione

    Campo di variazione

    Questo è dato dalla differenza tra il valore maggiore e quello minore della distribuzione di frequenza osservata.

    Esempio: 11 ragazzi di 8 anni hanno ottenuto ad un test la seguente serie di punteggi: 23 45 34 57 23 57 48 38 38 54 48

    I punteggi variano da 57 a 23 assumendo potenzialmente 34 possibili valori.

    LIMITI:

    • Troppo sensibile ai valori aberranti (cioè, estremi)
    • Poco informativo
    • Viene usato solo in modo generico

    Differenza interquartilica

    La differenza interquartile è data dalla differenza tra il terzo e il primo quartile

    Questo indice richiede una scala di misura metrica

    In pratica la differenza interquartilica è analoga al campo di variazione ma tiene conto soltanto dei valori che cadono tra il 1° e il 3° quartile (cioè del 50% della distribuzione)

    Riprendendo l’esempioprecedente degli 11 ragazzi di 8 anni abbiamo

    Il 50% dei punteggi si distribuisce tra 54 e 34 assumendo potenzialmente 20 possibili valori.

    Il limite di questo indicatore è chè è un indice che non tiene conto di cosa accade al centro della distribuzione (casi centrali) e agli estremi della distribuzione.

    Indicatori di dispersione

    Per ottenere un indice unico e sintetico di dispersione dei dati è necessario che i dati siano misurati su scale metriche, quindi a intervalli equivalenti o a rapporti equivalenti.

    I più importanti indicatori di dispersione per questo genere di misure sono quelli che tengono conto della distanza di ciascun valore dalla media della distribuzione.

    Per ottenere un indice di dispersione che tenga conto del contributo dei singoli casi:

    • Si calcolano gli scarti dei valori osservati dalla media
    • Si fa una media di questi scarti

    Abbiamo infatti visto che la somma degli scarti dei singoli valori che compongono la media è sempre uguale a 0.

    Scarto (scostamento) semplice medio

    La formula per questo indicatore è

    Ad esempio. Ad un test di personalità, 10 adolescenti hanno ottenuto i seguenti punteggi: 8 9 5 4 7 8 9 7 4 3. Andiamo a calcolare lo scostamento semplice medio, seguendo questi passaggi

    Facciamo due considerazione sui vantaggi e limiti di questo indicatore.

    • VANTAGGI: Consente di avere un indicatore diverso da zero che considera gli scostamenti dei punteggi dalla media
    • LIMITI: Poco utilizzato rispetto al più noto e studiato indicatore di variabilità: LA VARIANZA

    Varianza

    La varianza si definisce come media al quadrato degli scostamenti dalla media. Poiché la somma degli scarti dalla media è zero, sommo gli scarti al quadrato:

    ESEMPIO. Ad un test di personalità, 10 adolescenti hanno ottenuto i seguenti punteggi: 8 9 5 4 7 8 9 7 4 3. Andiamo a calcolare la varianza

    La varianza non è mai negativa. Minore è la varianza più i casi sono concentrati attorno alla media. Maggiore è la varianza più i casi sono dispersi attorno alla media.

    • VANTAGGI: Indicatore di variabilità molto utile per elaborazioni sofisticate.
    • LIMITI: Non utilizza la stessa unità di misura della media: es., altezza media di un gruppo = 170cm; s² = 169. Abbiamo difficoltà a capire cosa significhi tale valore rispetto alla misura d’interesse. Tale difficoltà è data dal fatto che la varianza è un indice quadratico. Per superare questo limite usiamo l’indicatore deviazione standard

    Scarto quadrico medio (deviazione standard)

    La deviazione standard è la Radice quadrata della Varianza. Inoltre è un indice di dispersione con unità di misura uguale alla media, ed indica di quanto mediamente i dati osservati si discostano dalla loro media.

    es., altezza media di un gruppo = 170cm; s² = 169 → s = 13cm

    ESEMPIO: Ad un test di personalità, 10 adolescenti hanno ottenuto i seguenti punteggi: 8 9 5 4 7 8 9 7 4 3. Andiamo a calcolare la deviazione standard.

    VANTAGGI della deviazione standard:

    • Indicare con un unico valore lo scostamento medio dei dati dalla loro media.
    • Stessa unità di misura della media.
    • Indicatore di dispersione più usato per valutare la variabilità dei dati, insieme alla media (che sintetizza l’insieme di dati).

    La media e la deviazione standard vengono usualmente riportati insieme come statistiche descrittive → x̄ ± s.

    Esempio si può dire che i 10 adolescenti al test di personalità ottengono una media di 6.4 ± 2.11 (6.4 valore medio, 2.11 deviazione standard)

    Varianza e deviazione standard

    Esistono formule abbreviate che consentono il calcolo direttamente dai dati grezzi (cioè senza il calcolo separato della media e dei singoli scarti)

    Notare che la seconda parte delle formule non è altro che la media.

    Facciamo un esempio: solito test personalità con i seguenti punteggi 8 9 5 4 7 8 9 7 4 3. Andiamo a calcolare varianza e deviazione standard con formule abbreviate

    Ulteriori varianti delle formule per il calcolo di varianza e deviazione standard sono quelle relative ai dati raggruppati in classi.

    Coefficiente di variazione

    Questo coefficiente sintetizza il rapporto tra Media e Deviazione Standard.

    E’un indicatore di variabilità relativa (al contrario della deviazione standard che è assoluta).

    Permette di valutare la dispersione dei valori attorno alla media indipendentemente dall’unità di misura della variabile (usa la media stessa come unità di misura).

    ESEMPIO: Supponiamo di avere un reddito medio in lire e euro con relative deviazioni standard

    • Reddito medio in Lire: x̄ = 30.000.000, s₁ = ± 2.000.000
    • Reddito medio in Euro: x̄ = 15.493,71; s₂ = ± 1.032,91

    Le due deviazioni standard hanno unità di misura diversa e questo non ci permette di confrontarle.

    Confrontando i due valori abbiamo s₁ = ± 2.000.000 > s₂ = ± 1.032,91 ovvero il reddito espresso in lire ha una maggiore variabilità assoluta.

    Però calcolando i due coefficienti di variazione abiamo che

    ovvero il reddito espresso in lire o euro hanno la stessa variabilità relativa

  • 06 Indicatori di posizione (quantili)

    Table of Contents

    Indicatori di posizione

    Il ricercatore è interessato allo studio di fenomeni che variano. Proprio questa variabilità consente di stabilire dei nessi e di formulare ipotesi.

    A tal fine, è necessario identificare i parametri che sono capaci di riassumere la variabilità dei dati grezzi e descrivere l’oggetto di ricerca.

    I due parametri fondamentali che consentono di sintetizzare i dati sono:

    • INDICATORE DI TENDENZA CENTRALE -> valore che rappresenta un insieme di dati grezzi.
    • INDICATORE DI DISPERSIONE -> valore che specifica la variabilità di un insieme di dati grezzi.

    Nel caso di dati qualitativi misurati su scala nominale o ordinale si ha la possibilità di stimare solamente l’indicatore di tendenza centrale (i.e., MODA e MEDIANA).

    NON vi è la possibilità di ottenere un indicatore capace di riassumere efficacemente la variabilità dei dati.

    Per i dati qualitativi rilevati su scala NOMINALE, il cui unico indice di tendenza centrale è la MODA, non si ha possibilità di quantificare la dispersione perché i dati non variano. Infatti i numeri sono semplici etichette per identificare una categoria, non rappresentano valori in senso stretto.

    Anche nel caso di dati qualitativi misurati su scala ORDINALE non si può parlare di valori nel senso proprio del termine. Anche in questo caso i numeri sono etichette che identificano delle categorie ordinate (NON indicano una quantità).

    Per quanto riguarda la dispersione si può, nel caso di dati su scala ORDINALE, usare un parametro solamente descrittivo, capace di indicare la posizione che un «valore» occupa all’interno di una distribuzione di frequenza.

    Tale parametro è definito INDICATORE DI POSIZIONE.

    L’indicatore di tendenza centrale più efficace per riassumere dati su scala ORDINALE è la MEDIANA.

    La MEDIANA altro non è che l’indicatore di posizione più rappresentativo dei dati su scala ORDINALE, poiché permette di dividere in due parti uguali la distribuzione.

    Accanto alla Me, esistono altri indicatori di posizione, calcolati in maniera analoga, che possono fornire un’idea della variabilità dei dati, ma NON possono rappresentarla sinteticamente.

    Per conoscere la posizione che un valore di una variabile occupa all’interno di una distribuzione di frequenza si utilizzano i QUANTILI che si dividono in

    • Quartili
    • Decili
    • Percentili

    Questi indici richiedono che la variabile sia misurata ALMENO su una scala ordinale (può essere superiore) poiché necessitano di una distribuzione ordinata di frequenza.

    Quartili

    I quartili sono i valori in corrispondenza dei quali la distribuzione viene suddivisa in quattro parti uguali. I quartili sono tre:

    • 1° quartile Q1 (o inferiore): valore al di sotto del quale ricade il 25% dei casi.
    • 2° quartile Q2 (o mediano): valore al di sotto del quale ricade il 50% dei casi.
    • 3° quartile Q3 (o superiore): valore al di sotto del quale ricade il 75% dei casi.

    Come si rintracciano?

    1. Si ordinano in senso crescente le modalità o i valori della variabile.
    2. Si calcolano le frequenze cumulate.
    3. Si calcola la posizione del quartile con le apposite formule.
    4. Si cerca nella distribuzione il valore corrispondente alla posizione trovata.

    Le formule per il calcolo della posizione sono le seguenti

    Nota bene: Il secondo quartile Q2 corrisponde alla Mediana. La Mediana è un indice di tendenza centrale e di posizione.

    Proviamo a fare un esempio. Supponiamo di avere le risposte di N = 15 (numero di casi dispari) partecipanti ad una domanda riguardante quanto spesso vai al cinema (ordinate rispecchiando una scala di risposta a 7 punti):

    • 7 = più volte a settimana
    • 1 = mai
    • 2 = una volta all’anno
    • 3 = più volte all’anno
    • 4 = una volta al mese
    • 5 = più volte al mese
    • 6 = una volta a settimana

    Abbiamo i seguenti quartili

    • Il primo quartile è 6 «una volta a settimana» (occupa la 4° posizione nella distribuzione).
    • Il secondo quartile è 4 «una volta al mese» (occupa la 8° posizione nella distribuzione).
    • Il terzo quartile è 2 «una volta all’anno» (occupa la 12° posizione nella distribuzione).

    Decili

    I decili, in maniera analoga ai quartili, sono i valori in corrispondenza dei quali la distribuzione viene suddivisa in dieci parti eguali. I decili sono nove

    • 1° decile D₁: valore sotto il quale ricade il 10% dei casi
    • 2° decile D₂: valore sotto il quale ricade il 20% dei casi
    • eccetera ….
    • 9° decile D₉: valore sotto il quale ricade il 90% dei casi

    COME SI RINTRACCIANO:

    1. Si ordinano in senso crescente le modalità o i valori della variabile
    2. Si calcolano le frequenze cumulate
    3. Si calcola la posizione del decile con le apposite formule
    4. Si cerca nella distribuzione il valore corrispondente alla posizione trovata

    Proviamo a fare un esempio più concreto:

    Abiamo 11 bambini di 36 mesi che hanno ottenuto ad un test sul linguaggio la seguente serie di punteggi: 25 43 34 58 25 48 38 38 54 48 58

    Trovare il 3° e l’ 8° decile…

    Per ottenere i valori associati ai decili si procede così

    • Si moltiplica la differenza tra i due valori 34 e 38 per la quantità che eccede dalla 3° posizione: 3.6 – 3 = 0.6 → (38-34) x 0.6 = 2.4
    • Si somma questa quantità al valore corrispondente alla 3° posizione: 34 + 2.4 = 36.4 terzo decile
    • Si moltiplica la differenza tra i due valori 58 e 54 per la quantità che eccede dalla 9ª posizione: 9.6 – 9 = 0.6 → (58-54) x 0.6 = 2.4.
    • Si somma questa quantità al valore corrispondente alla 9ª posizione: 54 + 2.4 = 56.4 Ottavo decile

    Centili

    Sono i valori in corrispondenza dei quali la distribuzione viene suddivisa in cento parti eguali. I centili sono novantanove

    • 15° centile C₁₅: valore sotto il quale ricade il 15% dei casi
    • 45° centile C₄₅: valore sotto il quale ricade il 45% dei casi
    • 99° centile C₉₉: valore sotto il quale ricade il 99% dei casi

    COME SI RINTRACCIANO:

    1. Si ordinano in senso crescente le modalità o i valori della variabile
    2. Si calcolano le frequenze cumulate
    3. Si calcola la posizione del centile con le apposite formule
    4. Si cerca nella distribuzione il valore corrispondente alla posizione trovata

    Proviamo a fare un esempio più concreto: abbiamo 11 bambini di 36 mesi hanno ottenuto ad un test sul linguaggio la seguente serie di punteggi: 25 43 34 58 25 48 38 38 54 48 58. Trovare il 28° e l’ 82° centile…

    Si procede come prima:

    • Si moltiplica la differenza tra i due valori 34 e 38 per la quantità che eccede dalla 3° posizione: 3.4 – 3 = 0.4 → (38-34) x 0.4 = 1.6

      Si somma questa quantità al valore corrispondente alla 3° posizione: 34 + 1.6 = 35.6 che è il valore del VENTOTTESIMO CENTILE
    • Si moltiplica la differenza tra i due valori 58 e 54 per la quantità che eccede dalla 9° posizione: 9.9 – 9 = 0.9 → (58-54) x 0.9 = 3.6

      Si somma questa quantità al valore corrispondente alla 9ª posizione: 54 + 3.6 = 57.6 valore del OTTANTADUESIMO CENTILE

    Ogiva

    L’ogiva è la rappresentazione grafica per il calcolo di quartili, decili e centili. L’ogiva è la rappresentazione grafica delle frequenze cumulate

    Sull’ASSE delle ASCISSE si riportano i VALORI assunti da una VARIABILE.

    Sull’ASSE delle ORDINATE si riportano le FREQUENZE CUMULATE.

    Esempio: Poniamo il caso di aver misurato i punteggi ottenuti su un test di abilità verbali di 26 bambini di un asilo nido. Abbiamo la seguente rappresentazione.

    Se volessi ottenere una raprpesentazione grafica per il calcolo dei quartili, decili e centili posso tracciare un segmento parallelo all’asse delle ordinate e lo divido per 4, 10, 100.

    Otteniamo i punti dell’asse che corrispondono rispettivamente ai quartili, decili, centili.

    Si noti accanto alla curca le righe verticali parelle alla ascissa delle ordinate, e la divisione di queste in 4, 10, e 100 (righe verticali colorate in giallo, rosso, blue). Tracciando una linea orizzontale che parte da queste rette e che tocca il grafico ottengo il valore corrispondente