Table of Contents
Dalla carta al PC
I Dati grezzi sono tutto ci che viene osservato nel nostro campione di interesse. Per esempio i dati grezzi possono essere:
- le risposte di ogni singolo soggetto ad un questionario di personalità
- le sue risposte ad una scala di atteggiamento
- la categorizzazione del comportamento di ogni singolo soggetto
Tutto ciò che raccogliamo deve essere poi trasformato in un file dati
Operazioni preliminari per la tabulazione dei dati
Per passare da dati raccolti in un file dati dobbiamo seguire alcuni passaggi:
- Costruire un legame tra il questionario cartaceo e il file dati. Usualmente questa procedura prevede siglare ciascun questionario con un numero
- Stabilire l’ordine secondo il quale le risposte vengono inserite nel file dati. Usualmente si segue la numerazione che le domande hanno sul supporto cartaceo
- Scegliere un nome in codice per le variabili sulle quali si vuole lavorare. Questa procedura consiste nell”associare a ciascuna variabile un’ ETICHETTA
Spesso è necessario codificare numericamente alcune variabili. Di solito si attribuisce un numero intero, e se la variabile prevede solo due alternative si utilizza 0 e 1
Esempio: Supponiamo di aver somministrato a 10 partecipanti una misura di atteggiamento composta da 5 affermazioni (con risposta SI/NO) e di aver rilevato anche il genere, l’età e il titolo di studio:
- Numeriamo i questionari da 1 a 10
- Decidiamo l’ordine delle variabili:
— Numero, genere, età, domande da 1 a 5 (seguendo l’ordine che le domande hanno nel questionario) - Stabiliamo un’etichetta per ciascuna variabile:
— N.ord, SEX, AGE, DOM1, DOM2, DOM3, DOM4, DOM5 - Stabiliamo un codice per le modalità assunte dalla variabile:
— SEX: maschio = 0, femmina = 1
— Domande: SI = 1, NO = 0
Supponiamo ora di codificare le risposte del terzo partecipante, maschio, di 33 anni. Questo ha risposto alle 5 affermazioni nel seguente modo: SI, SI, NO, NO, SI

IL RISULTATO FINALE DI QUESTE OPERAZIONI È IL FILE DATI, una matrice casi (in riga) x variabili (in colonna)

La frequenza
La FREQUENZA è il numero delle volte in cui un determinato evento si verifica. In irferimento a un file dati la frequenza indica il Numero di casi osservati per ciascuna modalità che la variabile assume.
Ad esempio
- Se la variabile di interesse è il sesso dei partecipanti → contare il numero di volte in cui si presenta la modalità «MASCHIO» oppure «FEMMINA» → si ottiene un numero che rappresenta la frequenza di partecipanti maschi e femmine nel gruppo.
Esempio frequenza (livello di misura scala nominale)
Ho 10 partecipanti che rispondono SÌ (codice 1) 4 volte e NO (codice 0) 6 volte.
Ho 10 partecipanti che rispondono SÌ (codice 1) 4 volte e NO (codice 0) 6 volte.
Le frequenze sono 4 (per risposta 1) e 6 (per risposta 0)

Esempio frequenza (livello di misura scala a rapporti o intervalli)
A destra ho una tabella che riporta gli anni di ciascun partecipante. Quindi ho (f indica frequenza)
- anni 27 → f₁ = 1
- anni 28 → f₂ = 3
- anni 30 → f₃ = 1
- anni 33 → f₄ = 3
- anni 40 → f₅ = 2

Gli indici 1, 2, 3, 4 e 5 delle frequenze f (i.e., f₁, f₂, f₃, f₄, f₅) stanno a significare che la variabile assume 5 diversi valori. Indichiamo con k il numero dei valori diversi e con N il numero totale dei partecipanti.
Allora potremmo scrivere:La somma di tutte le frequenze è uguale al numero totale dei partecipanti. Dove:
- N = totale partecipanti
- Σ = sommatoria
- Xᵢ = valore generico della variabile (o codifica della variabile)
- fᵢ = numero delle volte in cui si presenta ciascun valore di X
- k = numero di valori che X può assumere (modalità)
Distribuzione di frequenza
Seguendo la formula precedente posso creare la distribuzione di frequenza della variabile x. Ciò equivale a costruire una distribuzione in cui a ciascun valore di X viene associata la sua frequenza.
le frequenze sono
- X₁ = 6 → f₁ = 2
- X₂ = 7 → f₂ = 4
- X₃ = 8 → f₃ = 3
- X₄ = 9 → f₄ = 1

da cui abbiamo la seguente formula, con K=4 (modalità) e N=10

Frequenze cumulate
Un altro modo di conteggiare le frequenze è quello delle frequenze cumulate. Si ottengono sommando progressivamente le frequenze della distribuzione.
Questo procedimento ha lo scopo di facilitare e velocizzare la lettura dei dati: ad esempio, individuare la quantità di partecipanti che hanno un punteggio da 2 a 4 sulla variabile X, cioè 6

Frequenze relative o proporziale / frequenze percentuali
La frequenza relativa è il rapporto tra le frequenze di una modalità assunta dalla variabile e il totale dei casi.

La frequenza percenuale è invece la frequenza relativa moltiplicata per 100

Per riassumere all’interno di un’unica tabella, potremmo trovare diversi conteggi associati alle frequenze e alla loro distribuzione, utili a quantificare il numero di volte in cui la variabile X assume k modalità:
- Frequenze semplici
- Frequenze cumulate
- Frequenze percentuali
- Frequenze percentuali cumulate

Le distribuzioni in classi
Le frequenze possono essere distribuite in specifiche classi.
Ciò è particolarmente utile quando le modalità della variabile sono molte (ad esempio, variabili metriche, x può avere 30 o 50 valori diversi).
Raggruppando le modalità della variabile oggetto di esame in classi o intervalli, otteniamo la FREQUENZA DI CLASSE, ovvero il numero di dati (partecipanti) compresi tra i valori che definiscono la classe (o intervallo).
Per costruire le classi posso seguire 3 criteri
- Coprire l’intera gamma dei punteggi (altrimenti perderemmo dei dati)
- Intervalli di uguale ampiezza (se possibile) (rende semplice il confronto e la rappresentazione grafica)
- Intervalli mutuamente esclusivi (un dato deve entrare specificatamente in una classe e non in un’altra)
Esempio di partecipanti che riportano la loro età (f riporta il numero di volte che si è presentato il dato)

Numeri come 72, 73, 74, …, 79 rappresentano quelli che vengono definiti LIMITI TABULATI.
Poniamo ora il caso in cui fossimo interessati a classificare alcuni individui in base al loro peso (numeri con virgola). In questo caso dovremmo ricorrere ai LIMITI REALI.
I limiti reali si ottengono aggiungendo .50 al limite tabulato superiore e sottraendo .50 al limite tabulato inferiore.

Come si può procedere alla definizione delle classi e della loro ampiezza?
Consideriamo la seguente distribuzione di punteggi

possiamo usare le seguenti due formule
- Gamma = (Xₘₐₓ − Xₘᵢₙ + 1) = 94 − 40 + 1 = 55 -> gamma è il rage di valori che può assumere la variabile
- Ampiezza = (gamma : n° classi) = 55 : 5 = 11 -> questa rappresenta l’ampiezza di ciascuna classe
Otteniamo quindi 5 classi – i dati raggruppati nella seguente immagine

Riassumendo si definisce la Gamma della distribuzione (massimo − minimo + 1) e si divide per il numero delle classi volute. Questo porta all’ampiezza delle classi.
I LIMITI TABULATI dell’intervallo comprendono tutti i valori maggiori al limite inferiore e minori o uguali al limite superiore.
I LIMITI REALI si considerano mezzo punto sotto il limite inferiore e mezzo punto sopra il limite superiore.
Il numero delle classi non deve essere troppo elevato
(esempio 5 < k < 20)
ed è preferibile che l’ampiezza delle classi sia uguale
(es. 2, 3, 5, 10 e multipli).
Posso calcolare il punto medio di ciascuna classe facendo la semisomma dei limiti inferiore e superiore.