Appunti per Scuola e Università
humanisticheUmanistiche
Appunti e tesine di tutte le materie per gli studenti delle scuole medie riguardanti le materie umanistiche: dall'italiano alla storia riguardanti le materie umanistiche: dall'italiano alla storia 
sceintificheScientifiche
Appunti, analisi, compresione per le scuole medie suddivisi per materie scientifiche, per ognuna troverai appunti, dispense, esercitazioni, tesi e riassunti in download.
tecnicheTecniche
Gli appunti, le tesine e riassunti di tecnica amministrativa, ingegneria tecnico, costruzione. Tutti gli appunti di AppuntiMania.com gratis!
Appunti
scientifiche
Astronomia cosmologiaChimicaEconomiaEducazione fisicaFisica
MatematicaStatistica


AppuntiMania.com » Scientifiche » Appunti di Statistica » La variabile statistica doppia

La variabile statistica doppia




Visite: 3097Gradito:apreciate stela [ Medio appunti ]
Leggi anche appunti:

L'elaborazione dei dati: i rapporti statistici


L'elaborazione dei dati: i rapporti statistici Una terza fase dell'indagine

Introduzione alla statistica


Introduzione alla statistica Definizione di statistica e sue applicazioni E'

Relazione di Calcolo e Statistica


Relazione di Calcolo e Statistica Realizzare un software che  : Realizzare
immagine di categoria

Scarica gratis La variabile statistica doppia

LA VARIABILE STATISTICA DOPPIA


Molto spesso si è interessati a studiare sulla stessa popolazione di ammontare N contemporaneamente due fenomeni X e Y, ognuno dei quali si presenta con le rispettive modalità

x1,x2,.,xi,.xk e y1,y2,.,yj,.,yh

in questo tipo di analisi i dati vengono sistemati in una tebella che si definisce TABELLA A DOPPIA ENTRATA :


Y y1 y2 y3....yj...yh totale

X


x n1,1 n1,2 n1,3.n1,i..n1,h n1,0

x2 n2,1 n2,2 n2,3.n2,i..n2,h n2,0

. . . . . . . n3,0

. . . . . . . .

. . . . . . . .

xi ni,1 ni,2 ni,3 ni,j . . ni,0

. . . . . . .

. . . . . .

xk nk,1 nk,2 . . nk,j . nk,h nk,0


totale n0,1 n0,2 n0,3 . n0,j . n0,h N



Le quantità nij rappresentano le frequenze doppie, cioè il numero di unità statistiche che hanno presentato contemporaneamente la modalità xi del fenomeno X e la modalità yj del fenomeno Y.

Le quantità ni0 rappresentano i totali per riga e cioè le frequenze del fenomeno X indipendenti dalla Y. Ad esempio n20 è la frequenza della modalità x2 indipendentemente da quale modalità di Y si è verificata.

Le quantità n0j sono i totali per colonna cioè le frequenze del fenomeno Y indipendenti dalla X. Ad esempio n02 è la frequenza di y2 indipendentemente da quale modalità di X si è verificata.

Dalla tabella a doppia entrata si possono costruire le DISTRIBUZIONI MARGINALI o PARZIALI della X e della Y:





DISTRIBUZIONE MARGINALE DISTRIBUZIONE MARGINALE

DELLA X DELLA Y


xi ni yj nj


x1 n10 y1 n01

x2 n20 y2 n02

. . . .

. . . .

xi ni0 yj n0j

. . . .

. . . .

xk nk0 yh n0h


totale N totale N


Dalla tabella a doppia entrata si possono costruire le DISTRIBUZIONI CONDIZIONATE DI X DA Y E DI Y DA X:


DISTRIBUZIONE CONDIZIONATA DI X DA y1 T f(X/Y=y1) si considerano le frequenze della prima colonna


xi ni1


x1 n11

x2 n21

. .

. .

xi ni1

. .

. .

xk nk1

n01

DISTRIBUZIONE CONDIZIONATA DI X DA yj T f(X/Y=yj) si considerano le frequenze della j-esima colonna


xi nij

x1                n1j

x2 n2j

.

.

xi                nij

.

.

xk                nkj


n0j

e così via.




DISTRIBUZIONE CONDIZIONATA DI Y DA x2 T f(Y/X=x2) si considerano le frequenze della seconda riga


yj n2j


y1 n21

y2 n22

.

.

yj n2j

.

.

yh n2h


n20



DISTRIBUZIONE CONDIZIONATA DI Y DA xi T f(Y/X=xi) si considerano le frequenze della i-esima riga


Yj nij


Y1 ni1

Y2 ni2

.

.

yj nij

.

.

yh nih


ni0


Per le distribuzioni condizionate si possono calcolare le MEDIE CONDIZIONATE o subordinate di X ad Y:


x/Y = x1n11+x2n21+..+xini1+.+xknk1

n01



x/Yj = x1n1j+x2n2j+.+xinij+.+xknkj

n0j

e le MEDIE CONDIZIONATE DI Y AD X :


y/X = y1n11+y2n12+.+yjn1j+.+yhn1h

n10


y/Xi = y1ni1+y2ni2+.+yjnij+..+yhnih

ni0




ANALISI DELLE RELAZIONI TRA VARIABILI STATISTICHE

Molto spesso siamo interessati a capire se tra 2 fenomeni X ed Y possa esistere una relazione di dipendenza.

Si distinguono diversi tipi di dipendenza:


1)DIPENDENZA STOCASTICA O IN GENERALE

data la tabella a doppia entrata si dirà che X è indipendente da Y e viceversa se la frequenza relativa della distribuzione condizionata non è diversa dalla frequenza relativa della distribuzione marginale cioè se

nij = ni0

n0j N

per ogni i e j, questa condizione può anche scriversi come:

nij = ni0n0j

N

In altre parole X ed Y sono stocasticamente indipendenti quando la frequenza doppia (nij) è uguale al prodotto dei totali parziali corrispondenti diviso l'ammontare N della popolazione.

Se nij ni0n0j si dirà che X ed Y sono DIPENDENTI

N

Questo tipo di dipendenza è bilaterale cioè X dipende da Y ma anche viceversa.

2)DIPENDENZA IN MEDIA

Data la tabella a doppia entrata diremo che X è indipendente in media da Y se tutte le medie condizionate sono tra loro uguali e uguali alla media generale, cioè se:

_ _ _ _ _

x/Y =x/Y =..= x/Yj=.. = x/Yh = x

in caso contrario cioè se almeno una delle medie condizionate è diversa dalle altre diremo che X è dipendente in media da Y.

Analogamente diremo che Y è indipendente da X se le medie condizionate di Y sono tutte tra loro uguali, cioè se

_ _ _ _

y/X =y/X =...=y/Xi=..=y/Xk

mentre diremo che Y dipende in media da X se almeno una di tali medie condizionate è diversa dalle altre.

La dipendenza in media è UNILATERALE cioè se Y dipende in media da X non è detto che si verifichi il contrario.

Nel caso in cui tra X ed Y esiste una dipendenza in media unidirezionale si individua quale dei due fenomeni è antecedente e quale è conseguente.

Il fenomeno antecedente è la variabile indipendente, il carattere conseguente è la variabile dipendente.

L'esistenza di una dipendenza tra X ed Y significa che tra esse esiste un legame di tipo funzionale:

y* = f(x)

lo studio della regressione consiste nel determinare il tipo di funzione che meglio esprime il legame esistente.(vedi app.2)


MODELLO DI REGRESSIONE LINEARE SEMPLICE

Una variabile statistica doppia può essere rappresentata graficamente da una nuvola di punti (xi,yj), chiamata SCATTER DIAGRAM del tipo:

y .

. . .

. . .

. . .

. . .


x

si vuole individuare l'equazione di una retta teorica

y*=a+bx

chiamata RETTA DI REGRESSIONE che possa esprimere nel modo migliore la relazione esistente tra X ed Y e approssimare il più possibile lo scatter diagram.

Per calcolare i parametri a (intercetta) e b (coefficiente angolare) di tale retta si utilizza il metodo dei MINIMI QUADRATI che consiste nel minimizzare le distanze verticali tra i punti dello scatter e i punti sulla retta.

Graficamente

y . y*=a+bxi

.

yi* . .

. . . yi*-yi

. .

yi


x

si sceglie quella retta per la quale la somma dei quadrati degli scarti tra valori osservati yi e valori teorici yi* è minima, cioè:

N

S (yi*-yi)2= minimo

i=1

che può anche scriversi sostituendo ad yi* l'espressione della retta a+bxi


N

S (a+bxi-yi)2=minimo

i=1

utilizzando il calcolo differenziale per la minimizzazione occorre fare le derivate parziali rispetto ai due parametri incogniti ed eguagliarle a 0, la soluzione del sistema


d =0

da

d =0

db


ci fornisce le espressioni per il calcolo die parametri:

_ _

S (xi-x)(yi-y) Codevianza (x,y)

b= _ =

S (xi-x)2                         Devianza(x)


dividendo numeratore e denominatore per N si ha


Codevianza(x,y) / N Covarianza(x,y) sxy

= =

Devianza(x) / N Varianza(x) sx


_ _

a = y - b x


La retta di regressione passa sempre per il punto medio di

_ _

coordinate ( x, y ).

Spieghiamo il significato dei due parametri:

parametro a T è l'intercetta della retta cioè il punto in cui essa tocca l'asse delle ordinate ed esprime il valore assunto da Y quando X=0

parametro b T è il coefficiente angolare della retta cioè la sua pendenza, esso si definisce COEFFICIENTE DI REGRESSIONE

  • se b > 0 la retta di regressione è inclinata positivamente cioè verso destra e ciò significa che tra X ed Y esiste una relazione lineare diretta, cioè Y aumenta in media al crescere di X e viceversa.
  • Se b < 0 la retta di regressione è inclinata negativamente cioè verso sinistra, questo significa che tra X ed Y esiste un legame lineare inverso cioè Y aumenta in media al diminuire di X e viceversa.
  • Se b = 0 la retta di regressione è orizzontale e da ciò si deduce che tra X ed Y non c'è alcuna relazione lineare cioè essi sono indipendenti in media.

La retta di regressione può anche essere del tipo:

x*=a+byi

in tal caso Y è la variabile indipendente e X è la variabile dipendente, i parametri sono dati da:

_ _

S (xi-x)(yi-y) Codev.(X,Y) sxy

b = _ = =

S (yi-y)2 Dev.(Y) sy


_ _

a= x - b y


formule alternative di calcolo per il coefficiente di regressione b


riscriviamo la formula generale del coefficiente di regressione

n _ _ _ _

S (xi-x)(yi-y) Cod.(X,Y)

b= i=1                   =

n _

S (xi-x)2 Dev.(X)

i=1

effettuiamo il prodotto al nemeratore e sviluppiamo il quadrato del binomio al denominatore

n _ _ __

S (xiyi-xiy-xyi+xy)

= i=1              scindiamo la sommatoria

n _ _

S (xi2+x2-2xix)

i=1

n _n _ n __

Sxiyi- ySxi-xSyi+Nxy

= i=1 i=1 i=1

n _ _ n

Sxi2+Nx2-2xSxi

i=1 i=1



_ _ __

Sxiyi-NySxi/N-NxSyi/N+Nxy

= _ _

Sxi2+Nx2-2NxSxi/N

__ __ __ __

Sxiyi-Nxy-Nxy+Nxy Sxiyi-Nxy

= _ _ = _

Sxi2+Nx2-2Nx2 Sxi2-N(x)2


CALCOLO DEI PARAMETRI DI REGRESSIONE NEL CASO DI TABELLA A DOPPIA ENTRATA


k h _ _

S S (xi-x)(yj-y)nij Cod.(XY)

b= i=1j=1                                =

k _

S (xi-x)2ni0 Dev.(X)

i=1


nel caso di formula abbreviata

_ _

S S xiyjnij - N x y

b= i j

_

S xi2ni0 - N(x)2

i

il calcolo del parametro a non cambia :

_ _

a=y-bx


VARIANZA DI REGRESSIONE

Si vuole valutare la significatività della retta di regressione cioè quanto è forte la dispersione dei valori osservati (yi) rispetto ai valori teorici cioè sulla retta (yi*).

A tal fine si analizzano tre tipi di devianze:

1)DEVIANZA TOTALE T è la somma dei quadrati degli scarti tra valori osservati (yi) e la loro media ( ), cioè

n

Dev(Y)= (yi-

i=1

che è una misura della dispersione (N.B.è il numeratore della varianza di Y) già presente nel fenomeno Y.

Graficamente: le ordinate dei punti dello scatter diagram rappresentano gli yi osservati, la media può essre rappresentata mediante una retta orizzontale.


y

. .

. . . yi-

. .

. .



x


le differenze yi- sono le distanze verticali dei punti dalla retta.

2) DEVIANZA DI REGRESSIONE T è la somma dei quadrati degli scarti dei valori teorici (yi*) dal valore medio ( ), cioè

n

Dev ( R )= S (yi*-

i=1

e ci indica la dispersione dei valori teorici sulla retta (yi*) rispetto alla media.

Graficamente: i valori teorici (yi*) sono rappresentati dalla retta di regressione, la media ( ) è rappresentata dalla retta orizzontale

y                          yi*


yi*-


X

le differenze yi*- sono le distanze verticali tra la retta di regressione e la retta orizzontale della media.


3) DEVIANZA RESIDUA O DELL'ERRORE T è la somma dei quadrati degli scarti tra valori osservati (yi) e valori teorici (yi*), cioè è quella funzione che con il metodo dei minimi quadrati abbiamo minimizzato (N.B. non annullato!), cioè

n

Dev( E )= S (yi-yi*)2

i=1

Graficamente: i valori osservati sono le ordinate dei punti dello scatter, i valori teorici sono i punti sulla retta di regressione


yi

. yi*

.

. . .

. . yi-yi*

. .

.


xi


le differenze sono rappresentate dalle distanze tra i punti dello scatter e la retta di regressione.


Si dimostra che :

Dev(Y) = Dev(R) + Dev(E)

Dimostrazione T partiamo dall'espressione generale della devianza totale

n

Dev(Y) = S (yi-

i=1

aggiungiamo e sottraiamo yi*


S (yi-yi*+yi*- )2 sviluppiamo il quadrato del binomio e

a b scindiamo la sommatoria


S (yi-yi*)2 + S (yi*- S (yi-yi*)(yi*-


è 0 o comunque piccolissimo


S(yi-yi*)2+S(yi*-


Dev(E) + Dev(R) C.V.D.


da cui si deduce che Dev(R)=Dev(Y)-Dev(E)


Per quantificare quanta parte della devianza totale è determinata dalla retta di regressione o anche il grado di accostamento della retta allo scatter, si utilizza l'INDICE DI DETERMINAZIONE LINEARE dato da:


Dev(R) Dev(Y)-Dev(E) Dev(E)

r2 = = = 1 -

Dev(Y) Dev(Y) Dev(Y)


Esso assume sempre un valore compreso tra 0 e 1

r2


r2=0T se Dev(R)=S(yi*- )2=0 cioè tutti i valori teorici yi* coincidono con , pertanto la retta di regressione coincide con la retta orizzontale, questo significa che b=coefficiente di regressione è =0 e quindi Y è indipendente in media da X.


r2=1 T se Dev(E)= S(yi-yi*)2 =0 cioè quando tutti i valori osservati sono allineati lungo la retta di regressione, il grado di accostamento è massimo e quindi yi=yi*, in tal caso diremo che esiste perfetta dipendenza in media tra X ed Y.


In definitiva l'indice r2 serve a completare l'analisi di regressione perché quantifica la relazione di dipendenza, cioè più il suo valore è vicino a 1 più forte è la dipendenza e quindi il grado di accostamento, più il suo valore è vicino a 0 più debole è la relazione lineare tra X ed Y.

Per il calcolo di r2 si utilizza la relazione:

___ _ ___

Cod(X,Y) S(xi-X)(yi- (Sxiyi-NX

r2= = =

_ _

Dev(X) Dev(Y) S(xi-X)2S(yi- )2 (Sxi2-NX2)(Syi2-N










INTERDIPENDENZA E CORRELAZIONE

Definiamo il COEFFICIENTE DI CORRELAZIONE LINEARE DI BRAVAIS-PEARSON il seguente rapporto :


Cod(X,Y)

r=


Dev(X)Dev(Y)


Dividiamo numeratore e denominatore per N


Cod(X,Y)/N Cov(X,Y) σxy

r=         = =


Dev(X)/N.Dev(Y)/N Var(X).Var(Y) σx2σy2


σxy

σxσy


Formula abbreviata :

_

Σxiyi - N X

r=

(Sxi2-NX2)(Syi2-N


esso può assumere valori tra -1 e 1

r

*per r=-1T diremo che tra X e Y c'è perfetta discordanza o correlazione negativa cioè a valori più piccolo dell'uno corrispondono valori più grandi dell'altro di segno opposto e viceversa.

*per r=1T diremo che tra X e Y c'è perfetta concordanza o correlazione positiva cioè a valori più piccoli dell'uno corrispondono valori piccoli dell'altro, o anche a valori grandi dell'uno valori grandi dell'altro con lo stesso segno.

*per r=0T si dirà che tra X e Y c'è in correlazione e dunque indipendenza lineare.

In generale se

r> T concordanza

r< Tdiscordanza

Il concetto di correlazione è strettamente collegato a quello di dipendenza lineare, possiamo infatti considerare vari esempi in cui associamo diversi valori di r alla forma dello scatter:

yi

r=-1 i punti sono perfettamente allineati lungo

la retta di regressione decrescente, perfetta

correlazione negativa e anche perfetta dipendenza

lineare inversa


xi



yi r=-0,96 i punti dello scatter sono molto vicini

. alla retta di regressione decrescente, correlazione

. . . negativa e dipendenza lineare inversa molto forte

. .




xi


yi .

. . r=-0.58

. .


. .


.


xi


yi

r=0 incorrelazione, lo scatter assume forma

. . . quasi circolare per cui si ha indipendenza lineare

. ..

. . .

. . . .

.


xi


yi              r=0,80

. .

.

.

. .

.



xi









yi r=0.98 i punti dello scatter sono molto vicini

alla retta crescente, correlazione positiva e

dipendenza lineare diretta molto forte


. .

. . . .

. .




xi


yi                       r=1 i punti dello scatter sono perfettamente allineati


perfetta correlazione positiva e anche


perfetta dipendenza lineare diretta



xi


Occorre fare alcune considerazioni importanti:

A)il coefficiente di correlazione studia l'interdipendenza tra X ed Y e non semplicemente la loro dipendenza in media, se r=0 non bisogna concludere che tra X e Y c'è indipendenza ma con maggiore precisione occorre che si dica che c'è indifferenza cioè mancanza di concordanza o discordanza, in altre parole indipendenza lineare. Invece se tra X ed Y c'è indipendenza in media allora certamente r=0.

B) Esiste una precisa relazione tra l'indice di determinazione (r2) e il coefficiente di correlazione (r), infatti riprendiamo la formula che esprime r:


Codev.(X,Y) eleviamo al quadrato

r=

Dev(X)Dev(Y)



Codev(X,Y)

r2=

Dev(X)Dev(Y)


Quindi l'indice di determinazione è il quadrato del coefficiente di correlazione e viceversa il coefficiente di correlazione è la radice quadrata dell'indice di determinazione.

C)Il coefficiente r non ci informa su quale delle due variabili X ed Y è antecedente e quale è conseguente.

Supponiamo di aver calcolato i coefficienti di regressione sia di X in Y che di Y in X, cioè:

Codev(X,Y)

bY/X=

Dev(X)


Codev(X,Y)

bX/Y=

Dev(Y)


Si dimostra che r=  bY/X . bX/Y proviamolo:


bY/X.bX/Y = Codev(X,Y) . Codev(X,Y) = Codev(X,Y)

Dev(X) Dev(Y) Dev(X)Dev(Y)



Codev(X,Y) = r C.V.D.

Dev(X)Dev(Y)


Scarica gratis La variabile statistica doppia
Appunti su: devianza residua diviso devianza totale della retta di regressione, variabile statistica doppia,



Scarica 100% gratis e , tesine, riassunti



Registrati ora

Password dimenticata?
  • Appunti superiori
  • In questa sezione troverai sunti esame, dispense, appunti universitari, esercitazioni e tesi, suddivisi per le principali facoltà.
  • Università
  • Appunti, dispense, esercitazioni, riassunti direttamente dalla tua aula Universitaria
  • all'Informatica
  • Introduzione all'Informatica, Information and Comunication Tecnology, componenti del computer, software, hardware ...

Appunti computer computer
Tesine Portoghese Portoghese
Lezioni Spagnolo Spagnolo