Omocedicità ciò che è, importanza ed esempi

Omocedicità ciò che è, importanza ed esempi

IL Omocedicità In un modello statistico predittivo si verifica se in tutti i gruppi di dati di una o più osservazioni, la varianza del modello rispetto alle variabili esplicative (o indipendenti) rimane costante.

Un modello di regressione può essere omocedastico o no, nel qual caso parliamo eterocedicità.

Figura 1. Cinque gruppi di dati e regolazione della regressione del set. La varianza relativa al valore previsto è la stessa in ciascun gruppo. (Upav-Library.org)

Un modello di regressione statistica di diverse variabili indipendenti è chiamato omocedastico, solo se la varianza dell'errore variabile previsto (o la deviazione standard della variabile dipendente) rimane uniforme per diversi gruppi di variabili esplicative o indipendenti.

Nei cinque gruppi di dati nella Figura 1, la varianza è stata calcolata in ciascun gruppo, rispetto al valore stimato dalla regressione, rivolgendosi allo stesso modo in ciascun gruppo. Si presume inoltre che i dati seguano la distribuzione normale.

A livello grafico significa che i punti sono ugualmente dispersi o sparsi attorno al valore previsto dalla regolazione della regressione e che il modello di regressione ha lo stesso errore e validità per l'intervallo della variabile esplicativa.

[TOC]

Importanza dell'omocedicità

Per illustrare l'importanza dell'omocedasticità nelle statistiche predittive, è necessario contrastare con il fenomeno opposto, eterocedicità.

Omocedasticità contro eterocedicità

Nel caso della Figura 1, in cui esiste l'omocedicità, è soddisfatto che:

Var ((y1-y1); x1) ≈ var ((y2-y2); x2) ≈ ... var (y4-y4); x4)

Dove var ((yi-ii); xi) rappresenta la varianza, la coppia (xi, yi) rappresenta un fatto del gruppo I, mentre Yi è il valore che prevede la regressione per il valore XI medio del gruppo. La varianza dei dati del gruppo I è calcolata come segue:

Var ((yi -ii); xi) = ∑j (yij - yi)^2/n

Al contrario, quando si verifica l'eterocedicità, il modello di regressione potrebbe non essere valido per l'intera regione in cui è stato calcolato. La Figura 2 mostra un esempio di questa situazione.

Può servirti: quali sono gli angoli alternativi interni? (Con esercizi) figura 2. Gruppo di dati che ha eterocedicità. (Elaborazione proprie)

Nella Figura 2 tre gruppi di dati e l'insieme del set sono rappresentati da una regressione lineare. Va notato che i dati nel secondo e nel terzo gruppo sono più sparsi che nel primo gruppo. Il grafico della Figura 2 mostra anche il valore medio di ciascun gruppo e la sua barra di errore ± σ, essendo la deviazione standard σ di ciascun gruppo di dati. Va ricordato che la deviazione standard σ è la radice quadrata della varianza.

È chiaro che nel caso dell'eterocedicità, l'errore della stima della regressione sta cambiando nell'intervallo dei valori della variabile esplicativa o indipendente e negli intervalli in cui questo errore è molto grande, la previsione per regressione è inaffidabile o non applicabile.

In un modello di regressione, errori o rifiuti (y -y) devono essere distribuiti con uguale varianza (σ^2) durante l'intervallo di valori variabili indipendenti. È per questo motivo che un buon modello di regressione (lineare o non lineare) deve superare il test di omocedasticità. 

Test di omocedicità

I punti mostrati nella Figura 3 corrispondono ai dati di uno studio che cerca una relazione tra i prezzi (in dollari) delle case a seconda delle dimensioni o dell'area in metri quadrati.

Il primo modello che viene provato è quello di una regressione lineare. In primo luogo si noti che il coefficiente di determinazione R^2 dell'adeguamento è piuttosto elevato (91%), quindi si può pensare che l'aggiustamento sia soddisfacente.

Tuttavia, due regioni possono essere chiaramente distinte dal grafico della regolazione. Uno di questi, quello a destra bloccato in un ovale, incontra l'omocedasticità, mentre la regione di sinistra non ha omocedasticità.

Può servirti: grado di un polinomio: come è determinato, esempi ed esercizi

Ciò significa che la previsione del modello di regressione è adeguata e affidabile nell'intervallo compreso tra 1800 m^2 e 4800 m^2 ma molto inadeguata al di fuori di questa regione. Nell'area eterocedica non solo l'errore è molto grande, ma anche i dati sembrano seguire un'altra tendenza diversa dalla proposta dal modello di regressione lineare.

Figura 3. Prezzi delle abitazioni vs area e modello predittivo mediante regressione lineare, mostrando aree di omocedasticità e eterocedicità. (Elaborazione proprie)

Il grafico della dispersione dei dati è il test più semplice e visivo della loro omocedasticità, tuttavia a volte non è così evidente come nell'esempio mostrato nella Figura 3, è necessario ricorrere alla grafica con variabili ausiliarie.

Variabili standardizzate

Con lo scopo di separare le aree in cui vengono soddisfatti l'omocedasticità e in cui non vengono introdotte le variabili standardizzate Zres e Zreded:

Zres = ABS (y - y)/σ

Zpred = y/σ

Va notato che queste variabili dipendono dal modello di regressione applicato, poiché è il valore della previsione di regressione. Di seguito è riportato il grafico di dispersione ZRES vs Zred per lo stesso esempio:

Figura 4. Va notato che nella zona dell'omocedasticità gli zres rimane uniforme e piccola nella regione di previsione (elaborazione propria).

Nel grafico della Figura 4 con le variabili standardizzate, l'area in cui l'errore residuo è piccolo e l'uniforme è chiaramente separata, rispetto a quella che non lo fa. Nella prima area, l'omocedasticità è soddisfatto mentre l'errore residuo è molto variabile e grande.

Una regolazione della regressione viene applicata allo stesso gruppo di dati 3. Il risultato è mostrato nella figura seguente:

Figura 5. Nuove aree di omocedasticità ed eterocedicità nell'adeguamento dei dati con un modello di regressione non lineare. (Elaborazione proprie).

Nel grafico della Figura 5 le aree omocediche ed eterocediche dovrebbero essere chiaramente notate. Va anche notato che queste aree sono state scambiate rispetto a quelle che si sono formate nel modello di regolazione lineare.

Può servirti: tipi di angoli, caratteristiche ed esempi

Nel grafico della Figura 5 è evidente che anche quando esiste un coefficiente di determinazione della regolazione piuttosto elevata (93,5%), il modello non è adatto per l'intero intervallo della variabile esplicativa, poiché i dati per valori più vecchi di 2000 m^2 ha eterocedasticità.

Test di omocedasticità non -ma

Uno dei test non interari più utilizzati per verificare se viene soddisfatto l'omocedasticità è il Test Breusch-Pagan.

Tutti i dettagli di questo test non saranno forniti in questo articolo, ma le sue caratteristiche fondamentali e le fasi dello stesso sono ampiamente delineate:

  1. Il modello di regressione viene applicato ai dati N e la varianza dello stesso viene calcolata rispetto al valore stimato dal modello σ^2 = ∑j (yj - y)^2/n.
  2. È definita una nuova variabile ε = ((yj - y)^2) / (σ^2)
  3. Lo stesso modello di regressione viene applicato alla nuova variabile e vengono calcolati i suoi nuovi parametri di regressione.
  4. Viene determinato il valore critico chi quadrato (χ^2), essendo questa metà della somma dei nuovi rifiuti di quadrati nella variabile ε.
  5. La tabella di distribuzione di chi quadrata viene utilizzata considerando il livello di significato sull'asse x (di solito 5%) e il numero di gradi di libertà (#di variabili di regressione tranne l'unità), per ottenere il valore della scheda.
  6. Il valore critico ottenuto nel passaggio 3 viene confrontato con il valore trovato nella tabella (χ^2).
  7. Se il valore critico è inferiore a quello della tabella hai l'ipotesi nulla: c'è omocedicità
  8. Se il valore critico è al di sopra di quello della tabella hai l'ipotesi alternativa: non c'è omocedasticità.

La maggior parte dei pacchetti di computer statistici come: SPSS, Minitab, R, Python Panda, SAS, Statgraphic e molti altri incorporano il test di omocedasticità di Breusch-Pagan. Un altro test per verificare l'uniformità della varianza Test Levene.

Riferimenti

  1. Box, Hunter & Hunter. (1988) Statistiche per i ricercatori. Ho invertito i redattori.
  2. Johnston, J (1989). Metodi di econometria, viceni -Editori.
  3. Murillo e González (2000). Manuale di econometria. Università di Las Palmas de Gran Canaria. Estratto da: Ulpgc.È.
  4. Wikipedia. Omocedicità. Recuperato da: è.Wikipedia.com
  5. Wikipedia. Omoscedasticità. Recuperato da: in.Wikipedia.com