2.2 Dispersion

Definition 2.3 (Equi-, Extra-, Over-, Underdispersion) Für Zählvariablen \(y_i \in \mathbb{N}_0\) und erklärenden Variablen \(\mathbf{x}_i\) gilt innerhalb eines Modells:

\[\begin{align*} \text{Equdispersion:} \quad & \mathrm{Var}(y_i) = \mathrm{Var}(y_i\ |\ \mathbf{x}_i) \\ \text{Extradispersion:}\quad & \mathrm{Var}(y_i) \neq \mathrm{Var}(y_i\ |\ \mathbf{x}_i) \\ \text{Overdispersion:} \quad & \mathrm{Var}(y_i) > \mathrm{Var}(y_i\ |\ \mathbf{x}_i) \\ \text{Underdispersion:}\quad & \mathrm{Var}(y_i) < \mathrm{Var}(y_i\ |\ \mathbf{x}_i) \end{align*}\]

Definition 2.4 (Poisson-Overdispersion) Innerhalb eines Poisson-Modells (vgl. Abschnitt 2) mit der Annahme

\[\begin{align*} y_i\ |\ \mathbf{x}_i &\sim \mathrm{Poi}(\mu_i) \\[1.5em] \mu &= \mathbb{E}(y_i\ |\ \mathbf{x}_i) = \mathrm{Var}(y_i\ |\ \mathbf{x}_i) \quad \text{(Equidispersion)} \end{align*}\]

spricht man von Poisson-Overdispersion wenn die Varianz der Beobachtungen die erwartete Varianz des Poisson-Modells übersteigt:

\[\begin{equation*} \mathrm{Var}(y_i\ |\ \mathbf{x}_i) > \mathbb{E}(y_i\ |\ \mathbf{x}_i) \end{equation*}\]

in einem Modell mit overdispersion gilt die Annahme:

\[\begin{equation*} \mathrm{Var}(y_i\ |\ \mathbf{x}_i) = \theta \cdot \mu_i \end{equation*}\]

Mit Dispersionsparameter \(\theta\) (vgl. Fahrmeir, Kneib, und Lang 2009, p. 210)

Als Dispersionsstatistik können deviance dispersion oder Pearson dispersion berechnet werden. Laut Hilbe (2014) ist die Pearson dispersion zu bevorzugen, da sie für echte Poisson-Modelle gleich 1 ist, wohingegen die deviance dispersion nach oben verzerrt ist.

Definition 2.5 (Pearson-Dispersion) Nach Hilbe (2014) (p. 77ff):

Die Pearson \(\chi^2\)-Statistik ist die Summe der quadrierten (Pearson-)Residuen gewichtet mit der Modellvarianz:

\[\begin{equation*} \chi_{\text{Pearson}}^2 = \sum_{i=1}^n \frac{(y_i - \hat{\mu}_i)^2}{\mathrm{Var}(\hat{\mu}_i)} \end{equation*}\]

und die Pearson-Dispersionsstatistik:

\[\begin{equation*} D = \frac{\chi_{\text{Pearson}}^2}{\mathrm{df}} \end{equation*}\]

Mit der Interpretation

\[\begin{equation*} \mathrm{D} = \begin{cases} < 1 & \Longrightarrow \text{Underdispersion} \\ 1 & \Longrightarrow \text{Equidispersion (Poisson)} \\ > 1 & \Longrightarrow \text{Overdispersion} \end{cases} \end{equation*}\]

Für Modelle moderater Größe kann man ab Werten über 1.25 von overdispersion sprechen, wobei für große Stichproben auch schon ab 1.05 overdispersion vorliegen kann – zumindest nach Hilbe (2014) (p. 82), der aber leider keine konkreten Angaben für seine Definition von “moderaten” oder “großen” Stichproben macht.

In R kann die Pearson-Dispersion wie folgt berechnet werden:

# Model fit
mod <- glm(y ~ x1 + x2 + x3, data = sim, family = poisson(link = "log"))

# Pearson dispersion
sum(resid(mod, type = "pearson")^2) / mod$df.residual

…wofür wir in Abschnitt 1.2.2 eine Hilfsfunktion dispersion() definiert haben.

2.2.1 Overdispersion

Der vermutlich häufigste Fall für Count-Daten: Die Varianz der abhängigen Variable ist größer als ihr Erwartungswert, bzw. größer als ihre erwartete Varianz innerhalb eines Modells. Hilbe (2014) unterscheidet zwischen echter und scheinbarer (apparent) Overdispersion, wobei letztere oft durch geeignete Korrekturen kompensiert werden kann, wobei echte Overdisperion sowohl Parameterschätzung als auch Modellanpassung im Allgemeinen beeinträchtigt.

Nach Hilbe (2014) (p. 82) entsteht echte Overdispersion durch:

  • Positive Korrelation zwischen responses
  • Große Variation zwischen response-probabilities und counts
  • Verletzungen der Verteilungsannahme (i.e. Poissonverteilung)
  • “Proneness”: Frühere Ereignisse beeinflussen das Auftreten späterer Ereignisse2

Ursachen für scheinbare (apparent), und damit (bedingt) korrigierbare Overdispersion nach Hilbe (2014) (p. 41, 82):

  1. Fehlende explanatorische Prädiktoren
  2. Ausreißer
  3. Fehlende Interaktionsterme
  4. Ein Prädiktor muss transformiert werden
  5. Die Daten sind zu dünn besetzt (sparse)
  6. Fehlende Werte, die nicht zufällig sind (missing not at random, MNAR – siehe auch Anhang B.1

Ein einfaches simuliertes Beispiel zur Auswirkung von fehlenden Prädiktoren:

# Generate binary variable in [0, 1] with a given proportion of 1's
rbinary <- function(n, prob = 0.5) {
  sample(0:1, size = n, replace = TRUE, prob = c(1 - prob, prob))
}

set.seed(436)
n <- 1000

sim <- tibble(
  x1 = rbinary(n, .1),
  x2 = rbinary(n, .2),
  x3 = rbinary(n, .3),
  eta = 0.5 + 1 * x1 + 2 * x2 + 0.5 * x3,
  mu = exp(eta),
  py = rpois(n, mu)
)

# Korrektes modell:
mod <- glm(py ~ x1 + x2 + x3, data = sim, family = poisson(link = "log"))
dispersion(mod)
#> X-squared(996) = 1029.70
#> Pearson Dispersion = 1.034
# Modell mit fehlendem Prädiktor:
mod2 <- glm(py ~ x1 + x3, data = sim, family = poisson(link = "log"))
dispersion(mod2)
#> X-squared(997) = 7669.65
#> Pearson Dispersion = 7.693

2.2.2 Underdispersion

Underdispersion ist der Fall, wenn vorliegende Daten eine geringere Varianz aufweisen, als auf Basis eines Poisson-Modells erwartet würde, das heißt die Daten sind “enger zusammengeklumpt”. Bei underdispersion werden die Standardfehler des Modells überschätzt, im Gegensatz zur overdispersion, bei der Standardfehler unterschätzt werden (Hilbe 2014, p. 210).

Im Allgemeinen wird für diese Situation die generalized Poisson empfohlen (Hilbe 2014), da diese Erweiterung der Poisson-Verteilung nicht nur einen zusätzlichen Parameter für die Varianz hat (analog NB, PIG), sondern dieser Parameter auch negativ sein kann.

Weiterhin taucht im Kontext von hurdle models (siehe B.3) folgende Bemerkung auf:

[…] that underdispersion occurs if zeros are less frequent than the parent distribution would predict. The higher the expected value of the Poisson distribution, the lower the predicted probability of zero outcome and the lower the scope for underdispersion. – (Winkelmann 2010, p. 180 (eigene Hervorhebung))

Daraus lässt sich auch schließen, dass in Situationen mit binären outcomes und sehr niedrigem Erwartungswert die erwartete Anzahl an Nullen sehr hoch sein wird – weshalb es an dieser Stelle vermutlich eine Überlappung zwischen underdispersion und zero-inflation gibt.

Literatur

Fahrmeir, Ludwig, Thomas Kneib, und Stefan Lang. 2009. Regression: Modelle, Methoden und Anwendungen. 2. Aufl. Statistik und ihre Anwendungen. Berlin: Springer.

Hilbe, Joseph M. 2014. Modeling Count Data. Cambridge: Cambridge University Press. https://doi.org/10.1017/CBO9781139236065.

Winkelmann, Rainer. 2010. Econometric Analysis of Count Data. 5th ed. Berlin: Springer Berlin.