Kapitel 2 Das Poisson-Modell

Das Poisson-Modell ist die allgemeine Grundlage für die Modellierung von Zählvorgängen / Counts, und auch wenn es in seiner “reinen” Form in der Praxis meist nicht ausreicht, bauen alle weiteren Methoden auf die eine oder andere Art darauf auf. Auch die häufig verwendete Negative Binomialverteilung ist letztlich eine Poisson-Verteilung mit Gamma-verteilter Varianz, also eine Erweiterung der Poisson um einen zusätzlichen Parameter. Das gleiche Prinzip findet sich in allen hier besprochenen Verteilungen.

Für eine ausführliche Diskussion der Eigenschaften, siehe Winkelmann (2010) (p. 7-20).

Grundlage zur Modellierung ist das GLM mit den dazugehörigen Voraussetzungen:

  • Die abhängige Variable \(Y\) kommt aus der Exponentialfamilie (Normal-, Poisson-, Gamma-, Binomialverteilung)
  • Modelliert wird der lineare Prädiktor \(\eta_i = \boldsymbol{x}_i' \boldsymbol{\beta}\).
  • Response- und Linkfunktionen \(h(x)\) und \(g(x) = h^{-1}(x)\)

Definition 2.1 (Poisson-Verteilung) Eine Poisson-verteilte Zufallsvariable \(Y \sim \mathrm{Poi}(\mu)\)1 hat die Dichte

\[\begin{equation*} \mathrm{P}(Y = y) = \frac{\mu^y \exp(-\mu)}{y!} \quad, y \in \mathbb{N}_0 \end{equation*}\]
Poisson-Verteilungen mit ausgewählten Parametern.

Abbildung 2.1: Poisson-Verteilungen mit ausgewählten Parametern.

Definition 2.2 (Poisson-Modell) Die Zielvariablen \(y_i \in \mathbb{N}_0\) sind (bedingt) unabhängig gegeben der Kovariablen \(x_{i1}, x_{i2}, \ldots, x_{ik}\).

Die Rate \(\mu_i = \mathbb{E}(y_i\ |\ \mathbf{x}_i)\) der Poissonverteilung wird in der Regel log-linear modelliert als

\[\begin{align*} \log(\mu_i) &= \eta_i = \mathbf{x}_i^\prime \boldsymbol{\beta} = \beta_0 + \beta_1 x_1 + \ldots + \beta_k x_{ik} \\ \mu_i &= \exp(\eta_i) = \exp(\beta_0) \cdot \exp(\beta_1 x_1) \cdot \ldots \cdot \exp(\beta_k x_k) \end{align*}\]

Vgl. Fahrmeir, Kneib, und Lang (2009)

Für das log-lineare Poisson-Modell entsprechen die resultierenden Koeffizienten der Veränderung der log-counts – durch Exponentiation lassen diese sich als incidence rate ratios (IRR) interpretieren.

Um auf ungleiche Expositionsdauern oder -gebiete zu adjustieren wird ein offset (oder auch exposure) benötigt. Dazu dient der Koeffizient \(t\), der die Länge der Zeit unter Exposition angibt:

\[\begin{equation} f(y, \mu) = \frac{\exp(\mu) (t \mu)^y}{y!} \end{equation}\]

Damit entspricht \(t \mu\) der Inzidenzrate des Outcomes adjustiert auf e.g. die geographische Lage oder Expositionsdauer. Ohne Offset entspräche \(t = 1\). Für als Offset wird in der Regel \(\log(t)\) verwendet, womit gelten:

\[\begin{align*} \hat{\mu} &= \exp{x \boldsymbol{\beta} + \log(t)} \\ \Leftrightarrow \exp(x \boldsymbol{\beta}) &= \frac{\hat{\mu}}{t} \\ \Leftrightarrow \hat{\mu} &= t \exp(x \boldsymbol{\beta}) \end{align*}\]

Ein offset kann z.B. in R via + offset(log(variable)) in der model formula oder über das Argument offset = log(variable) in glm und verwandten Funktionen angegeben werden.

Literatur

Fahrmeir, Ludwig, Thomas Kneib, und Stefan Lang. 2009. Regression: Modelle, Methoden und Anwendungen. 2. Aufl. Statistik und ihre Anwendungen. Berlin: Springer.

Winkelmann, Rainer. 2010. Econometric Analysis of Count Data. 5th ed. Berlin: Springer Berlin.