B.3 Hurdle models

Die nachfolgende Beschreibung dient daher eher der Vollständigkeit, da hurdle models in bestimmten Anwendungsgebieten scheinbar recht populär sind – allerdings ist es vermutlich eher schwierig sie auf binäre outcomes anzuwenden.

Im Allgemeinen kann man zwei Arten von hurdle models unterscheiden, die jeweils aus zwei Modellkomponenten bestehen:

  • Nested hurdle models: Beide Komponenten nested (e.g. beide Poisson).
  • Non-nested hurdle models: Hurdle-Komponente als vollständig anderer Prozess betrachtet und via e.g. logit modelliert.

Zwei gängige Komponenten für unnested hurdle models:

  1. Binary 0,1 response, (logit oder probit)
    • Modellierung der Wahrscheinlichkeit für die non-zero counts
  2. Zero-truncated count model
  • Erlauben sowohl under- als auch overdispersion
  • (Unnested models) erlauben systematischen Unterschied im Prozess, der zu e.g. Outcomes = 0 vs. Outcomes > 0 führt, was durch die Wahl unterschiedlicher Modelle für beide Komponenten abgebildet wird

In diesem Fall entspricht das Resultat eines hurdle models zwei separat gefitteten Modellen (e.g. Pois + Logit), die getrennt interpretierbar sind (im Gegensatz zu zero-inflated models!).

Definition B.1 (Hurdle Model) Nach Winkelmann (2010), p. 179f:

Sei \(g_1(0)\) die Wahrscheinlichkeit des Outcomes \(0\) und \(g_1(k), k = 1, 2, 3, \ldots\) die Wahrscheinlichkeitsfunktion für natürliche Zahlen, dann ist die Wahrscheinlichkeitsfunktion eines hurdle-at-zero Modells:

\[\begin{align*} f(y = 0) &= g_1(0) \\ f(y = k) &= (1 - g_1(0)) g_2(k), \quad k = 1, 2, 3, \ldots \end{align*}\]

Bzw. nach Mullahy (1986) mit \(f_1\) und \(f_2\) als PMFs für natürliche Zahlen

\[\begin{align*} f(y = 0) &= f_1(0) \\ f(y = 1) &= \frac{1 - f_1(0)}{1 - f_2(0)} f_2(k) \\ &= \Theta f_2(k), \quad k = 1, 2, 3, \ldots \end{align*}\]

Wobei

  • \(f_2\) als parent process bezeichnet wird
  • \(1 - f_1(0)\) die Wahrscheinlichkeit angibt, die Hürde (\(y = 0\)) zu “überqueren” (“crossing the hurdle”).
  • \(1 - f_2(0)\) zur Normalisierung von \(f_2\) dient, um deren truncation zu berücksichtigen.

Der Erwartungswert des hurdle models ist

\[ \mathbb{E}_h(y) = \Theta \sum_{k=1}^\infty k f_2(k) = \Theta \mathbb{E}_2(y) \]

Mit \(\mathbb{E}_2\) als Erwartunsgwert von \(f_2\).

Mit \(f_2 = \mathrm{Poisson}\):

  • \(0 < \Theta < 1\): Overdispersion
  • \(1 < \Theta < \frac{\lambda_2 + 1}{\lambda_2}\): Underdispersion

“By far the most popular hurdle model in practice is the hurdle-at-zero negative bonomial model” (Winkelmann 2010, p. 183)

mit \(f_1 \sim NB(\beta_1, \alpha_1)\) und \(f_2 \sim NB(\beta_2, \alpha_2)\)

Literatur

Mullahy, John. 1986. „Specification and Testing of Some Modified Count Data Models“. Journal of Econometrics 33 (3): 341–65. https://doi.org/10.1016/0304-4076(86)90002-3.

Winkelmann, Rainer. 2010. Econometric Analysis of Count Data. 5th ed. Berlin: Springer Berlin.