Beschreibung bivariater Datensätze I: Abhängigkeitsmaße

Author

Jan Teichert-Kluge

Aufgabe 1

Bei einer Verkehrskontrolle wurden 10 Personen erfasst. Für die beiden Merkmale Alter und Alkoholgehalt ergab sich folgende Tabelle:

\(i\) 1 2 3 4 5 6 7 8 9 10
Alter 20 21 20 22 20 22 21 20 21 21
Promille 0.2 0.1 0.0 0.2 0.1 0.1 0.2 0.0 0.1 0.0

a) Stellen Sie in einer Kontingenztabelle die absoluten und relativen Häufigkeiten dar.

b) Bestimmen Sie den \(\chi^2\)-Koeffizienten und den normierten Kontingenzkoeffizienten und interpretieren Sie ihr Ergebnis.

c) Wie ändern sich die beiden Koeffizienten, wenn sich der Stichprobemumfang verdoppelt? Ändern eine Umordnung der Spalten und / oder Zeilen das Ergebnis?

Lösung zu Aufgabe 1

a) Kontingenztabelle für absolute und relative Häufigkeiten

Alter: 20 Alter: 21 Alter: 22 \(\sum\)
Promille: 0.0 2 (0,2) 1 (0,1) 0 (0,0) 3 (0,3)
Promille: 0.1 1 (0,1) 2 (0,2) 1 (0,1) 4 (0,4)
Promille: 0.2 1 (0,1) 1 (0,1) 1 (0,1) 3 (0,3)
\(\sum\) 4 (0,4) 4 (0,4) 2 (0,2) 10 (1,0)

b) \(\chi^2\)-Koeffizient und normierter Kontingenzkoeffizient

Der \(\chi^2\)-Koeffizient beträgt:

\[ \chi^2 = \sum^K_{k=1} \sum^L_{l=1} \frac{(n_{k, l} - \tilde{n}_{k,l})^2}{\tilde{n}_{k,l}} \]

wobei \(n_{k, l}\) die beobachteten und \(\tilde{n}_{k,l}\) die erwarteten Häufigkeiten sind.

Die erwarteten Häufigkeiten werden berechnet als:

\[ \tilde{n}_{k,l} = \frac{\text{Summe der Zeile} \times \text{Summe der Spalte}}{\text{Gesamtzahl der Beobachtungen}} \]

Es ergibt sich folgende Tabelle:

Alter: 20 Alter: 21 Alter: 22 \(\sum\)
Promille: 0.0 1,2 1,2 0,6 3
Promille: 0.1 1,6 1,6 0,8 4
Promille: 0.2 1,2 1,2 0,6 3
\(\sum\) 4 4 2 10

Womit sich der \(\chi^2\)-Koeffizient wie folgt berechnet:

\[\begin{align*} \chi^2 &= \sum^K_{k=1} \sum^L_{l=1} \frac{(n_{k, l} - \tilde{n}_{k,l})^2}{\tilde{n}_{k,l}} \\ \\ &= \frac{(2 - 1,2)^2}{1,2} + ... + \frac{(1 - 0,6)^2}{0,6} = 1,875 \end{align*}\]

Der Kontingenzkoeffizient wird berechnet als:

\[ C = \sqrt{\frac{\chi^2}{\chi^2 + n}} \]

wobei \(n\) die Gesamtzahl der Beobachtungen ist.

Damit ergibt sich für \(C\): \[ C = \sqrt{\frac{\chi^2}{\chi^2 + n}} = \sqrt{\frac{1,875}{1,875 + 10}} \approx 0,3974 \]

Und für den normierten Kontingenzkoeffizient \(C^*\) gilt:

\[ C^* = \frac{C}{\sqrt{\frac{\text{min}\{K,L\} - 1}{\text{min}\{K,L\}}}} = \frac{0,3974}{\sqrt{\frac{2}{3}}} \approx 0,4867 \]

Es gilt \(0 \leq C^* \leq 1\), also liegt eine mittelstarke Abhängigkeit vor. Über die Richtung des Zusammenhangs lässt sich keine Aussage treffen.

c) Änderungen bei Verdoppelung des Stichprobenumfangs

Es lässt sich mathematisch herleiten, dass:

\[\begin{align*} \chi^2_{\text{neu}} &= \sum^K_{k=1} \sum^L_{l=1} \frac{(2n_{k, l} - 2\tilde{n}_{k,l})^2}{2\tilde{n}_{k,l}} \\ \\ &= \sum^K_{k=1} \sum^L_{l=1} \frac{2^2(n_{k, l} - \tilde{n}_{k,l})^2}{2\tilde{n}_{k,l}} \\ \\ &= \sum^K_{k=1} \sum^L_{l=1} \frac{4}{2}\frac{(n_{k, l} - \tilde{n}_{k,l})^2}{\tilde{n}_{k,l}} \\ \\ &= 2 \chi^2 \end{align*}\]

Bzw.

\[\begin{align*} C_{\text{neu}} &= \sqrt{\frac{2\chi^2}{2\chi^2 + 2n}}\\ \\ &= \sqrt{\frac{2\chi^2}{2(\chi^2 + n)}}\\ \\ &= C \end{align*}\]

und damit auch

\[\begin{align*} C^*_{\text{neu}} = C^* \\ \end{align*}\]

Bei Verdoppelung des Stichprobenumfangs ändern sich die absoluten Häufigkeiten, aber die relativen Häufigkeiten bleiben unverändert. Eine Umordnung der Spalten und/oder Zeilen ändert das Ergebnis nicht, da beide Koeffizienten invariant ggü. Vertauschung sind.

Aufgabe 2

Gegeben sei nachfolgende Tabelle:

\(i\) 1 2 3 4 5 6 7
\(x_i\) 16 19 17 15 20 19 20
\(y_i\) 100 150 120 90 150 140 160

a) Zeichnen Sie das Streudiagramm

b) Bestimmen Sie den Korrelationskoeffizienten von Bravais-Pearson. Interpretieren Sie Ihr Ergebnis.

Lösung zu Aufgabe 2

a) Streudiagram,

Euer Streudiagramm sollte ungefähr so aussehen: Streudiagramm

b) Korrelation

Der Bravais-Pearson Korrelationskoeffizient ist

\[ r_{x,y} = \frac{s_{x,y}}{s_x \cdot s_y} \]

Wir benötigen also \(s_{x,y}\) sowie \(s_x\) und \(s_y\), wobei

\[ s_x^2 = \frac{1}{n} \sum^n_{i=1} x_i^2 - \overline{x}^2 \]

bzw.

\[ s_{x,y} = \frac{1}{n} \sum^n_{i=1} x_i y_i - \overline{x} \overline{y} \]

gilt.

Wir berechnen also

\[\begin{align*} \overline{x} &= \frac{1}{n} \sum^n_{i=1} x_i = 18 \\ \\ \overline{y} &= 130 \end{align*}\]

und damit

\[\begin{align*} s_x^2 &= \frac{1}{7} \cdot 2292 - 18^2 \approx 3,4286 \\ \\ s_y^2 &\approx 628,5714 \end{align*}\]

und

\[ s_{x,y} = \frac{1}{7} \cdot 16700 - 18 \cdot 130 \approx 45,7143 \]

um den Korrelationskoeffizienten \(r_{x,y}\) zu berechnen.

\[ r_{x,y} = \frac{s_{x,y}}{s_x \cdot s_y} = \frac{45,7143}{\sqrt{3,4286 \cdot 628,5714}} \approx 0,9847 \]

Für \(r_{x,y}\) gilt \(-1 \leq r_{x,y} \leq 1\). Somit besteht ein sehr starker, positiver und linearer Zusammenhang.

Aufgabe 3

Gegeben sei nachfolgende Tabelle:

\(i\) 1 2 3 4 5
\(x_i\) -2 -1 0 1 2
\(y_i\) 4 1 0 1 4

a) Zeichnen Sie das Streudiagramm

b) Bestimmen Sie den Korrelationskoeffizienten von Bravais-Pearson. Nehmen Sie zur Aussage, es bestehe kein Zusammenhang, stellung.

Lösung zu Aufgabe 3

a) Streudiagramm

Euer Streudiagramm sollte ungefähr so aussehen: Streudiagramm

b) Korrelationskoeffizient

Analog zu Aufgabe 2 berechnen wir erneut:

\[ \overline{x}=0; \quad \overline{y}=2; \quad s^2_x = 2; \quad s^2_y = 2,8; \quad s_{x,y} = 0 \]

und damit

\[ r_{x,y} = \frac{s_{x,y}}{s_x \cdot s_y} = \frac{0}{\sqrt{2 \cdot 2,8}} = 0 \]

Die Aussage, es bestehe kein Zusammenhang, ist falsch. Es besteht in diesem Fall ein quadratischer Zusammenhang (\(y = f(x) = x^2\)). Der Korrelationskoeffizient erfasst lediglich lineare Zusammenhänge.

Aufgabe 4

Es wurden sechs Abiturienten befragt, welche Note sie bei ihrer Prüfung erzielt haben:

  • (g)ut
  • (b)efriedigent
  • (a)usreichend
  • (m)angelhaft

Zusätzlich wurden sie befragt, ob sie eine vorherige Probeklausur bestanden haben:

  • (j)a
  • (n)ein

Dabei ergaben sich folgende Antworten:

\(i\) Abiklausur Probeklausur
1 b n
2 b j
3 b j
4 a n
5 m n
6 g j

Kann ein Zusammenhang zwischen der erzielten Note und dem Abschneiden bei der Probeklausur festgestellt werden?

Lösung zu Aufgabe 4

Da die Merkmalsausprägungen lediglich ordinal skaliert sind, sollte hier der Korrelationskoeffizient nach Spearman bestimmt werden. Dafür müssen wir den Antworten einen Rang zuordnen, das Beste bekommt den höchsten Rang. Es ergibt sich:

\(i\) Abiklausur (\(x_i\)) Probeklausur (\(y_i\)) \(\text{rg}(x_i)\) \(\text{rg}(y_i)\)
1 b n 4 2
2 b j 4 5
3 b j 4 5
4 a n 2 2
5 m n 1 2
6 g j 6 5

Der Korrelationskoeffizienten nach Spearman ist:

\[ r_{x,y}^{\text{Spear}} = \frac{s_{rg(x), \, rg(y)}}{s_{rg(x)} \cdot s_{rg(y)}} \]

Daher berechnen wir zunächst \(s^2_{rg(x)}\) und \(s^2_{rg(y)}\) sowie \(s_{rg(x), \, rg(y)}\).

\[\begin{align*} \overline{\text{rg}(x)} &= 3,5 \\ \\ \overline{\text{rg}(y)} &= 3,5 \end{align*}\]

und damit

\[\begin{align*} s^2_{rg(x)} &= \frac{31}{12} \\ \\ s^2_{rg(y)} &= 2,25 \end{align*}\]

und

\[\begin{align*} s_{rg(x), \, rg(y)} &= \frac{1}{6} \cdot (4 \cdot 2 + ... + 6 \cdot 5) - 3,5 \cdot 3,5 \\ \\ &= \frac{1}{6} \cdot 84 - 3,5^2 = 1,75 \end{align*}\]

um den Korrelationskoeffizienten \(r_{x,y}\) zu berechnen:

\[ r_{x,y}^{\text{Spear}} = \frac{1,75}{\sqrt{\frac{31}{12} \cdot 2,25}} \approx 0,7259 \]

Für den Korrelationskoeffizienten nach Spearman gilt \(-1 \leq r_{x,y}^{\text{Spear}} \leq 1\). Somit besteht ein gleichgerichteter, monotoner Zusammenhang.