Berechnung der Teststatistik

Der Kruskal-Wallis-Test basiert auf der Idee der Rangierung der Daten. Das heisst, es wird nicht mit den Messwerten selbst gerechnet, sondern diese werden durch Ränge ersetzt, mit welchen der eigentliche Test durchgeführt wird. Damit beruht die Berechnung des Tests ausschliesslich auf der Ordnung der Daten (grösser als, kleiner als). Die absoluten Abstände zwischen den Werten werden nicht berücksichtigt.

Hierbei werden die Messwerte mit Rängen versehen. Als erstes werden die einzelnen Messwerte ihrer Gröse nach aufgereiht. Dies geschieht unabhängig von der Gruppenzugehörigkeit (Spalte “Gruppe”). Danach werden die Messwerte rangiert und getrennt für jede Gruppe benannt.

Diese Ränge sind in Abbildung in den Spalten “Ränge ‘0-30’” bis 56+’" enthalten. Kommt ein Messwert mehrfach vor (engl. “ties”), so werden sogenannte “verbundene Ränge” gebildet.

Wenn Rang 1 und 2 beide die gleichen Messwerte aufweisen, wird aus diesen beiden der Mittelwert gebildet ((1 + 2)/2 = 1.5) und die Ränge 1 und 2 werden neu beide mit dem Rang 1.5 versehen. Dies ist im vorliegenden Beispiel für die Ränge 12 und 13 (mittlerer Rang: (12+13)/2 = 12.5), sowie 14 bis 16 der Fall (mittlerer Rang: (14+15+16)/3 = 15).

Schliesslich werden aus diesen ermittelten Rängen sogenannte Rangsummen gebildet (“Summen”). Hierfür werden lediglich die Ränge der jeweiligen Gruppe aufsummiert. Dies ergibt eine Rangsumme von 237.5 für die Gruppe 0-30 (n = 10), 124 für die Gruppe “31-55” (n = 8) und 73.5 für die Gruppe “56+” (n = 11). Zur Berechnung der Teststatistik H werden diese Rangsummen verwendet:

Ohne Korrektur

\[ \begin{align} H &= \frac{12}{N(N+1)}\sum^{k}_{i=1}\frac{R^2_i}{n_i}-3(N+1) \end{align} \]

\[ \begin{align} H &= \frac{12}{29(29+1)}*(\frac{237.5^2}{10}+\frac{124^2}{8}+\frac{73.5^2}{11})-3(29+1) = 21.08 \end{align} \]

mit:

  • \(R_i =\) Rangsummen für jede Gruppe

  • \(N =\) Gesamtstichprobengröße

  • \(n_i =\) Größe der einzelnen Gruppe

  • \(k =\) Anzahl der Gruppen

Freiheitsgrade

\[df = k -1 \]

\[df = 3 -1 = 2\]

mit: * \(k =\) Anzahl der Gruppen

Mit Korrektur

Bei verbundenen Rängen muss die Teststatistik korrigiert werden. (Wird von der Methode kruskal.test() ibn R automatisch gemacht.)

\[ \begin{align} H_{korr} &= \frac{H}{1-\frac{\sum^{m}_{j=1}(t^3_j-t_j)}{N^3-N}} \\ \end{align} \]

Da beim Beispiel verbundene Ränge vorliegen, muss die Korrekturformel angewendet werden.
Es liegen dreimal verbundene Ränge vor (daher m = 4): Ränge 1 & 2 (daher t1 = 2) sowie 13 & 28 (daher t2 = 2), 16 & 2 (daher t3 = 2) und 22 & 2 &18 (daher t3 = 3)
Dies ergibt:

\[ \begin{align} H_{korr} &= \frac{21.08}{1-\frac{(2^3-2)+(2^3-2)+(2^3-2)+(3^3-3)}{29^3-29}} =21.1 \end{align} \]

round(21.08/(1-((2^3-2)+(2^3-2)+(2^3-2)+(3^3-3))/(29^3-29)),2)
[1] 21.12

mit:

  • \(m =\) Anzahl verbundene Ränge

  • \(t_j =\) Anzahl Rohdatenwerte, die im \(j\)-ten Rangplatz stehen



Der emprischer Wert

Der emprische Wert liegt bei \(|21.1|\).

Der kritisch Wert

Der berechnete Wert muss nun auf Signifikanz geprüft werden. Die Teststatistik vergleicht den kritischen Wert der durch die Freiheitsgrade bestimmten Chi-Quadrat-Verteilung mit dem errechneten Wert. Dieser kritische Wert kann Tabellen entnommen werden.

qchisq(0.975,df=2)
[1] 7.377759

Der kritische Wert liegt bei 7.37



Vergleich

\[|−21.1| > 7.37 →\text {Es liegt ein sig. Unterschied vor.}\]

Für das vorliegende Beispiel betrüge der kritische Wert 7.37 bei df = 2 und α = .05. Ist der Betrag der Teststatistik höher als der kritische Wert, so ist der Unterschied signifikant. Dies wäre für das Beispiel der Fall (21.122 > 7.37). Es könnte daher davon ausgegangen werden, dass sich die zentralen Tendenzen unterscheiden (Chi-Quadrat(2) = 21.122, p < .05).



Kruskal-Wallis-Test in R


Hypothese

H0: Es gibt keinen Unterschied zwischen Altersgruppe(0-30/31-55/56+) und der Sportlichkeit gemessen auf dem Laufband in Minuten.

H1: Es gibt einen Unterschied zwischen Altersgruppe(0-30/31-55/56+) und der Sportlichkeit gemessen auf dem Laufband in Minuten.

Voraussetzungen für den Kruskal-Wallis-Test

Die abhängige Variable ist mindestens ordinalskaliert -> ist gegeben

Es liegt eine unabhängige Variable vor, mittels der die zu vergleichenden Gruppen gebildet werden. -> Die Altergruppen sind unabhängig.

Deskriptive Statistiken

Diese “library(dplyr)” muss verwendet werden.

wallis %>%
group_by(Altersgruppe) %>%
  summarize(Anzahl = n(),  Median = median(Sportlichkeit)) %>%
  mutate_if(is.numeric, round, 2)
`summarise()` ungrouping output (override with `.groups` argument)

Die Mediane der Gruppen unterscheiden sich. Die Gruppe “0-30” scheint am sportlichsten zu sein mit einem Wert von 13.5 min (N=10). Die Gruppe “31-55” schaffen 9.2 Min.(N=8) auf dem Laufbahn und am wenigsten sportlich ist die Gruppe der “56+” mit einem Median von 3 (N=11).

Boxplots

boxplot(wallis$Sportlichkeit ~ wallis$Altersgruppe, main = "Boxplots Altersgruppen-Sportlichkeit  ", ylab = "Sportlichkeit gemessen auf dem Laufbahn in Minuten", xlab= "Altergruppe" , col = c("lightgreen", "deepskyblue","tomato"))

Die Mediane der Gruppen unterscheiden sich. Es gibt augenscheinlich keine Ausreisser.

ALTERNATIV

library(ggplot2)
ggplot(wallis, aes(x=Altersgruppe, y=Sportlichkeit, color=Altersgruppe)) + 
geom_violin() + 
geom_boxplot(width=0.2) +
labs(x= "Altersgruppe",y = "Sportlichkeit", title="Boxplots zwischen Altersgruppen" )

Ergebnisse der Kruskal-Wallis-Test

test <- kruskal.test(Sportlichkeit ~ Altersgruppe, data=wallis)
test

    Kruskal-Wallis rank sum test

data:  Sportlichkeit by Altersgruppe
Kruskal-Wallis chi-squared = 21.122, df = 2, p-value = 2.59e-05

Die Tabelle zeigt Unterschiede. Für das Beispiel wird eine Signifikanz von .000 ausgegeben. Also kann davon ausgegangen werden, dass es Unterschiede bezüglich der zentralen Tendenzen der Gruppen gibt (Chi-Quadrat(2) = 21.22,p = .000). Allerdings lässt sich aufgrund dieses Tests nicht bestimmen, welche der drei Gruppen sich signifikant voneinander unterscheiden. Es ist denkbar, dass sich lediglich ein Paar signifikant unterscheidet und zwischen den übrigen keine signifikanten Unterschiede vorliegen. Daher wird ein Post-hoc-Test durchgeführt.


PostHoc <- aov(Sportlichkeit ~ Altersgruppe, data=wallis)
TukeyHSD(PostHoc)
  Tukey multiple comparisons of means
    95% family-wise confidence level

Fit: aov(formula = Sportlichkeit ~ Altersgruppe, data = wallis)

$Altersgruppe
                diff        lwr       upr     p adj
31-55-0-30 -5.000000  -8.225499 -1.774501 0.0019217
56+-0-30   -9.731818 -12.702930 -6.760707 0.0000000
56+-31-55  -4.731818  -7.891484 -1.572153 0.0026789

Der Post-Hoc-Test ergibt, dass sich alle vergleichenden Gruppen signifikant unterscheiden (p < 0.05).

Es gibt einem signifikanten Unterschied zwischen den drei getesteten Gruppen, das heisst, dass jede Altersgruppe einen deutlichen Unterschied in der Sportlichkeit aufweist.

Es können drei unabhängige Gruppen gebildet werden. Eine Generalisierung ist möglich.

Berechnung der Effektstärke

\[r = \Biggl| \frac{z}{\sqrt{n}}\Biggl|\]

mit:

Zstat<-qnorm(test$p.value/2) #ungerichtet 

sprintf("Z-Wert für den H-Test : %.2f", Zstat)
[1] "Z-Wert für den H-Test : -4.21"
daten <- nrow(wallis)
sprintf("Anzahl der Daten: %.f", daten)
[1] "Anzahl der Daten: 29"
eff <- abs(Zstat/sqrt(daten))
sprintf("Effektstärke: %.2f", eff)
[1] "Effektstärke: 0.78"

Zur Beurteilung der Groesse des Effektes dient die Einteilung von Cohen (1992):

\[ \begin{align} \text{Schwacher Effekt: } 0.10 &< ||r|| < 0.30 \\ \text{Schwacher bis mittlerer Effekt: } 0.30 &= ||r|| \\ \text{Mittlerer Effekt: } 0.30 &< ||r|| < 0.50 \\ \text{Mittlerer bis starker Effekt: }0.50 &= ||r|| \\ \text{Starker Effekt: } 0.50 &< ||r|| \end{align} \]

Damit entspricht eine Effektstärke von 0.78 einem starken Effekt.

ALTERNATIVE

\[w = \left|\sqrt\frac{\mathcal{X}^2}{n}\right|\] mit:

anzahl <- nrow(wallis)
chi <- test$statistic

w<- sqrt(chi /anzahl)
 sprintf("Effektstärke: %.2f",w)
[1] "Effektstärke: 0.85"

\[ \begin{align} \text{Schwacher Effekt: } 0.10 &< w \le 0.30 \\ \text{Mittlerer Effekt: } 0.30 &< w \le 0.50 \\ \text{Starker Effekt: } 0.50 &< w \end{align} \]

Damit entspricht eine Effektstärke von 0.85 einem starken Effekt.

Eine Aussage

Der Kruskal-Wallis-Test bestätigt, dass die Sportlichkeit sich durch die Altersgruppe unterscheidet (Chi-Quadrat(2) = 21.22, p = .000).

Der anschliessend durchgeführte Post-hoc-Test (Tukey) zeigt, dass alle Gruppen “0-30” (Median = 13.5, n = 10)und “31-55” (Median = 9.2, n = 8), sowie “56+” (Median = 3.0, n = 9) signifikant unterscheiden (p < .05).

Die Effektstärke (w = .85) zeigt ein starken Effekt, sodass tatsächlich die Altersgruppe einen grossen Effekt auf die Ausdauer, gemessen in Minuten auf dem Laufband, hat.

H0 wird ablehnen.

