Berechnung der Teststatistik
Der Kruskal-Wallis-Test basiert auf der Idee der Rangierung der Daten. Das heisst, es wird nicht mit den Messwerten selbst gerechnet, sondern diese werden durch Ränge ersetzt, mit welchen der eigentliche Test durchgeführt wird. Damit beruht die Berechnung des Tests ausschliesslich auf der Ordnung der Daten (grösser als, kleiner als). Die absoluten Abstände zwischen den Werten werden nicht berücksichtigt.
Hierbei werden die Messwerte mit Rängen versehen. Als erstes werden die einzelnen Messwerte ihrer Gröse nach aufgereiht. Dies geschieht unabhängig von der Gruppenzugehörigkeit (Spalte “Gruppe”). Danach werden die Messwerte rangiert und getrennt für jede Gruppe benannt.
Diese Ränge sind in Abbildung in den Spalten “Ränge ‘0-30’” bis 56+’" enthalten. Kommt ein Messwert mehrfach vor (engl. “ties”), so werden sogenannte “verbundene Ränge” gebildet.
Wenn Rang 1 und 2 beide die gleichen Messwerte aufweisen, wird aus diesen beiden der Mittelwert gebildet ((1 + 2)/2 = 1.5) und die Ränge 1 und 2 werden neu beide mit dem Rang 1.5 versehen. Dies ist im vorliegenden Beispiel für die Ränge 12 und 13 (mittlerer Rang: (12+13)/2 = 12.5), sowie 14 bis 16 der Fall (mittlerer Rang: (14+15+16)/3 = 15).
Schliesslich werden aus diesen ermittelten Rängen sogenannte Rangsummen gebildet (“Summen”). Hierfür werden lediglich die Ränge der jeweiligen Gruppe aufsummiert. Dies ergibt eine Rangsumme von 237.5 für die Gruppe 0-30 (n = 10), 124 für die Gruppe “31-55” (n = 8) und 73.5 für die Gruppe “56+” (n = 11). Zur Berechnung der Teststatistik H werden diese Rangsummen verwendet:
Ohne Korrektur
\[
\begin{align}
H &= \frac{12}{N(N+1)}\sum^{k}_{i=1}\frac{R^2_i}{n_i}-3(N+1)
\end{align}
\]
\[
\begin{align}
H &= \frac{12}{29(29+1)}*(\frac{237.5^2}{10}+\frac{124^2}{8}+\frac{73.5^2}{11})-3(29+1) = 21.08
\end{align}
\]
mit:
\(R_i =\) Rangsummen für jede Gruppe
\(N =\) Gesamtstichprobengröße
\(n_i =\) Größe der einzelnen Gruppe
\(k =\) Anzahl der Gruppen
Freiheitsgrade
\[df = k -1 \]
\[df = 3 -1 = 2\]
mit: * \(k =\) Anzahl der Gruppen
Mit Korrektur
Bei verbundenen Rängen muss die Teststatistik korrigiert werden. (Wird von der Methode kruskal.test() ibn R automatisch gemacht.)
\[
\begin{align}
H_{korr} &= \frac{H}{1-\frac{\sum^{m}_{j=1}(t^3_j-t_j)}{N^3-N}} \\
\end{align}
\]
Da beim Beispiel verbundene Ränge vorliegen, muss die Korrekturformel angewendet werden.
Es liegen dreimal verbundene Ränge vor (daher m = 4): Ränge 1 & 2 (daher t1 = 2) sowie 13 & 28 (daher t2 = 2), 16 & 2 (daher t3 = 2) und 22 & 2 &18 (daher t3 = 3)
Dies ergibt:
\[
\begin{align}
H_{korr} &= \frac{21.08}{1-\frac{(2^3-2)+(2^3-2)+(2^3-2)+(3^3-3)}{29^3-29}} =21.1
\end{align}
\]
round(21.08/(1-((2^3-2)+(2^3-2)+(2^3-2)+(3^3-3))/(29^3-29)),2)
[1] 21.12
mit:
Der emprischer Wert
Der emprische Wert liegt bei \(|21.1|\).
Der kritisch Wert
Der berechnete Wert muss nun auf Signifikanz geprüft werden. Die Teststatistik vergleicht den kritischen Wert der durch die Freiheitsgrade bestimmten Chi-Quadrat-Verteilung mit dem errechneten Wert. Dieser kritische Wert kann Tabellen entnommen werden.
qchisq(0.975,df=2)
[1] 7.377759
Der kritische Wert liegt bei 7.37
Vergleich
\[|−21.1| > 7.37 →\text {Es liegt ein sig. Unterschied vor.}\]
Für das vorliegende Beispiel betrüge der kritische Wert 7.37 bei df = 2 und α = .05. Ist der Betrag der Teststatistik höher als der kritische Wert, so ist der Unterschied signifikant. Dies wäre für das Beispiel der Fall (21.122 > 7.37). Es könnte daher davon ausgegangen werden, dass sich die zentralen Tendenzen unterscheiden (Chi-Quadrat(2) = 21.122, p < .05).
Hypothese
H0: Es gibt keinen Unterschied zwischen Altersgruppe(0-30/31-55/56+) und der Sportlichkeit gemessen auf dem Laufband in Minuten.
H1: Es gibt einen Unterschied zwischen Altersgruppe(0-30/31-55/56+) und der Sportlichkeit gemessen auf dem Laufband in Minuten.
Voraussetzungen für den Kruskal-Wallis-Test
Die abhängige Variable ist mindestens ordinalskaliert -> ist gegeben
Es liegt eine unabhängige Variable vor, mittels der die zu vergleichenden Gruppen gebildet werden. -> Die Altergruppen sind unabhängig.
Deskriptive Statistiken
Diese “library(dplyr)” muss verwendet werden.
wallis %>%
group_by(Altersgruppe) %>%
summarize(Anzahl = n(), Median = median(Sportlichkeit)) %>%
mutate_if(is.numeric, round, 2)
`summarise()` ungrouping output (override with `.groups` argument)
Die Mediane der Gruppen unterscheiden sich. Die Gruppe “0-30” scheint am sportlichsten zu sein mit einem Wert von 13.5 min (N=10). Die Gruppe “31-55” schaffen 9.2 Min.(N=8) auf dem Laufbahn und am wenigsten sportlich ist die Gruppe der “56+” mit einem Median von 3 (N=11).
Boxplots
boxplot(wallis$Sportlichkeit ~ wallis$Altersgruppe, main = "Boxplots Altersgruppen-Sportlichkeit ", ylab = "Sportlichkeit gemessen auf dem Laufbahn in Minuten", xlab= "Altergruppe" , col = c("lightgreen", "deepskyblue","tomato"))

Die Mediane der Gruppen unterscheiden sich. Es gibt augenscheinlich keine Ausreisser.
ALTERNATIV
library(ggplot2)
ggplot(wallis, aes(x=Altersgruppe, y=Sportlichkeit, color=Altersgruppe)) +
geom_violin() +
geom_boxplot(width=0.2) +
labs(x= "Altersgruppe",y = "Sportlichkeit", title="Boxplots zwischen Altersgruppen" )

Ergebnisse der Kruskal-Wallis-Test
test <- kruskal.test(Sportlichkeit ~ Altersgruppe, data=wallis)
test
Kruskal-Wallis rank sum test
data: Sportlichkeit by Altersgruppe
Kruskal-Wallis chi-squared = 21.122, df = 2, p-value = 2.59e-05
Die Tabelle zeigt Unterschiede. Für das Beispiel wird eine Signifikanz von .000 ausgegeben. Also kann davon ausgegangen werden, dass es Unterschiede bezüglich der zentralen Tendenzen der Gruppen gibt (Chi-Quadrat(2) = 21.22,p = .000). Allerdings lässt sich aufgrund dieses Tests nicht bestimmen, welche der drei Gruppen sich signifikant voneinander unterscheiden. Es ist denkbar, dass sich lediglich ein Paar signifikant unterscheidet und zwischen den übrigen keine signifikanten Unterschiede vorliegen. Daher wird ein Post-hoc-Test durchgeführt.
PostHoc <- aov(Sportlichkeit ~ Altersgruppe, data=wallis)
TukeyHSD(PostHoc)
Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = Sportlichkeit ~ Altersgruppe, data = wallis)
$Altersgruppe
diff lwr upr p adj
31-55-0-30 -5.000000 -8.225499 -1.774501 0.0019217
56+-0-30 -9.731818 -12.702930 -6.760707 0.0000000
56+-31-55 -4.731818 -7.891484 -1.572153 0.0026789
Der Post-Hoc-Test ergibt, dass sich alle vergleichenden Gruppen signifikant unterscheiden (p < 0.05).
Es gibt einem signifikanten Unterschied zwischen den drei getesteten Gruppen, das heisst, dass jede Altersgruppe einen deutlichen Unterschied in der Sportlichkeit aufweist.
Es können drei unabhängige Gruppen gebildet werden. Eine Generalisierung ist möglich.
Berechnung der Effektstärke
\[r = \Biggl| \frac{z}{\sqrt{n}}\Biggl|\]
mit:
Zstat<-qnorm(test$p.value/2) #ungerichtet
sprintf("Z-Wert für den H-Test : %.2f", Zstat)
[1] "Z-Wert für den H-Test : -4.21"
daten <- nrow(wallis)
sprintf("Anzahl der Daten: %.f", daten)
[1] "Anzahl der Daten: 29"
eff <- abs(Zstat/sqrt(daten))
sprintf("Effektstärke: %.2f", eff)
[1] "Effektstärke: 0.78"
Zur Beurteilung der Groesse des Effektes dient die Einteilung von Cohen (1992):
\[
\begin{align}
\text{Schwacher Effekt: } 0.10 &< ||r|| < 0.30 \\
\text{Schwacher bis mittlerer Effekt: } 0.30 &= ||r|| \\
\text{Mittlerer Effekt: } 0.30 &< ||r|| < 0.50 \\
\text{Mittlerer bis starker Effekt: }0.50 &= ||r|| \\
\text{Starker Effekt: } 0.50 &< ||r||
\end{align}
\]
Damit entspricht eine Effektstärke von 0.78 einem starken Effekt.
ALTERNATIVE
\[w = \left|\sqrt\frac{\mathcal{X}^2}{n}\right|\] mit:
anzahl <- nrow(wallis)
chi <- test$statistic
w<- sqrt(chi /anzahl)
sprintf("Effektstärke: %.2f",w)
[1] "Effektstärke: 0.85"
\[
\begin{align}
\text{Schwacher Effekt: } 0.10 &< w \le 0.30 \\
\text{Mittlerer Effekt: } 0.30 &< w \le 0.50 \\
\text{Starker Effekt: } 0.50 &< w
\end{align}
\]
Damit entspricht eine Effektstärke von 0.85 einem starken Effekt.
Eine Aussage
Der Kruskal-Wallis-Test bestätigt, dass die Sportlichkeit sich durch die Altersgruppe unterscheidet (Chi-Quadrat(2) = 21.22, p = .000).
Der anschliessend durchgeführte Post-hoc-Test (Tukey) zeigt, dass alle Gruppen “0-30” (Median = 13.5, n = 10)und “31-55” (Median = 9.2, n = 8), sowie “56+” (Median = 3.0, n = 9) signifikant unterscheiden (p < .05).
Die Effektstärke (w = .85) zeigt ein starken Effekt, sodass tatsächlich die Altersgruppe einen grossen Effekt auf die Ausdauer, gemessen in Minuten auf dem Laufband, hat.
H0 wird ablehnen.
