Kurs:Statistik für Anwender/Varianzanalyse

Varianzanalyse

Einfaktorielle Varianzanalyse

Situation und Hypothesenpaar

Situation: Gegeben sind ${\textstyle m}$ normalverteilte ZV ${\textstyle X^{(1)},\ldots ,X^{(m)}}$ deren Standardabweichungen ${\textstyle \sigma _{1},\ldots ,\sigma _{m}}$ (bzw. Varianzen) gleich sind.

Hypothesenpaar: $H_{0}:\mu _{1}=\mu _{2}=\ldots =\mu _{m}\quad H_{1}:\mu _{i}\not =\mu _{j}\;{\text{für mindestens eine Kombination}}\ (i,j)$

Äquivalent dazu (unter obigen Voraussetzungen): $H_{0}:\ X^{(1)},\ldots ,X^{(m)}{\text{ sind identisch verteilt.}}\quad$
$H_{1}:{\text{Mindestens zwei}}X^{(i)},X^{(j)}\;{\text{sind nicht identisch verteilt.}}$

Benötigte Daten

${\textstyle m}$ unabhängige Stichproben
${\begin{aligned}x_{1}^{(1)},\ x_{2}^{(1)},\ldots ,x_{(n_{1})}^{(1)}&{\text{von}}&X^{(1)}\quad \left({\text{Länge:}}\ n_{1}\right)\\&&\\x_{1}^{(2)},\ x_{2}^{(2)},\ldots ,x_{(n_{2})}^{(2)}&{\text{von}}&X^{(2)}\quad \left({\text{Länge:}}\ n_{2}\right)\\&&\\\vdots &\vdots &\vdots \\&&\\x_{1}^{(m)},\ x_{2}^{(m)},\ldots ,x_{(n_{m})}^{(m)}&{\text{von}}&X^{(m)}\quad \left({\text{Länge:}}\ n_{m}\right)\\\hline &&{\text{Gesamtstichprobenlänge:}}\ n=\sum \limits _{k=1}^{m}n_{k}\end{aligned}}$

Mittelwerte

Man berechnet aus den Stichproben:

die Gruppenmittelwerte (’mean of groups’): ${\textstyle \quad {\overline {x^{(k)}}}={\frac {1}{n_{k}}}\cdot \sum \limits _{i=1}^{n_{k}}x_{i}^{(k)}\quad (k=1,\ldots ,m)}$
den Gesamtmittelwert (’grand mean’): ${\textstyle \quad {\overline {x}}={\frac {1}{n}}\cdot \sum \limits _{k=1}^{m}\sum \limits _{i=1}^{n_{k}}x_{i}^{(k)}}$

Beachte: Es gilt: ${\textstyle \quad {\overline {x}}={\frac {1}{n}}\cdot \sum \limits _{k=1}^{m}n_{k}\cdot {\overline {x^{(k)}}}}$

Streumaße I

Die Summe der quadratischen Abweichungen aller Stichprobenwerte ${\textstyle x_{i}^{(k)}}$ vom Gesamtmittelwert ${\textstyle {\overline {x}}}$ bezeichnet man mit: ${\text{SSG}}=\sum \limits _{k=1}^{m}\sum \limits _{i=1}^{n_{k}}\left(x_{i}^{(k)}-{\overline {x}}\right)^{2}\quad \left({\textbf {grand}}\;{\textbf {sum}}\;{\textbf {of}}\;{\textbf {squares}}\right)$
Weiterhin bezeichnet man die Summe der quadratischen Abweichungen aller Stichprobenmittelwerte ${\textstyle {\overline {x^{(k)}}}}$ vom Gesamtmittelwert ${\textstyle {\overline {x}}}$ mit: ${\text{SST}}=\sum \limits _{k=1}^{m}\sum \limits _{i=1}^{n_{k}}\left({\overline {x^{(k)}}}-{\overline {x}}\right)^{2}=\sum \limits _{k=1}^{m}n_{k}\cdot \left({\overline {x^{(k)}}}-{\overline {x}}\right)^{2}\quad$
$\left({\textbf {sum}}\;{\textbf {of}}\;{\textbf {squares}}\;{\textbf {of}}\;{\textbf {treatments}}\right)$
SST ist ein Maß für die Unterschiede zwischen den verschiedenen Stichproben.

Streumaße II

Schließlich bezeichnet man die Summe der quadratischen Abweichungen aller Stichprobenwerte ${\textstyle x_{i}^{(k)}}$ vom jeweiligen Stichprobenmittelwerte ${\textstyle {\overline {x^{(k)}}}}$ mit: ${\text{SSE}}=\sum \limits _{k=1}^{m}\sum \limits _{i=1}^{n_{k}}\left(x_{i}^{(k)}-{\overline {x^{(k)}}}\right)^{2}\quad \left({\textbf {sum}}\;{\textbf {of}}\;{\textbf {squares}}\;{\text{of}}\;{\textbf {errors}}\right)$ SSE ist ein Maß für die Unterschiede innerhalb der einzelnen Stichproben.
Man beachte, dass gilt: ${\textstyle \quad {\text{SSG}}={\text{SST}}+{\text{SSE}}}$

Streumaße III

Man teilt nun SST und SSE durch die Zahl der jeweiligen Freiheitsgrade (falls ${\textstyle H_{0}}$ gilt, sind ${\textstyle SST}$ und ${\textstyle MST}$ jeweils ${\textstyle \chi ^{2}}$ -verteilt mit ${\textstyle m-1}$ bzw. ${\textstyle n-m}$ FG) und erhält die sogenannten ’mittleren quadratischen Abweichungen’ ${\begin{aligned}{\text{MST}}={\frac {\text{SST}}{m-1}}&:&{\textbf {('mean}}\;{\textbf {square}}\;{\textbf {of}}\;{\textbf {treatments')}}\\{\text{MSE}}={\frac {\text{SSE}}{n-m}}&:&{\textbf {('mean}}\;{\textbf {squared}}\;{\textbf {error')}}\end{aligned}}$

Teststatistik

Aus SST und SSE berechnet man nun die Teststatistik wie folgt: $T^{\ast }={\frac {\text{MST}}{\text{MSE}}}={\frac {n-m}{m-1}}\cdot {\frac {\text{SST}}{\text{SSE}}}\quad {\text{(hohe Werte sprechen gegen }}H_{0})$
Idee: MSE stellt eine Schätzung für die Streuung innerhalb der einzelnen Stichproben dar. Im Gegensatz dazu schätzt MST die Streuung der verschiedenen Stichprobenmittelwerte um den Gesamtmittelwert. Nimmt man an, dass ${\textstyle H_{0}}$ gilt, sollte MST (im Vergleich zu MSE) klein sein, folglich ist ${\textstyle T^{\ast }={\frac {\text{MST}}{\text{MSE}}}}$ eine Teststatistik, bei der man eher kleine Werte erwartet, falls ${\textstyle H_{0}}$ gilt.

p-Wert

Zur Berechung wird die F-Verteilung (bzw. Fisher-Verteilung) ${\textstyle F_{m-1,n-m}}$ mit den ’Freiheitsgraden’ ${\textstyle m-1}$ und ${\textstyle n-m}$ benötigt. Es gilt: ${\textstyle \quad {\mathfrak {p}}^{\ast }=1-F_{m-1,n-m}(T^{\ast })}$
(Dies geht in R mit ${\textstyle \color {blue}{1-{\text{pf}}(T^{\ast },m-1,n-m)}}$ .)

Durchführung in R

Einlesen der Stichproben in einen gemeinsamen Vektor x zusammen mit einem Faktor g (gleicher Länge), der angibt, zu welcher Größe die jeweiligen Komponenten von x gehören. Dann: ${\textstyle \quad }$ ${\textstyle \color {blue}{{\text{anova(lm}}(x\sim g))}}$

Beispiel 1.1

Verschiedene Drahtsorten ( ${\textstyle m=4}$ ) werden auf Zugfestigkeit untersucht. Dabei soll zu ${\textstyle \alpha =0.05}$ geprüft werden, ob die verschiedenen Drahtsorten (oder einige der Sorten) im erwarteten Mittel unterschiedliche Zugfestigkeiten aufweisen. Dazu nimmt man an, dass die ZV ${\textstyle X^{(1)},\ X^{(2)},X^{(3)},\ X^{(4)}}$ , die die Zugfestigkeiten der verschiedenen Sorten beschreiben, normalverteilt mit gleicher Varianz sind und formuliert die Nullhypothese:
$H_{0}:\mu _{1}=\mu _{2}=\mu _{3}=\mu _{4}$

Beispiel 1.2

Man erhält folgende Daten (in ${\textstyle {\tfrac {N}{mm^{2}}}}$ ):
${\begin{array}{||c||lrrrrrrrr|c|c|}\hline \hline {\text{Sorte}}&{\text{Stichprobe}}\\\hline 1&x_{1}^{(1)},\ldots ,x_{n_{1}}^{(1)}:&13.78&11.27&11.04&10.64&9.07&11.02\\\hline 2&x_{1}^{(2)},\ldots ,x_{n_{2}}^{(2)}:&3.43&10.54&5.12&7.42&7.94&11.46&13.11&14.91\\\hline 3&x_{1}^{(3)},\ldots ,x_{n_{3}}^{(3)}:&12.50&11.88&8.71&9.81&15.66&1.70&11.80&14.13\\\hline 4&x_{1}^{(4)},\ldots ,x_{n_{4}}^{(4)}:&13.81&10.82&11.71&11.53&5.51\\\hline \hline \end{array}}$

Daraus berechnet sich:
${\textstyle {\begin{aligned}{\text{SST}}&=&17.53\end{aligned}}}$ und ${\textstyle {\mathfrak {p}}^{\ast }=0.7076}$

Folglich zeigen die Daten keine siginifikanten Unterschiede zwischen den Zugfestigkeiten der verschiedenen Drahtsorten. Die Nullhypothese ist mit den Daten vereinbar.

Beispiel 1.3

Man kann obige Rechnungen auch in R durchführen lassen. Dies geht etwa mit ${\begin{array}{l}\color {blue}{{\text{x}}<-{\text{c(}}13.78,11.27,\ldots ,5.51)}\\\color {blue}{{\text{sorte}}<-{\text{c(rep(1,6,rep(2,8),rep(3,8),rep(4,5))}}}\\\color {blue}{{\text{sorte}}<-{\text{factor(sorte)}}}\\\color {blue}{{\text{anova(lm(x}}\sim {\text{sorte))}}}\end{array}}$

Anmerkungen I

Die oben genannten Voraussetzungen für die Varianzanalyse mit dem F-Test können (und sollten) mit Hilfe von Vortests empirisch geprüft werden. Die Normalverteilungsannahme kann mit Shapiro-Wilks-Tests für jede der ZV ${\textstyle X^{(1)},\ldots ,X^{(m)}}$ getestet werden. Die Annahme der Varianzgleichheit kann man dann mit einem sogenannten Bartlett-Test prüfen. Liefert einer der Vortests ein signifikantes Ergebnis (bzw. einen kleinen ${\textstyle p}$ -Wert), so kann der F-Test nicht verwendet werden. Man muss dann auf andere Testverfahren zurückgreifen. Beispielsweise kann dann der Test von Kruskal und Wallis verwendet werden.

Anmerkungen II

Falls die Varianzanalyse ein signifikantes Ergebnis liefert, wird dadurch lediglich angezeigt, dass nicht alle ${\textstyle \mu _{i}}$ gleich sind. Zur Klärung der Frage,welche der ${\textstyle \mu _{1},\ldots ,\mu _{n}}$ signifikant als verschieden angesehen werden können, stehen weitere Testverfahren zur Verfügung, bespielsweise der Scheffé-Test oder der Tukey-Test.

Aufgabe 1.1

In einer Studie soll untersucht werden, wie sich die Wildschweinpopulationsdichte auf den Traubenertrag im Weinbau auswirkt. Für die Studie wurden 3 Gebiete identifiziert, in denen Weinbau betrieben wird, die jedoch unterschiedliche Populationsdichten an Wildschweinen aufweißen. In jedem Gebiet befinden sich unterschiedlich viele Versuchsflächen, die jeweils gleich bewirtschaftet werden. Bei jeder Testfläche wurde am Ende der Traubensaison der Ertrag an Trauben in Tonnen pro Hektar ermittelt. Es ergeben sich folgende Daten:

${\begin{array}{|l|l|l|l|}\hline {\text{Gebiet}}&{\text{Stichprobe}}&{\text{Länge}}&{\overline {x^{(m)}}}&s_{m}^{2}\\\hline {\text{Gebiet 1}}&8.73,9.27,\;8.94\;\;9.36\;\;8.46&n_{1}=5&{\overline {x^{(1)}}}=8.952&s_{1}^{2}=0.374\\\hline {\text{Gebiet 2}}&9.43,\;10.27,\;8.19,\;\;9.01,\;\;10.38,\;\;7.41,\;\;7.93,\;\;8.76,\;\;9.36&n_{2}=9&{\overline {x^{(2)}}}=8.971&s_{2}^{2}=1.026\\\hline {\text{Gebiet 3}}&10.27,\;11.38,\;\;8.34,\;\;9.84&n_{3}=4&{\overline {x^{(3)}}}=9.958&s_{3}^{2}=1.584\\\hline {\text{gesamt}}&&n=18&{\overline {x}}=9.185&\\\hline \end{array}}$

Aufgabe 1.2

Worauf sollte bei der Auswahl der Testgebiete geachtet werden? (Stichwort Randeffekte)
Überprüfen Sie mit dem Shapiro-Wilks- und dem Bartlett-Test (in R - keine Rechnung notwendig), ob die Voraussetzungen für die Einfaktorielle Varianzanalyse gegeben sind.

Der Tukey-Test (bzw. die Tukey-Methode)

Situation, Signifikanzniveau und Nullhypothese

Situation: Gegeben sind ${\textstyle m}$ normalverteilte ZV ${\textstyle X^{(1)},\ldots ,X^{(m)}}$ deren Standardabweichungen ${\textstyle \sigma _{1},\ldots ,\sigma _{m}}$ (bzw. Varianzen) gleich sind.

Signifikanzniveau: Es muss ein Signifikanzniveau ${\textstyle \alpha }$ festgelegt werden.

Nullhypothesen: ${\textstyle H_{0}^{(k,l)}:\mu _{k}=\mu _{l}}$ für ${\textstyle k,l=1,\ldots ,m}$ mit ${\textstyle k\not =l}$
Alle diese Nullhypothesen werden gemeinsam getestet. Das bedeutet: Falls alle ${\textstyle H_{0}^{(i,j)}}$ wahr sind, erhält man höchstens mit Wahrscheinlichkeit ${\textstyle \alpha }$ mindestens ein signifikantes Ergebnis.

Benötigte Daten und Teststatistik

benötigte Daten: ${\textstyle m}$ unabhängige Stichproben gleicher Länge ${\textstyle n_{0}}$
${\begin{aligned}x_{1}^{(k)},\ x_{2}^{(k)},\ldots ,x_{n_{0}}^{(k)}\;\;{\text{von}}\;\;x^{(k)}\;\;\left(k=1,\ldots ,m\right)\end{aligned}}$
Die Gesamtlänge ${\textstyle n}$ ergibt sich dann offenbar als ${\textstyle n=m\cdot n_{0}}$ .

Teststatistik: Man berechnet zunächst paarweise die (betragsmäßigen) Differenzen der empirischen Mittelwerte, also ${\textstyle \;\left|{\overline {x^{(k)}}}-{\overline {x^{(l)}}}\right|\quad (k\not =l)}$
und die mittlere quadratische Abweichung der Fehler ${\textstyle \quad {\text{MSE}}={\frac {1}{n-m}}\sum \limits _{k=1}^{m}\sum \limits _{i=1}^{n_{0}}\left(x_{i}^{(k)}-{\overline {x^{(k)}}}\right)^{2}}$
Daraus berechnen sich die Teststatistiken als $T_{(k,l)}^{\ast }={\sqrt {\frac {n_{0}}{\text{MSE}}}}\cdot \left|{\overline {x^{(k)}}}-{\overline {x^{(l)}}}\right|\quad (k\not =l)$
Offenbar sprechen hohe Werte dieser Statistik gegen ${\textstyle H_{0}^{(k,l)}}$ .

p-Werte

${\textstyle p}$ -Werte: Zur Berechung wird die studentisierte Spannweite ${\textstyle Q_{m,n-m}}$ mit den ’Freiheitsgraden’ ${\textstyle m}$ und ${\textstyle n-m}$ benötigt. Zur Nullhypothese ${\textstyle H_{0}^{(k,l)}}$ ist der ${\textstyle p}$ -Wert gegeben durch:
${\textstyle \quad {\mathfrak {p}}_{(k,l)}^{\ast }=1-Q_{m,n-m}(T_{(k,l)}^{\ast })\ (k\not =l)}$
(Dies geht in R mit ptukey(x,m,n-m).)

Für die Paare ${\textstyle (k,l)}$ , deren ${\textstyle p}$ -Wert kleiner oder gleich ${\textstyle \alpha }$ sind, kann also die entsprechende Nullhypothese ${\textstyle H_{0}^{(k,l)}}$ verworfen werden. Man hat dann ein oder mehrere signifikante Ergebnisse zum gemeinsamen Niveau ${\textstyle \alpha }$ , d.h. es wurde berücksichtigt, dass man mehrere Nullhypothesen getestet hat.