Kategorie

Sind die Zufallsvariablen stochastisch unabhängig, ist die gemeinsame Wahrscheinlichkeit gleich dem Produkt der entsprechenden Einzelwahrscheinlichkeiten.

Ausgewählte multivariate Verteilungen

Von Bedeutung sind vor allem die

multivariate Normalverteilung,
Hotelling t-Verteilung als multivariate t-Verteilung,
Wishart-Verteilung als multivariate Chi-Quadrat-Verteilung,

die multivariaten Verfahren zu Grunde liegen. Meistens ist es möglich, mittels einer linearen Transformation den Zufallsvektor in ein Skalar umzuwandeln, das dann univariat verteilt ist und so als Testprüfgröße fungiert.

Die multivariate Normalverteilung

Gegeben ist ein Vektor x aus p gemeinsam normalverteilten Zufallsvariablen mit dem Erwartungswertvektor ? und der Kovarianzmatrix ?. Die gemeinsame Dichtefunktion der Vektorkomponenten ist gegeben durch

Es ist also

Die Kovarianzmatrix ? ist i. a. positiv definit. Die Werte der Verteilungsfunktion F müssen numerisch ermittelt werden.

Die multivariate Normalverteilung hat spezielle Eigenschaften:

Sind die Komponenten des Zufallsvektors x paarweise unkorreliert, sind sie auch stochastisch unabhängig.
Die lineare Transformation y = a + BX mit B als (qxp)-Matrix (q ? p) und a als (qx1)-Vektor ist q-dimensional normalverteilt als N_q (a + B?; B?B^T).
Die lineare Transformation

standardisiert den Zufallsvektor x. Es ist

also sind die Komponenten von y stochastisch unabhängig.

X kann auch eine singuläre Kovarianzmatrix besitzen. Man spricht dann von einer degenierten oder singulären multivariaten Normalverteilung.

Beispiel für eine multivariate Normalverteilung

Betrachtet wird eine Apfelbaumplantage mit sehr vielen gleich alten, also vergleichbaren Apfelbäumen. Man interessiert sich für die Merkmale Größe der Apfelbäume, die Zahl der Blätter und die Erträge. Es werden also die Zufallsvariablen definiert:

X₁: Höhe eines Baumes [m]; X₂ : Ertrag [100 kg]; X₃ : Zahl der Blätter [1000 Stück].

Die Variablen sind jeweils normalverteilt wie

Die meisten Bäume sind also um 4 ± 1m groß, sehr kleine oder sehr große Bäume sind eher selten. Bei einem großen Baum ist der Ertrag tendenziell größer als bei einem kleinen Baum, aber es gibt natürlich hin und wieder einen großen Baum mit wenig Ertrag. Ertrag und Größe sind korreliert, die Kovarianz beträgt covX₁X₂=9 und der Korrelationskoeffizient ?₁₂ = 0,9.

Ebenso ist covX₁X₃=12,75 mit dem Korrelationskoeffzienten ?₁₃ = 0,85, und covX₂X₃=120 mit dem Korrelationskoeffzienten ?₂₃ = 0,8.

Fasst man die drei Zufallsvariablen im Zufallsvektor x zusammen, ist x multivariat normalverteilt mit

und

Die entsprechende Korrelationsmatrix ist

Stichproben bei Multivariaten Verteilungen

In der Realität werden in aller Regel die Verteilungsparameter einer Multivariaten Verteilung nicht bekannt sein. Diese Parameter müssen also geschätzt werden.

Man zieht eine Stichprobe vom Umfang n. Jede Realisation i (i=1,...,n) des Zufallsvektors x könnte man als Punkt in einem p-dimensionalen Hyperraum auffassen. Man erhält so die (nxp)-Datenmatrix X als

die in jeder Zeile die Koordinaten eines Punktes enthält.

Der Erwartungswertvektor wird geschätzt durch den Mittelwertvektor der p arithmetischen Durchschnitte

mit den Komponenten

Für die Schätzung der Kovarianzmatrix erweist sich die bezüglich der arithmetischen Mittelwerte zentrierte Datenmatrix X* als nützlich. Sie berechnet sich als

mit den Elementen x*_ij, wobei l einen (nx1)-Spaltenvektor mit lauter Einsen bedeutet.

Die (pxp)-Kovarianzmatrix hat die geschätzten Komponenten

Sie ergibt sich als

Die Korrelationsmatrix R wird geschätzt durch die paarweisen Korrelationskoeffizienten

auf ihrer Hauptdiagonalen stehen Einsen.

Beispiel zu Stichproben

Es wurden 10 Apfelbäume zufällig ausgewählt. Die 10 Beobachtungen werden in der Datenmatrix X zusammengefasst:

Die Mittelwerte berechnen sich, wie beispielhaft an gezeigt, als

Sie ergeben den Mittelwertvektor

Für die zentrierte Datenmatrix X* erhält man die zentrierten Beobachtungen, indem man von den Spalten den entsprechenden Mittelwert abzieht:

3,3 - 4,9 = -1,6;	24 ? 40 = -16;	27 - 40 = -22
4,9 - 4,0 = 0;	41 - 40 = 1;	55 - 49 = 6
	...

also

Man berechnet für die Kovarianzmatrix die Kovarianzen, wie im Beipiel,

und entsprechend die Varianzen

so dass sich die Kovarianzmatrix

ergibt.

Entsprechend erhält man für die Korrelationsmatrix zum Beispiel

bzw. insgesamt

Literatur

Mardia, KV, Kent, JT, Bibby, JM: Multivariate Analysis, New York 1979
Fahrmeir, Ludwig, Hamerle, Alfred, Tutz, Gerhard (Hrsg): Multivariate statistische Verfahren, New York 1996
Hartung, Joachim, Elpelt, Bärbel: Multivariate Statistik, München, Wien 1999

Impressum

Datenschutzerklärung