Multivariate Verteilung
Die gemeinsame Wahrscheinlichkeitsverteilung mehrerer Zufallsvariablen nennt man multivariate Verteilung oder auch mehrdimensionale Verteilung.
Um Verwechslungen zu vermeiden, werden Zufallsvariablen - wie meistens - groß geschrieben, Zufallsvektoren jedoch klein. Matrizen und Vektoren werden unterstrichen.
Man betrachtet p viele Zufallsvariablen Xj (j = 1, ..., p), jeweils mit einem Erwartungswert EXj und der Varianz varXj. Die Zufallsvariablen sind zudem paarweise korreliert mit der Kovarianz covXjXk (j,k = 1, ...,p; j ? k).
Man interessiert sich für die gemeinsame Wahrscheinlichkeit, dass alle Xj höchstens gleich einer jeweiligen Konstanten xj sind, also
P(X1 ? x1 ? X2 ? x2 ? ... ? Xp ? xp) = FX(x1;x2; ... , xp).
Multivariate Zufallsvariablen werden i.a. in Matrixform dargestellt. Man fasst die Zufallsvariablen in einem (px1)-Zufallsvektor X zusammen:
Die Umformung zu den Korrelationskoeffizienten
Sind die Zufallsvariablen stochastisch unabhängig, ist die gemeinsame Wahrscheinlichkeit gleich dem Produkt der entsprechenden Einzelwahrscheinlichkeiten.
Von Bedeutung sind vor allem die
Gegeben ist ein Vektor x aus p gemeinsam normalverteilten Zufallsvariablen mit dem Erwartungswertvektor ? und der Kovarianzmatrix ?. Die gemeinsame Dichtefunktion der Vektorkomponenten ist gegeben durch
Die multivariate Normalverteilung hat spezielle Eigenschaften:
Betrachtet wird eine Apfelbaumplantage mit sehr vielen gleich alten, also vergleichbaren Apfelbäumen. Man interessiert sich für die Merkmale Größe der Apfelbäume, die Zahl der Blätter und die Erträge. Es werden also die Zufallsvariablen definiert:
X1: Höhe eines Baumes [m]; X2 : Ertrag [100 kg]; X3 : Zahl der Blätter [1000 Stück].
Die Variablen sind jeweils normalverteilt wie
Ebenso ist covX1X3=12,75 mit dem Korrelationskoeffzienten ?13 = 0,85, und covX2X3=120 mit dem Korrelationskoeffzienten ?23 = 0,8.
Fasst man die drei Zufallsvariablen im Zufallsvektor x zusammen, ist x multivariat normalverteilt mit
In der Realität werden in aller Regel die Verteilungsparameter einer Multivariaten Verteilung nicht bekannt sein. Diese Parameter müssen also geschätzt werden.
Man zieht eine Stichprobe vom Umfang n. Jede Realisation i (i=1,...,n) des Zufallsvektors x könnte man als Punkt in einem p-dimensionalen Hyperraum auffassen. Man erhält so die (nxp)-Datenmatrix X als
Der Erwartungswertvektor wird geschätzt durch den Mittelwertvektor der p arithmetischen Durchschnitte
.
Für die Schätzung der Kovarianzmatrix erweist sich die bezüglich der arithmetischen Mittelwerte zentrierte Datenmatrix X* als nützlich. Sie berechnet sich als
,
mit den Elementen x*ij, wobei l einen (nx1)-Spaltenvektor mit lauter Einsen bedeutet.
Die (pxp)-Kovarianzmatrix hat die geschätzten Komponenten
Formale Darstellung
Für die obige gemeinsame Wahrscheinlichkeit erhält man
Die Erwartungswerte befinden sich im (px1)-Erwartungswertvektor
Die Varianzen werden zusammen mit den Kovarianzen in der (pxp)-Kovarianzmatrix ? aufgeführt:
Man sieht, dass ? symmetrisch ist. Auf der Hauptdiagonalen sind die Varianzen angeordnet. x ist also verteilt mit dem Erwartungswertvektor EX und der Kovarianzmatrix ?.
ergibt die Korrelationsmatrix
Gemeinsame Wahrscheinlichkeiten sind häufig schwierig zu berechnen, vor allem, wenn schon die Einzelwahrscheinlichkeiten nicht analytisch bestimmbar sind. Man behilft sich dann gegebenenfalls mit Abschätzungen. Vor allem können die Auswirkungen der Kovarianz auf die Verteilung in der Regel nicht abgesehen werden.Ausgewählte multivariate Verteilungen
die multivariaten Verfahren zu Grunde liegen. Meistens ist es möglich, mittels einer linearen Transformation den Zufallsvektor in ein Skalar umzuwandeln, das dann univariat verteilt ist und so als Testprüfgröße fungiert.Die multivariate Normalverteilung
Es ist also
Die Kovarianzmatrix ? ist i. a. positiv definit. Die Werte der Verteilungsfunktion F müssen numerisch ermittelt werden.Beispiel für eine multivariate Normalverteilung
Die meisten Bäume sind also um 4 ± 1m groß, sehr kleine oder sehr große Bäume sind eher selten. Bei einem großen Baum ist der Ertrag tendenziell größer als bei einem kleinen Baum, aber es gibt natürlich hin und wieder einen großen Baum mit wenig Ertrag. Ertrag und Größe sind korreliert, die Kovarianz beträgt covX1X2=9 und der Korrelationskoeffizient ?12 = 0,9.
und
Die entsprechende Korrelationsmatrix istStichproben bei Multivariaten Verteilungen
die in jeder Zeile die Koordinaten eines Punktes enthält.
mit den Komponenten
Sie ergibt sich als
Die Korrelationsmatrix R wird geschätzt durch die paarweisen Korrelationskoeffizienten
auf ihrer Hauptdiagonalen stehen Einsen.
3,3 - 4,9 = -1,6; | 24 ? 40 = -16; | 27 - 40 = -22 |
4,9 - 4,0 = 0; | 41 - 40 = 1; | 55 - 49 = 6 |
also
- .
- ,
Entsprechend erhält man für die Korrelationsmatrix zum Beispiel
- .
Literatur
- Mardia, KV, Kent, JT, Bibby, JM: Multivariate Analysis, New York 1979
- Fahrmeir, Ludwig, Hamerle, Alfred, Tutz, Gerhard (Hrsg): Multivariate statistische Verfahren, New York 1996
- Hartung, Joachim, Elpelt, Bärbel: Multivariate Statistik, München, Wien 1999