Benutzer:Stepri2005/Kurs:Stochastische Prozesse/Bedingte Erwartungswerte und Verteilungen

2.1 Einleitung Bearbeiten

Problemstellung: Bearbeiten

  seien Zufallsgrößen über einem Wahrscheinlichkeitsraum  . Gesucht ist nach einer funktionalen Abhängigkeit zwischen   und  . Kann man aus einem konkreten Messwert von   auf den zu erwartenden Wert von   schließen?

Mathematische Formulierung: Bearbeiten

Gesucht ist die Funktion   mit

 

Zunächst wollen wir das Problem theoretisch untersuchen. Dies führt auf die Notwendigkeit, bedingte Verteilungen und bedingte Erwartungswerte zu betrachten (Kapitel 2.2 und 2.5). Danach behandeln wir die praktische Lösung des Problems (Kapitel 2.4).

Anmerkung: Bearbeiten

Im folgenden setzen wir - ohne dies speziell zu erwähnen - stets die Existenz aller auftauchenden Erwartungswerte voraus.

2.2 Diskrete zufällige Größen Bearbeiten

Es sei   ein diskreter zufälliger Vektor über   mit (endlichen oder abzählbar unendlichen) Wertebereichen   bzw.  . Wir vereinbaren folgende Bezeichnungen:

(2.1)  
(2.2)  
(2.3)  

Definition 2.1 Bearbeiten

Für   bezeichne   die Zufallsgröße mit Wertebereich   und Verteilung
 
Der Erwartungswert   der Zufallsgröße   heißt bedingter Erwartungswert von   unter der Bedingung  . Die Funktion   heißt bedingte Erwartungswertfunktion von  .

Für   erhält man

 

Völlig analog führt man die Zufallsgröße   ein.

Definition 2.2 Bearbeiten

Für   bezeichne   die Zufallsgröße mit Wertebereich   und Verteilung
 
Der Erwartungswert   der Zufallsgröße   heißt bedingter Erwartungswert von   unter der Bedingung  . Die Funktion   heißt bedingte Erwartungswertfunktion von  .

Für den bedingten Erwartungswert   ergibt sich

 

Anmerkung: Bearbeiten

Es wird stets vorausgesetzt   (sonst können die bedingten Wahrscheinlichkeiten nicht gebildet werden). Da aber   nicht ausgeschlossen ist, kann für einige   und   gelten  .

Der bedingte Erwartungswert   ist eine Verfeinerung des Erwartungswertes  .   ist eine Zufallsgröße, die mit Wahrscheinlichkeit   den Wert   annimmt. Somit sollte der Erwartungswert von   gleich dem Erwartungswert von   sein. Analog ist   eine Verfeinerung des Erwartungswertes  . Die Zufallsgröße   nimmt mit Wahrscheinlichkeit   den Wert   an und es ist zu vermuten, dass gilt  .

Theorem 2.1 Bearbeiten

(2.4)  

Beweis: Bearbeiten

 
 

q.e.d.

Die bedingten Erwartungswertfunktionen lösen die anfangs skizzierte Aufgabenstellung.

Theorem 2.2 Bearbeiten

Seien   diskrete zufällige Größen über  . Für
 
sowie
 
gelten die Beziehungen
 
 

Beweis: Bearbeiten

Für eine beliebige Funktion   gilt

(2.5)  
(2.6)  

Der letzte Summand ist aber gleich Null, denn

(2.7)  
(2.8)  
(2.9)  
(2.10)  

Der Ausdruck   wird damit minimal für  . Auf der Menge   können wir natürlich   beliebig definieren. Analog wird   minimiert durch die Funktion  .

q.e.d.

Definition 2.3 Bearbeiten

Die Funktion   heißt Regressionsfunktion erster Art von   bezüglich  .
Analog nennt man   Regressionsfunktion erster Art von   bezüglich  .

2.3 Stetige zufällige Größen Bearbeiten

Seien   stetige Zufallsgrößen über einem Wahrscheinlichkeitsraum   mit gemeinsamer Dichtefunktion  , d. h.   mit

 

Die entsprechenden Randverteilungen von   und   erhält man durch entsprechende Integration der Dichte  :

(2.11)  
(2.12)  

Wie in Kapitel 2.2 wollen wir auch in diesem Fall bedingte Verteilungen, bedingte Erwartungswerte und die entsprechenden Erwartungswertfunktionen bilden. Da aber für alle     gilt, existieren die bedingten Wahrscheinlichkeiten   nicht. Allerdings können wir überprüfen, ob der Grenzwert

 

existiert. Diese Verteilung kann dann als Verteilung der Zufallsgröße   interpretiert werden.

Wir nehmen an, dass   (zumindest einseitig) stetig ist im Punkt   und dass gilt  . O. B. d. A. sei   in   stetig von rechts. Dann existiert ein   mit   für   und  . Für   gilt

(2.13)  
(2.14)  

Dadurch erhalten wir

(2.15)  
(2.16)  

Für alle   mit   sei   gegeben durch  . Die Funktion   ist eine Dichtefunktion, denn

 

Definition 2.4 Bearbeiten

Für   mit   sei   die zufällige Größe mit der Dichtefunktion  . Die Zufallsgröße   heißt bedingte zufällige Größe von   unter  .   heißt bedingter Erwartungswert von   unter  .

Für alle   mit   gilt

 

Analog erhalten wir für   mit   die Beziehung

 

Für stetige Zufallsgrößen gilt genau wie für diskrete, dass die bedingten Erwartungswerte die (theoretische) Lösung des Regressionsproblems darstellen (siehe Theorem 2.2).

Theorem 2.3 Bearbeiten

Seien   stetige zufällige Größen über  . Wir setzen
 
sowie
 
Es gilt
 
 

Beweis: Bearbeiten

Wie im diskreten Fall erhält man für eine beliebige messbare Funktion  

(2.17)  
(2.18)  

Analog zum Beweis von Theorem 2.2 zeigen wir, dass der letzte Summand verschwindet

(2.19)  
(2.20)  
(2.21)  

Der Ausdruck   wird damit minimal für  . Auf der Menge   setzt man die Funktion   o. B. d. A. gleich Null. Analog wird   minimiert durch die Funktion  .

q.e.d.

Beispiel 2.2 Bearbeiten

Sei   zufälliger Vektor mit   und Dichte

 

wobei  . Berechne die Regressionsfunktion  .

Lösung: Für   gilt

 

d. h.  . Somit ergibt sich für   als Dichte der Zufallsgröße   der Ausdruck  , d. h.  . Wir erhalten schließlich

 

Es sei erwähnt, dass für   gilt

 

Die Zufallsgröße   hat damit eine sog. Pareto-Verteilung, also

 

Beispiel 2.3 Bearbeiten

  habe die gemeinsame Dichtefunktion

 

Berechne die Regressionsfunktionen   sowie  !

Lösung: Wir erinnern noch einmal an die aus der Analysis bekannte Beziehung (3.2). Daraus folgt (nach einfacher Substitution), dass für alle   gilt

(2.22)  

Für die Randdichte   ergibt sich

(2.23)  

Folglich gilt   und als Dichte der Zufallsgröße   erhält man

 

Es gilt also   und damit

 

Analog berechnen wir die Randdichte  :

(2.24)  
(2.25)  
(2.26)  

woraus wir auf   schließen. Es ergibt sich

 

d. h.  , was auf

 

führt.

Beispiel 2.4 Bearbeiten

  habe die gemeinsame Dichtefunktion

 

Berechne die Erwartungswertfunktionen  !

2.4 Regressionsgerade Bearbeiten

Definition 2.5 Bearbeiten

  zufälliger Vektor. Die zufällige Größe   heißt Regressionsgerade von   bezüglich  , falls
 

Satz 2.1 Bearbeiten

 

2.5 Allgemeine bedingte Erwartungswerte Bearbeiten

„Es ist nöthig zu bemerken, daß die Unklarheit im Begriffe durch die Abstraktheit hervorgerufen wird, die bei der Anwendung auf wirkliche Messungen überflüssig wird.“
Nikolai Iwanowitsch Lobatschewski, 1835
 
Nikolai Lobatschewski

Im Kapitel 2.2 wurde der Begriff des bedingten Erwartungswerts an Hand des Spezialfalls diskreter Zufallsgrößen verdeutlicht. Wir haben festgestellt, dass alle für   wesentlichen Informationen über   in der  -Algebra   stecken. Wir sagen, dass   Träger der Information über   ist. Wir wollen dies nun auf allgemeine Zufallsgrößen und  -Algebren übertragen.

Definition 2.6 Bearbeiten

Seien   Zufallsgrößen über einem Wahrscheinlichkeitsraum  ,   eine  -Subalgebra von  . Wir sagen, dass   die volle Information über   enthält, falls gilt  . Wir sagen,   enthält mehr Information als  , falls gilt  .

Anmerkung: Bearbeiten

Ist   eine  -messbare Funktion, so enthält   die volle Information über  . Wir entnehmen, dass   die volle Information über den bedingten Erwartungswert   enthält. Dies und die oben aufgeführte Eigenschaft werden die definierenden Eigenschaften für allgemeine bedingte Erwartungswerte sein.

Definition 2.7 Bearbeiten

Sei  ,   eine  -Subalgebra von  ,   eine Zufallsgröße. Eine Zufallsgröße   heißt bedingter Erwartungswert von   unter der  -Algebra  , falls
  1.  
  2.  
Symbolisch schreiben wir:  .

Bei diskreten Zufallsgrößen können wir explizit die bedingten Erwartungswerte berechnen. Allgemein ist dies schwierig oder unmöglich - Definition 2.7 ist alles andere als konstruktiv. Deshalb ist es wichtig, Rechenregeln für bedingte Erwartungswerte zu haben, die es einem ermöglichen, mit bedingten Erwartungswerten zu operieren, ohne ihre spezielle Form zu kennen. Wir werden die folgenden Eigenschaften nicht beweisen, sondern nur kommentieren.

Im folgenden sei   ein Wahrscheinlichkeitsraum,   eine  -Subalgebra von   sowie   Zufallsgrößen (also  -messbare Funktionen).

Theorem 2.4 (Regel 0) Bearbeiten

Ist  , so existiert   und ist eindeutig in folgendem Sinne: Sind   Zufallsgrößen mit den Eigenschaften 1. und 2. von Definition 2.7, so ist  -fast sicher  .

Theorem 2.5 (Regel 1) Bearbeiten

Der bedingte Erwartungswert ist linear: Für alle   gilt  -f. s.
(2.27)  

Theorem 2.6 (Regel 2) Bearbeiten

(2.28)  

Theorem 2.7 (Regel 3) Bearbeiten

Sind   und   unabhängig, so gilt  -f. s.
(2.29)  

Theorem 2.8 (Regel 4) Bearbeiten

Ist   (d. h.   ist sogar  -messbar), so gilt  -f. s.
(2.30)  
Speziell ist also  , falls  .

Theorem 2.9 (Regel 5) Bearbeiten

Ist   (d. h.   ist sogar  -messbar), so gilt für alle    -f. s.
(2.31)  

Theorem 2.10 (Regel 6) Bearbeiten

Ist   eine weitere  -Subalgebra, so gilt  -f. s.
(2.32)  
(2.33)  

Theorem 2.11 (Regel 7) Bearbeiten

Sind   und   unabhängig und ist  , so gilt für eine beliebige Funktion   (Existenz der Erwartungswerte vorausgesetzt)  -f. s.
(2.34)  
wobei   den nur bezüglich   gebildeten Erwartungswert bezeichnet.

Anmerkung: Bearbeiten

Beachte, dass   eine Zufallsgröße ist und zwar gilt  . Wir wollen die Bildung   etwas illustrieren.   habe die Dichtefunktion  . Dann gilt

 

Ist beispielsweise  , erhält man  . Ist  , ergibt sich  .

Sei   ein Wahrscheinlichkeitsraum,   eine  -Subalgebra. Die Zufallsgröße   sollte man stets als eine Verfeinerung oder ein Update der Information   auffassen, wenn die Information   gegeben ist. Von allen Zufallsgrößen, die bereits  -messbar sind, besitzt   die folgende Minimalitätseigenschaft in Bezug auf die mittlere quadratische Abweichung.

Theorem 2.12 Bearbeiten

Sei   ein Wahrscheinlichkeitsraum,   eine  -Subalgebra.   bezeichne die Menge aller quadratisch integrierbaren  -messbaren Zufallsgrößen. Für eine beliebige Zufallsgröße   mit   gilt
(2.35)  

Definition 2.7 Bearbeiten

Sei   ein Wahrscheinlichkeitsraum,   und   Zufallsgrößen. Die Zufallsgröße   heißt bedingter Erwartungswert von   unter der Bedingung  . Symbolisch schreibt man auch  .

Wegen Theorem 2.12 ist   diejenige Funktion von  , die im quadratischen Mittel der Zufallsgröße   am nächsten ist. Anwendung findet diese Aussage in der Statistik in der sog. Regressionsanalyse. Wir sagen auch, dass   die beste Vorhersage von   bei gegebenem   ist.

Zum Schluss noch als technisches Hilfsmittel eine wichtige Ungleichung.

Theorem 2.13 (Jensensche Ungleichung) Bearbeiten

Sei   eine konvexe Funktion und   eine Zufallsgröße auf einem Wahrscheinlichkeitsraum   mit   sowie  . Es gilt
(2.36)  
Für eine beliebige  -Subalgebra   gilt
(2.37)