Cours de probabilité et simulation Licence de mathématiques Version 2.0

ou juste avant la balise de fermeture -->

 

 

10% de réduction sur vos envois d'emailing --> CLIQUEZ ICI

Retour à l'accueil, cliquez ici

ou juste avant la balise de fermeture -->

Cours de probabilité et simulation Licence de mathématiques Version 2.0 Christian Léonard Département de mathématiques et informatique, Université Paris Ouest. Nanterre. E-mail address: leonard(à)u-paris10.frTable des matières Chapitre 1. Fondements de la théorie des probabilités 1 1.1. Événements 1 1.2. Probabilité 3 Chapitre 2. Variables aléatoires 7 2.1. Fonction de répartition 8 2.2. Variables aléatoires discrètes 11 2.3. Variables aléatoires continues 12 2.4. Quelques éléments de ré?exion 14 Chapitre 3. Loi et espérance d’une variable aléatoire 17 3.1. Variables discrètes 17 3.2. Variables continues 21 3.3. Une notation commune 23 3.4. Fonction indicatrice d’ensemble 24 3.5. Variance et écart-type 24 3.6. Moments 25 3.7. Fonctions d’une variable aléatoire 26 3.8. Egalité en loi 28 3.9. Dé?nition abstraite de la loi d’une variable aléatoire 29 Chapitre 4. Variables aléatoires usuelles 31 4.1. Exemples de variables aléatoires discrètes 31 4.2. Exemples de variables aléatoires continues 33 Chapitre 5. Fonctions génératrices et caractéristiques 39 5.1. Le cas des variables entières 39 5.2. Fonctions caractéristiques 41 Chapitre 6. Couples aléatoires 45 6.1. Lois jointe et marginales 45 6.2. Fonction de répartition 45 6.3. Indépendance 46 6.4. Couples discrets 49 6.5. Couples continus 52 6.6. Fonctions caractéristiques 56 6.7. Inégalité de Cauchy-Schwarz 57 Chapitre 7. Fonctions d’un couple aléatoire 59 7.1. Quelques exercices corrigés 59 7.2. Somme de deux variables aléatoires indépendantes 60 vvi TABLE DES MATIÈRES Chapitre 8. Conditionnement 63 8.1. Probabilité conditionnelle 63 8.2. Conditionnement dans le cas discret 64 8.3. Conditionnement dans le cas continu 65 Chapitre 9. Indépendance (revisitée) 69 9.1. Dé?nition 70 9.2. Propriétés élémentaires 71 9.3. Échantillons 73 Chapitre 10. Construction d’une variable aléatoire réelle générale 77 10.1. Construction d’une variable aléatoire continue uniforme 77 10.2. Construction d’une variable aléatoire réelle générale 79 Chapitre 11. Simulation d’une variable aléatoire 81 11.1. Description rapide de certains générateurs 81 11.2. Simulation. Principe et applications 81 11.3. Histogrammes 85 Chapitre 12. Convergence des variables aléatoires 89 Chapitre 13. Inégalités de convexité 91 Annexe A. Dénombrabilité 93 Annexe B. Éléments de théorie de l’intégration 97 Annexe C. Espérance mathématique sans théorie de l’intégration 101 Annexe D. Convexité 105 Index 109CHAPITRE 1 Fondements de la théorie des probabilités 1.1. Événements Nous commençons par présenter les fondements axiomatiques de la théorie des probabilités. Définition 1.1. L’ensemble des réalisations possibles d’une expérience est appelé univers de l’expérience. Il est généralement noté ?. Exemple 1.2. On tire une fois à pile ou face. Il est naturel de considérer ? = {p, f } où p et f sont les réalisations de l’expérience qui correspondent aux tirages respectifs de pile et de face. Voici quelques événements : (a) la réalisation est face (b) la réalisation est face ou pile (c) la réalisation est face et pile simultanément (d) la réalisation n’est pas face Ces événements peuvent être décrits respectivement par les parties A de ? suivantes : (a) A = {f } (b) A = {f } ? {p} = {f, p} = ? (c) A = {f } n {p} = Ø (d) A = {f } c = {p} où Ac désigne le complémentaire de la partie A dans ?. Exemple 1.3. On lance un dé une fois. Il est naturel de considérer ? = {1, 2, 3, 4, 5, 6} dont les éléments correspondent aux di?érentes facettes du dé. Voici quelques événements : (a) la réalisation est 1 (b) la réalisation est un nombre pair (c) la réalisation est un nombre pair inférieur à 3 (d) la réalisation n’est pas un nombre pair Ces événements peuvent être décrits respectivement par les parties A de ? suivantes : (a) A = {1} (b) A = {2, 4, 6} (c) A = {2, 4, 6} n {1, 2, 3} = {2} (d) A = {2, 4, 6} c = {1, 3, 5} 12 1. FONDEMENTS DE LA THÉORIE DES PROBABILITÉS Si A et B sont des événements qui correpondent respectivement aux réalisations e?ectives a et b, on peut avoir besoin de considérer les événements composés : a 99K A b 99K B non a 99K Ac a et b 99K A n B a mais pas b 99K A \ B a ou b 99K A ? B a ou bien b 99K A?B où – A \ B = A n Bc est la di?érence A moins B, c’est-à-dire l’ensemble des éléments qui se trouvent dans A mais pas dans B; – A?B = (A ? B) \ (A n B) est la di?érence symétrique de A et B, c’est-à-dire l’ensemble des éléments qui se trouvent soit dans A, soit dans B, mais pas simultanément dans A et B. A \ B A n B A B \ A B La région colorée est A?B = (A \ B) ? (B \ A). Remarquons la di?érence entre ou bien qui est exclusif et ou qui ne l’est pas et correspond à la réunion A ? B. Si A n B = Ø, on dit que les événements sont incompatibles, Ø est l’événement impossible et ? est l’événement certain. L’ensemble de tous les événements est noté A, il est inclus dans l’ensemble de toutes les parties de ? notée 2 ? . Cette notation est justi?ée par l’exercice suivant. Exercice 1.4. En considérant l’ensemble des applications {oui, non} ? de ? dans {oui, non}, montrer que lorsque le cardinal de ? est n, celui de 2 ? est 2 n . Lorsque ? n’est pas un ensemble dénombrable (voir la Dé?nition A.1), pour des raisons subtiles (qui ne sont pas aisément compréhensibles au niveau de ce cours) on ne pourra pas en général prendre A = 2 ? . Compte tenu de ce qui précède, A doit au moins satisfaire : (1) A, B ? A =? A ? B ? A et A n B ? A1.2. PROBABILITÉ 3 (2) A ? A =? Ac ? A (3) Ø ? A. Exemple 1.5. On répète notre lancer de pile ou face jusqu’à ce qu’on obtienne pile. L’univers est alors ? = {?1, ?2, . . .} avec ?1 = p, ?2 = fp, ?3 = ffp, . . . La réalisation ?i est : "on observe pile pour la première fois au i-ème lancer". L’ensemble correspondant à l’événement : "l’instant de première apparition de pile est pair" est A = {?2} ? {?4} ? {?6} ? . . . , c’est une réunion in?nie dénombrable. Cette remarque justi?e la dé?nition suivante. Définition 1.6. Un ensemble A de parties de ? est appelée une tribu (ou une s- algèbre) si (1) A1, A2,    ? A =? S8 i=1 Ai := {? ? ?; ?i = 1, ? ? Ai} ? A (2) A ? A =? Ac ? A (3) Ø ? A Les éléments de A (ce sont des parties de ?) sont appelés des événements. Exemple 1.7 (Exemples de tribus). (a) A = {Ø, ?} (c’est la plus petite tribu) (b) A = 2 ? (c’est la plus grande tribu) (c) Si A ? ?, A = {Ø, A, Ac , ?}. À une expérience, on associe le couple (?, A) où A est une tribu de ?. Dire que A est un événement, c’est dire : A ? A. Remarque 1.8. Lorsque ? est un ensemble dénombrable (en particulier ?ni), on prend toujours pour tribu A = 2 ? : l’ensemble de toutes les parties de ?. 1.2. Probabilité Si on note P(A) la probabilité d’occurence d’un événement A ? A, on attend que : – 0% = 0 = P(A) = 1 = 100% (par convention) – P(?) = 1 (condition de normalisation) – pour tous A, B ? A, si A n B = Ø alors P(A ? B) = P(A) + P(B) (additivité) Comme nous l’avons déjà remarqué, il peut être utile de considérer des événements constitués par une réunion dénombrable d’événements disjoints A1, A2, . . . On note dans de cas leur réunion S8 i=1 Ai = F8 i=1 Ai pour mettre l’emphase sur leur disjonction qui signi?e : ?i, j, i =6 j ? Ai n Aj = Ø. D’où la dé?nition suivante. Définition 1.9. Une mesure de probabilité P sur (?, A) est une fonction P : A ? [0, 1] qui satisfait : (1) P(?) = 1 (2) si A1, A2, . . . est une suite d’événements disjoints, alors : P G8 i=1 Ai  = X8 i=1 P(Ai).4 1. FONDEMENTS DE LA THÉORIE DES PROBABILITÉS Le triplet (?, A, P) est appelé un espace de probabilité. Il provient immédiatement de cette dé?nition, – en choisissant A1 = A2 = Ø, que 0 = P(Ø) = limn?8 nP(Ø) et par conséquent P(Ø) = 0; – en choisissant A1 = A, A2 = B et A3 = A4 =    = Ø, que pour tous A, B ? A disjoints, P(A ? B) = P(A) + P(B). – Il en va de même pour toute réunion d’un nombre ?ni d’événements disjoints : P Gn i=1 Ai  = Xn i=1 P(Ai). Exemples 1.10. (a) Pile ou face correspond à ? = {f, p}, avec A = {Ø, {f }, {p}, ?} et P(Ø) = 0, P({f }) = P({p}) = 1/2, P(?) = 1. (b) Un lancer de dé éventuellement pipé peut se modéliser comme suit : ? = {1, 2, . . . , 6}, A = 2 ? et P({i}) = pi = 0, 1 = i = 6 avec p1 +    p6 = 1. Pour tout A ? ?, nous obtenons P(A) = P i?A pi . (c) Si le dé est honnête, p1 =    = p6 = 1/6 et P(A) = #(A)/6 où #(A) désigne le cardinal de A. Voici quelques conséquences immédiates de la dé?nition de P. Lemme 1.11. Pour tous A, B ? A, nous avons (1) P(Ac ) = 1 - P(A) (2) A ? B =? P(B) = P(A) + P(B \ A) = P(A) (3) P(A ? B) = P(A) + P(B) - P(A n B) Démonstration. Laissée en exercice.  Définition 1.12 (Masse de Dirac). Soit a ? ?. On dé?nit la fonction d’ensembles da : A ? {0, 1} par da(A) =  1 si a ? A 0 sinon , A ? A On appelle da la masse de Dirac au point a. Exercice 1.13. (a) Véri?er que da est une mesure de probabilité sur A. (b) Si on prend trois éléments distincts a, b et c de ?, alors P = 1 7 da + 4 7 db + 2 7 dc est aussi une mesure de probabilité. (c) Montrer que P({a, b}) = 5/7 et calculer P({a, c}). La mesure de probabilité P = 1 7 da + 4 7 db + 2 7 dc de l’exercice précédent modélise l’expé- rience qui attribue les chances d’occurence 1/7, 4/7 et 2/7 aux réalisations élémentaires a, b et c.1.2. PROBABILITÉ 5 Exemple 1.14. On se donne une urne contenant 3 boules rouges appelées ?1, ?2 et ?3, 2 bleues appelées ?4, ?5 et 1 verte : ?6. On tire au hasard une boule et on note sa couleur. On peut prendre ? = {?1, . . . , ?6} avec P(?n) = 1/6, n = 1, . . . , 6 puisque notre intuition nous suggère l’équiprobabilité. Bien sûr, on choisit A = 2 ? et on obtient pour tout A ? ?, P(A) = #(A)/6. On constate que P = X6 n=1 1 6 d?n . Notons les événements R = {?1, ?2, ?3}, B = {?4, ?5}, V = {?6} correspondant au tirage d’une boule rouge, bleue ou verte. On voit que P(B) = 1/6 P6 n=1 d?n (B) = 1/6 P6 n=1 d?n ({?4, ?5}) = (0 + 0 + 0 + 1 + 1 + 0)/6 = 1/3. Si on n’est concerné que par la couleur de la boule, on peut prendre l’univers ? ' = {r, b, v} munit de la mesure de probabilité P ' = P(R)dr + P(B)db + P(V )dv = 1 2 dr + 1 3 db + 1 6 dv. Lorsque ? est l’ensemble dénombrable ? = {?n; n = 1}, toute mesure de probabilité sur A = 2 ? est de la forme (1.15) P = X n=1 pnd?n où (pn)n=1 est tel que pn = 0, ?n et P n=1 pn = 1. L’interprétation de cette formule est : P({?n}) = pn, n = 1. Notre premier résultat concernant une quantité in?niment dénombrable d’opérations sur les événements est le suivant. Lemme 1.16. (1) Soient A1, A2, . . . une suite croissante (pour la relation d’inclusion) de A : A1 ? A2 ?    et A = S8 n=1 An = {? ? ?; ?i = 1, ? ? Ai} sa limite. Alors P(A) = lim n?8 P(An). (2) Soient B1, B2, . . . une suite décroissante (pour la relation d’inclusion) de A : B1 ? B2 ?    et B = T8 n=1 Bn = {? ? ?; ?i = 1, ? ? Ai} sa limite. Alors P(B) = lim n?8 P(Bn). Démonstration. Puisque (An)n=1 est une suite croissante, A1 A2 A = S i=1 Ai A3 A2 \ A16 1. FONDEMENTS DE LA THÉORIE DES PROBABILITÉS A = A1 ? (A2 \ A1) ? (A3 \ A2) ?    est la réunion disjointe d’une famille d’événements. Par conséquent, P(A) = P(A1) + X8 i=1 P(Ai+1 \ Ai) = P(A1) + lim n?8 Xn-1 i=1 [P(Ai+1) - P(Ai)] = lim n?8 P(An) Pour le résultat concernant la famille décroissante, passer aux complémentaires en utilisant la relation (A ? B) c = Ac n Bc .  Exemple 1.17. On joue indé?niment à pile ou face jusqu’à ce qu’on obtienne pour la première fois pile. Le premier instant d’obtention de pile est un entier qui peut être arbitrairement grand. On doit donc prendre un univers ? de cardinal in?ni. Un bon choix est ? = {p, f } {1,2,...} : l’ensemble des suites ? = ?1?2 . . . ?n . . . constituées des lettres p et f avec l’interprétation que ?n = p signi?e qu’on a obtenu pile au n-ième lancer. Notons que nous choisissons un univers ? di?érent de celui de l’Exemple 1.5, pour modéliser la même expérience. L’événement qui correspond à l’obtention pour la première fois de pile au n-ième lancer est Pn = {? ? ?; ?1 =    = ?n-1 = f, ?n = p}. C’est un ensemble in?ni qui a le même cardinal que ? puisque seul le début des suites ? est spéci?é (Exercice : le prouver). Il est naturel de demander lors de notre modélisation de cette expérience que P(Pn) = 2 -n puisqu’il y a 2 n mots de longueur n constitués des lettre p et f et que chacun de ces mots qui code la réalisation de n lancers de pile ou face doit avoir la même probabilité (situation d’équiprobabilité). Soit Bn = {? ? ?; ?1 =    = ?n = f } = F i=n+1 Pi l’événement "il n’y a pas eu pile pendant les n premiers lancers". L’additivité des probabilités d’événements disjoints s’écrit P(Bn) = P8 i=n+1 P(Pi) c’est-à-dire 2 -n = P8 i=n+1 2 i . On vient de retrouver une formule bien connue. La suite (Bn)n=1 est décroissante avec T n=1 Bn = P8 = {?e} où ?e = ffff . . . est la suite constituée de f uniquement : l’événement "pile n’apparait jamais". Le lemme précédent nous assure de P(P8) = limn?8 2 -n = 0. C’est-à-dire que P(?e) = 0. En d’autres termes, avec cette modélisation de l’expérience, on conclut que l’événement complémentaire "pile ?nit par apparaître" est de probabilité 1 - 0 = 1; il est certain. Un paradoxe. Compte tenu de la symétrie de notre modélisation, tous les ? sont équiprobables : ?? ? ?, P(?) = P(?e) = 0. Or la “somme" des probabilités de tous les événements élémentaires doit être égale à 1 : “ P ??? ”P(?) = 1. Ce qui nous mène à “ P ??? ”0 = 1. Une somme de zéros égale à un ! Cette somme ne peut donc pas être la somme d’une série car P n?N 0 = 0. C’est la raison pour laquelle on a mis “ P ” entre guillemets. On lève le paradoxe en se rappelant que ? est un ensemble non-dénombrable (voir le Lemme A.7-2), c’est-à-dire qu’il ne peut pas être mis en injection dans N, il est beaucoup plus gros. De ce fait “ P ??? ” est une opération indé?nie ; en particulier elle n’est pas une série.CHAPITRE 2 Variables aléatoires Pour dé?nir une variable aléatoire, seul (?, A) su?t. On laisse P de côté pour le moment. On se donne (?, A). Essentiellement, une variable aléatoire est une fonction numérique sur l’univers ? souvent notée X : ? ? R. Exemple 2.1. On joue deux fois de suite à pile ou face. Notre univers est ? = {pp, pf, fp, ff } (l’ordre des lancers est pris en compte). Le nombre d’apparitions de pile est la variable aléatoire suivante X(?) = ? ? ? 2 si ? = pp 1 si ? ? {pf, fp} 0 si ? = ff Exemple 2.2. On jette une ?èche par terre et on note l’angle de sa direction avec le nord magnétique. Une telle expérience peut être décrite à l’aide de ? = [0, 2p[. Quant à la tribu A, contentons-nous de dire qu’elle contient entre autres toutes les réunions dénombrables d’intervalles. L’application X(?) = ?, ? ? [0, 2p[ est la variable aléatoire qui correspond à l’angle de la ?èche. Si l’on considère le cosinus de cet angle : Y = cos X, on obtient à nouveau une variable aléatoire sur (?, A). Nous reviendrons sur la question du choix de P à l’Exemple 2.7. Il est très pratique d’introduire la notation suivante {? ? ?; X(?) ? C} := {X ? C}, C ? R. En particulier, nous noterons {? ? ?; X(?) = x} = {X = x}. Définition 2.3. Une application X : ? ? R est une variable aléatoire réelle si pour tout x ? R, l’ensemble {X = x} appartient à A. Lorsque ? est dénombrable on prend A = 2 ? et bien sûr toute fonction numérique X sur ? est une variable aléatoire. Mais lorsque ? n’est pas dénombrable, comme c’est le cas dans l’Exemple 2.2, pour des raisons techniques délicates d’une di?culté dépassant le niveau de ce cours, on ne peut pas considérer toutes les fonctions numériques X sur ? mais seulement celles qui sont spéci?ées dans la dé?nition précédente. Remarques 2.4. (1) Notons que X est une fonction. Elle n’est donc ni variable, ni aléatoire ! Le vocable variable aléatoire date du début de la théorie des probabilités avec Pierre de Fermat ( ?-1665) et Blaise Pascal (1623-1662), bien avant que les mathématiques soient formalisées. Il faut donc prendre l’expression variablaléatoire sans lui accorder une portée sémantique – n’hésitez pas à ouvrir votre dictionnaire. 78 2. VARIABLES ALÉATOIRES (2) Les premières formalisations rigoureuses de la théorie des probabilités datent du début du vingtième siècle. Nous pratiquons celle de Kolmogorov, mathématicien, physicien, génial et soviétique. 2.1. Fonction de répartition Dès lors que l’on réintroduit la mesure de probabilité P, le comportement aléatoire de X peut être quanti?é. L’objet fondamental de cette description est la fonction de répartition. Définition 2.5. On se donne (?, A, P) et une variable aléatoire X sur (?, A). La fonction de répartition de X est dé?nie par FX(x) = P(X = x), x ? R. Notons que pour pouvoir écrire P(X = x), il faut que X soit une variable aléatoire au sens de la Dé?nition 2.3. Exemple 2.6. On reprend la variable aléatoire X de l’Exemple 2.1. Notre espace probabilisé est (?, A, P) avec ? = {pp, pf, fp, ff }, A = 2 ? et P(pp) = P(pf) = P(fp) = P(ff) = 1/4. Nous avons bien sûr, P(X = 0) = P(X = 2) = 1/4 et P(X = 1) = 1/2. La fonction de répartition de X est FX(x) = ? ? ? 0 si x ?] - 8, 0[ 1/4 si x ? [0, 1[ 3/4 si x ? [1, 2[ 1 si x ? [2, +8[ et son graphe est 0 1 x y 1 2 p0 = 1/4 p1 = 1/2 p2 = 1/4 | | 1/4 3/4 | Représentation graphique de y = FX(x) On constate que FX ne croît que pour les valeurs e?ectivement fréquentées par X : 0, 1 et 2. La hauteur de chacune des marches est respectivement p0 = P(X = 0), p1 = P(X = 1) et p2 = P(X = 2). Exemple 2.7 (suite de l’Exemple 2.2). Compte tenu de la symétrie de l’expérience, il semble raisonnable d’en modéliser le hasard à l’aide de la mesure de probabilité qui satisfait P(]a, b[) = (b - a)/(2p), 0 = a < b < 2p. Soient X(?) = ? et Y (?) = cos ?. Les2.1. FONCTION DE RÉPARTITION 9 fonctions de répartition de X et Y sont FX(x) = ? ? ? 0 si x = 0 x/(2p) si 0 = x < 2p 1 si x = 2p et FY (y) = ? ? ? 0 si y < -1 1 - (arccos y)/p si - 1 = y < 1 1 si y = 1 En e?et, pour 0 = x < 2p FX(x) = P(X = x) = P({? ? ?; 0 = ? = x}) = P([0, x]) = x/(2p) 0 1 x z 1 Représentation graphique de z = FX(x) et pour -1 = y < 1 -1 0 y 1 arccos y 2(p - arccos y) FY (y) = P(Y = y) = P({? ? ?; cos ? = y}) = P(X ? [-(p - arccos y), p - arccos y]) = 2(p - arccos y)/(2p) = 1 - (arccos y)/p -1 0 1 y z 1 Représentation graphique de z = FY (y) Les fonctions de répartition jouissent d’un certain nombre de propriétés. Proposition 2.8. Une fonction de répartition F possèdent les propriétés suivantes : (1) limx?-8 F (x) = 0 et limx?8 F (x) = 1,10 2. VARIABLES ALÉATOIRES (2) F est croissante (3) pour tous a < b, P(a < X = b) = F (b) - F (a) (4) F est continue à droite Démonstration. • Preuve de (1). Soit Bn = {X = -n}. Alors B1, B2, . . . est une suite décroissante d’événements de limite vide. Par conséquent, grâce au Lemme 1.16, limn?8 P(Bn) = P(Ø) = 0. Pour l’autre limite, considérer An = {X = n}. • Preuve de (2) et (3). Soient a < b et A(a) = {X = a}, A(a, b) = {a < X = b}. Alors, A(b) = A(a) ? A(a, b) est une union disjointe, de sorte que P(A(b)) = P(A(a)) + P(A(a, b)) d’où il vient que F (b) = F (a) + P(a < X = b) = F (a) qui est (3) et prouve (2). • Preuve de (4). Avec la notation précédente, pour tout a ? R, A(a, a + h) décroît vers le vide lorsque h > 0 décroît vers zéro. Par conséquent, grâce à (3), limh?0 F (a+h)-F (a) = limn?8 F (a + 1/n) - F (a) = limn?8 P(X ?]a, a + 1/n]) (*) = P(X ? limn?8]a, a + 1/n]) = P(X ? Ø) = 0, où l’égalité (*) est une conséquence du Lemme 1.16 et l’existence de la limite limh?0 F (a + h) est garantit par le croissance de F démontrée au point (2).  Le résultat suivant montre que la fonction de répartition permet d’évaluer la probabilité P(X ? I) pour n’importe quel intervalle I. Proposition 2.9. Soient -8 = a = b = +8. Alors, (1) P(X ?]a, b]) = FX(b) - FX(a); (2) P(X ? [a, b]) = FX(b) - FX(a - ); (3) P(X ?]a, b[) = FX(b - ) - FX(a); (4) P(X ? [a, b[) = FX(b - ) - FX(a - ) où FX(c - ) := limx?c FX(x) est la limite à gauche de FX en c et par convention FX(-8) := limx?-8 = 0 et FX(+8) := limx?+8 FX(x) = 1, d’après la Proposition 2.8-(1). On notera que la limite à gauche FX(c - ) existe puisque FX est une fonction croissante de sorte que limx?c FX(x) = supx 0. On rappelle que dx est la masse de Dirac au point x, c’est-à-dire que pour toute partie B ? R, dx(B) =  1 si x ? B 0 sinon , voir la Dé?nition 1.12. La loi PX est une mesure de probabilité sur R. Exemples 3.3. (1) La variable aléatoire X de l’Exemple 2.12-(1) a pour loi PX = 1 4 d0 + 1 2 d1 + 1 4 d2. (2) La loi de celle de l’Exemple 2.12-(2) est PX = P n=1 2 -n dn. Soit B une partie de R, nous constatons que (3.4) P(X ? B) = PX(B), B ? R puisque PX(B) = X n?N pndxn (B) = X n?N: xn?B pn = X n?N: xn?B P(X = xn) = P(X ? B). On voit clairement à l’aide de (2.14) que la donnée de (xn, pn)n?N est équivalente à celle de la fonction de répartition FX, de même qu’elle est équivalente à celle de la loi 1718 3. LOI ET ESPÉRANCE D’UNE VARIABLE ALÉATOIRE PX. En résumé, le comportement aléatoire de X est décrit de manière équivalente par la donnée de – (xn, pn)n?N ou – la fonction de répartition FX ou – la loi PX. La valeur moyenne de X pondérée par les probabilités de réalisation des événements est appelée son espérance mathématique. Définition 3.5. Soit X une variable discrète de loi PX = P n?N pndxn . L’espérance mathématique de X est EX := X n?N pnxn. Pour que cette quantité soit dé?nie correctement, il est nécessaire de supposer que E|X| := X n?N pn|xn| < 8 c’est-à-dire que P n?N pnxn est une série absolument convergente. Exemples 3.6. (1) La variable X de l’Exemple 3.3-(1) a pour loi PX = 1 4 d0+ 1 2 d1+ 1 4 d2. Son espérance est EX = 1 4 ×0 + 1 2 ×1 + 1 4 ×2 = 1. (2) La variable X de l’Exemple 3.3-(2) a pour loi PX = P n=1 2 -n dn. Son espérance est EX = P n=1 2 -n n. Remarques 3.7. (1) Lorsque X est une variable aléatoire positive, son espérance EX = P n?N pnxn est une série à termes positifs. Elle est donc toujours dé?nie à condition de lui donner la valeur +8 lorsqu’elle est divergente. En particulier, pour toute variable aléatoire, on a E|X| = P n?N pn|xn| et l’on peut écrire E|X| sans précaution en tant que nombre dans [0, +8] = [0, +8[?{+8}. De plus, E|X| < 8 signi?e que la série P n?N pnxn est absolument convergente et donc que EX est bien dé?ni. (2) On dé?nit la loi d’une variable aléatoire discrète X à valeurs dans un ensemble quelconque X exactement comme lorsque X ? R, par la donnée de (xn, pn)n?N où les P xn sont dans X . La loi de X est donnée par la Dé?nition 3.1 : PX = n?N pndxn . C’est une mesure de probabilité sur X muni de la tribu 2 X de ses parties. (3) En revanche, pour considérer EX, il faut pouvoir additionner les x et les multiplier par des poids 0 = p = 1. La notion d’espèrance de X n’a donc de sens que si X est un espace vectoriel. L’espérance de X est donnée par la Dé?nition 3.5 : EX = P n?N pnxn ? X sous réserve que cette série soit absolument convergente, c’est-à-dire que la série à termes positifs EkXk = P n?N pnkxnk < 8 soit convergente, où k  k est une norme sur l’espace vectoriel X . Un cas très important est celui de X = R d muni de le norme euclidienne ou de n’importe quelle autre norme équivalente.3.1. VARIABLES DISCRÈTES 19 Considérons la variable aléatoire Y = ?(X), image de X par la fonction numérique ? : R ? R. Sa loi est PY = P m?M qmdymoù {ym; m ? M} = {?(xn); n ? N} les ym étant tous distincts et qm := P(Y = ym) = P(?(X) = ym) = X x?X(?): ?(x)=ym P(X = x) = X n?N(m) (3.8) pn où N(m) = {n ? N : ?(xn) = ym} est l’ensemble des indices des xn dont l’image par ? est ym. Notons que (N(m))m?M constitue une partition de N. C’est-à-dire que les parties N(m) sont disjointes : m =6 m' ? N(m) n N(m' ) = Ø (puisque les ym sont tous distincts), et (3.9) N = G m?M N(m). Théorème 3.10. On suppose que P n?N pn|?(xn)| < 8. Alors, (3.11) E[?(X)] = X n?N pn?(xn). Démonstration. En notant Y = ?(X) comme précédemment, nous avons E[?(X)] = EY (a) = X m?M qmym (b) = X m?M X n?N(m) pnym (c) = X m?M X n?N(m) pn?(xn) (d) = X n?N pn?(xn) où (a) est la dé?nition de l’espérance, (b) provient de (3.8), (c) est une conséquence de ym = ?(xn), ?n ? N(m) et (d) vient de (3.9). Bien évidemment, il faut s’assurer que toutes ces séries sont absolument convergentes. Or, en reprenant le précédent calcul en remplaçant Y par |Y | et donc ? par |?|, on voit que c’est le cas sous notre hypothèse : P n?N pn|?(xn)| < 8.  Théorème 3.12. La loi de ?(X) est P?(X) = P n?N pnd?(xn) .20 3. LOI ET ESPÉRANCE D’UNE VARIABLE ALÉATOIRE Démonstration. On reprend en la transposant la preuve du Théorème 3.10. Ce qui donne : P?(X) = PY = X m?M qmdym = X m?M X n?N(m) pndym = X m?M X n?N(m) pnd?(xn) = X n?N pnd?(xn) qui est le résultat désiré.  Reprenons l’Exemple 3.3-(1), c’est-à-dire PX = 1 4 d0 + 1 2 d1 + 1 4 d2 et considérons ?(x) = (x - 1) 2 . On obtient alors P?(X) = 1 4 d?(0) + 1 2 d?(1) + 1 4 d?(2) = 1 4 d1 + 1 2 d0 + 1 4 d1 = 1 2 d0 + 1 2 d1. En prenant N = {1, 2, 3}, x1 = 0, x2 = 1 et x3 = 2, ainsi que M = {1, 2} avec y1 = 0 = ?(1) et y2 = 1 = ?(0) = ?(2), nous obtenons N(1) = {2} et N(2) = {1, 3}. La formule (3.8) s’écrit q1 = P n?N(1) pn = p2 et q2 = P n?N(2) pn = p1 + p3, ce qui donne P(?(X) = 0) = 1/2 et P(?(X) = 1) = 1/4 + 1/4 = 1/2. Lemme 3.13 (Positivité de l’espérance). (1) Soit X une variable positive : X = 0, c’est-à-dire X(?) = 0, ?? ? ?. Alors, 0 = EX = 8. (2) Soient ? et ? deux fonctions positives telles que 0 = ? = ?. Alors, 0 = E[?(X)] = E[?(X)] = 8. Démonstration. • Preuve de (1). Nous avons xn = 0 et pn = 0 pour tout n ? N. Donc EX = P n?N pnxn = 0. • Preuve de (2). Pour tout n ? N, 0 = pn?(xn) = pn?(xn). Donc les séries à termes positifs correspondantes sont ordonnées de façon similaire : 0 = E[?(X)] = P n?N P pn?(xn) = n?N pn?(xn) = E[?(X)] = 8.  Théorème 3.14 (Linéarité de l’espérance). Soient ?, ? : R ? R deux fonctions numériques telles que E|?(X)| < 8 et E|?(X)| < 8. Pour tous réels a, b, nous avons E[a?(X) + b?(X)] = aE[?(X)] + bE[?(X)] où toutes les espérances sont bien dé?nies. Démonstration. Puisque |a?(X)+b?(X)| = |a||?(X)|+|b||?(X)|, grâce au Lemme 3.13-(2), nous avons E|a?(X) + b?(X)| = |a| E|?(X)| + |b| E|?(X)| < 8 de sorte que toutes les espérances sont bien dé?nies. Grâce au Théorème 3.10, E[a?(X) + b?(X)] = X n?N pn[a?(xn) + b?(xn)] = a X n?N pn?(xn) + b X n?N pn?(xn) = aE[?(X)] + bE[?(X)] ce qui achève la preuve.  Théorème 3.15 (Croissance de l’espérance). Soient ? et ? deux fonctions numé- riques telles que E|?(X)| < 8, E|?(X)| < 8 et ? = ?. Alors, E[?(X)] = E[?(X)].3.2. VARIABLES CONTINUES 21 Démonstration. ?(X) - ?(X) = 0, donc par linéarité et positivité de l’espérance E[?(X)] - E[?(X)] = E[?(X) - ?(X)] = 0.  Remarque 3.16. En reprenant la Remarque 3.7-(2), on peut étendre les Théorèmes 3.14 et 3.15 au cas des variables aléatoires discrètes à valeurs dans un ensemble X quelconque, en prenant des fonctions ?, ? : X ? R, puisque ?(X) et ?(X) sont des variables aléatoires réelles. 3.2. Variables continues Nous allons procéder par analogie avec les variables discrètes. Nous gardons les notations introduites à la Dé?nition 2.15, en particulier la densité fX de la loi de la variable aléatoire continue X est supposée continue par morceaux. Définition 3.17. (1) On note CX l’ensemble des fonctions de ? : R ? R qui sont continues par morceaux et telles que l’intégrale généralisée R R |?(x)|fX(x) dx soit convergente, c’est-à-dire R R |?(x)|fX(x) dx < 8. (2) Soit ? ? CX. L’espérance mathématique de la variable aléatoire ?(X) est dé?nie par (3.18) E?(X) := Z R ?(x)fX(x) dx. – Une justi?cation rigoureuse de cette dé?nition peut être obtenue en montrant qu’elle est l’extension naturelle de la Dé?nition 3.5 de l’espérance d’une variable discrète. – En tenant compte de (2.20), lorsqu’on se souvient de la construction de l’intégrale de Riemann comme limite de sommes de Darboux, on voit que cette dé?nition est analogue au résultat obtenu en (3.11) pour les variables discrètes. – Du fait que fX et ? sont continues par morceaux, il en est de même pour leur produit ?fX qui, par conséquent, est localement intégrable au sens de Riemann. Remarques 3.19. (1) Si ? = 0 est une fonction continue par morceaux et positive, on peut dé?nir l’espérance (3.18) en posant E?(X) = +8 lorsque l’intégrale généralisée positive R R ?(x)fX(x) dx est divergente. En particulier, pour toute fonction R ? continue par morceaux, on note E|?(X)| = R |?(x)|fX(x) dx ? [0,8]. (2) L’hypothèse d’intégrabilité E|?(X)| = R R |?(x)|fX(x) dx < 8 exprime que l’intégrale généralisée R R ?(x)fX(x) dx est absolument convergente. Exemple 3.20. Si X est l’angle de la ?èche de l’Exemple 2.17 : fX(x) = 1[0,2p[(x)/(2p) de sorte que E(X) = R 2p 0 x 2p dx = p. Remarque 3.21. On peut se demander ce que signi?e la valeur moyenne de l’angle EX = p. En e?et, si l’on avait choisi de coder l’angle dans [-p, p[, on aurait obtenu EX = 0 pour la même expérience. En revanche, les coordonnées cartésiennes (cos X, sin X) sur le cercle trigonométrique sont indépendantes du choix de l’origine des angles.22 3. LOI ET ESPÉRANCE D’UNE VARIABLE ALÉATOIRE (0, 0) (1, 0) (cos X, sin X) angle = X b b On dé?nit E(cos X, sin X) = (E[cos X], E[sin X]) et on obtient la direction moyenne E(cos X, sin X) = (0, 0) puisque E[cos X] = 1 2p R 2p 0 cos x dx = 0 et E[sin X] = 1 2p R 2p 0 sin x dx = 0. Ce qui signi?e bien qu’aucune direction n’est privilégiée. Théorème 3.22 (Linéarité de l’espérance). L’ensemble CX est un sous-espace vectoriel de l’espace des fonctions numériques. Pour tous ?, ? ? CX et tous réels a, b, nous avons E[a?(X) + b?(X)] = aE[?(X)] + bE[?(X)]. Démonstration. Soient ? et ? deux fonctions continues par morceaux. L’ensemble des points de discontinuité de ? + ? est inclus dans la réunion des ensembles de points de discontinuité de ? et ? et une réunion ?nie de points isolés reste un ensemble de points isolés. Donc ? + ? est continue par morceaux. Il en est de même pour a? pour tout a ? R. D’autre part, R R |a?(x)|fX(x) dx = |a| R R |?(x)|fX(x) dx < 8. Ce qui prouve que CX est un espace vectoriel. La linéarité de l’intégrale nous assure de E[a?(X) + b?(X)] = Z R [a?(x) + b?(x)]fX(x) dx = a Z R ?(x)fX(x) dx + b Z R ?(x)fX(x) dx = aE[?(X)] + bE[?(X)], qui est le résultat annoncé.  Théorème 3.23 (Croissance de l’espérance). (1) Soient ?, ? = 0 deux fonctions positives continues par morceaux telles que 0 = ? = ?. Alors la Remarque 3.19-(1) nous assure du sens des quantités E[?(X)] et E[?(X)] et nous avons 0 = E[?(X)] = E[?(X)] = 8. (2) Soient ?, ? ? CX telles que ? = ?, alors E[?(X)] = E[?(X)]. Démonstration. Ces résultats sont des conséquences immmédiates des propriétés de croissance des intégrales généralisées.  Par analogie avec la relation (3.4), nous introduisons la3.3. UNE NOTATION COMMUNE 23 Définition 3.24. La loi de X est la mesure de probabilité sur R PX(dx) := fX(x) dx qui est dé?nie par PX(B) := P(X ? B) = Z b a fX(x) dx notation = Z B fX(x) dx pour tout intervalle B = (a, b) ? R. 3.3. Une notation commune Nous venons de voir que les résultats de croissance (Théorèmes 3.15 et 3.23) et de linéarité (Théorèmes 3.14 et 3.22) s’expriment de façon analogue pour les variables aléatoires discrètes et continues. C’est l’indice qu’il existe une théorie générale qui englobe ces deux situations. Il s’agit de la théorie de l’intégration de Lebesgue que nous n’aborderons pas dans ce cours. En revanche, nous allons introduire des notations issues de cette théorie qui permettront de traiter simultanément ces deux types de variables aléatoires. Les principaux résultats de cette théorie sont collectés à l’Annexe B. On note Z R ?(x) PX(dx) = Z R ? dPX = E?(X) (1) la quantité Z R ? dPX = X n?N ?(xn)pn lorsque X est discrète de loi PX = P n?N pndxn ou bien (2) la quantité Z R ? dPX = Z R ?(x)fX(x) dx lorsque X est continue de loi PX(dx) = fX(x) dx. Nous avons montré aux Théorèmes 3.15, 3.23, 3.14 et 3.22 que, pour ? et ? dans une bonne classe de fonctions, les propriétés suivantes sont satisfaites. – Linéarité. Pour tous a, b ? R, (3.25) E[a?(X) + b?(X)] = aE?(X) + bE?(X) ou avec notre nouvelle notation : Z R [a? + b?] dPX = a Z R ? dPX + b Z R ? dPX – Croissance. Si ? = ?, alors (3.26) E?(X) = E?(X) ou avec notre nouvelle notation : Z R ? dPX = Z R ? dPX. – Normalisation. On note 1 la fonction constante égale à 1. (3.27) E(1) = Z R dPX = PX(R) = P(?) = 1.24 3. LOI ET ESPÉRANCE D’UNE VARIABLE ALÉATOIRE 3.4. Fonction indicatrice d’ensemble On introduit maintenant une fonction très pratique en calcul des probabilités. Définition 3.28 (Fonction indicatrice). Soit V un ensemble quelconque et W ? V une partie de V. La fonction indicatrice de W est 1W (v) :=  1 si v ? W 0 sinon , v ? V. Remarques 3.29. (1) Notons que 1W (v) = dv(W). (2) Pour tout B ? R, 1{X?B}(?) = 1B(X(?)) =  1 si X(?) ? B 0 sinon . Proposition 3.30. (1) Pour B ? R, E[1{X?B}] = E[1B(X)] = P(X ? B) = PX(B). (2) Pour tout réel c, E(c1?) = c. On notera souvent la variable aléatoire égale à la constante c : c1? = c; donc E(c) = c. Une telle variable aléatoire est dite déterministe. Démonstration. • Preuve de (1). Commençons par le cas où X est discrète. Grâce au Théorème 3.10, E[1{X?B}] = E[1B(X)] = = P n?N pn1B(xn) = P n?N; xn?B pn = P(X ? B) = PX(B). Lorsque X est continue, E[1{X?B}] = E[1B(X)] = R R 1B(x)fX(x) dx = R B fX(x) dx = PX(B). • Preuve de (2). Avec (3.27) : E(c) = cE(1) = c×1.  3.5. Variance et écart-type Pour mesurer la moyenne des ?uctuations de X autour de sa moyenne  := EX, on peut prendre la moyenne de l’écart à la moyenne : X -. C’est-à-dire E(X -). Mais on voit que E(X-) = EX-E = - = 0. En moyenne, les écarts par défaut compensent exactement les écarts par excès. Une idée naturelle est donc de considérer la moyenne de l’écart absolu à la moyenne : E|X -|. Mais personne n’aime beaucoup travailler avec les valeurs absolues qui demandent des découpages fastidieux. C’est la raison pour laquelle on préfère considérer la moyenne du carré de l’écart à la moyenne : E[(X - ) 2 ]. Si on change d’échelle de mesure, par exemple si X est une longueur exprimée en mètres et X' la même longueur exprimée en millimètres, on a X' = 1000X d’où E[(X' - E(X' )) 2 ] = E[(1000X - 1000E(X)) 2 ] = 1000 2 E[(X - EX) 2 ]. Ces quantités di?èrent du facteur 1000 2 et s’expriment comme des longueurs au carré. Il est donc pertinent de considérer la quantité p E[(X - ) 2 ] qui conserve les bonnes unités et les facteurs d’échelle. Définition 3.31. On suppose que E|X| < 8 de sorte que EX est bien dé?ni. La variance de X est Var(X) := E[(X - EX) 2 ] ? [0, +8] Son écart-type est s(X) := p Var(X) ? [0, +8].3.6. MOMENTS 25 On remarque qu’en tant qu’espérance de la variable positive (X - ) 2 , Var(X) est un nombre positif. Il est pratique lors de certains calculs d’utiliser les formules suivantes. Proposition 3.32. Soit X tel que E|X| < 8. Nous avons (1) Var(X) = E(X2 ) - (EX) 2 . (2) Var(aX) = a 2 Var(X) et s(aX) = |a|s(X), pour tout réel a = 0 6 , avec la convention a 2×8 = |a|×8 = 8 Bien sûr, si a = 0, Var(0) = s(0) = 0. (3) Var(X + c) = Var(X) pour tout réel c. (4) Var(c) = 0 pour tout réel c. Démonstration. • Preuve de (1). Grâce à la linéarité de l’espérance (3.25) et à la Proposition 3.30-(2), en posant  = EX, Var(X) = E[(X - ) 2 ] = E[X2 - 2X +  2 ] = E(X2 ) - 2EX + E( 2 ) = E(X2 ) - 2 2 +  2 = E(X2 ) -  2 . • Preuve de (2). A nouveau, par la linéarité de l’espérance, Var(aX) = E[(aX - a) 2 ] = E[a 2 (X - ) 2 ] = a 2 E[(X - ) 2 ] = a 2 Var(X). • Preuve de (3). Var(X + c) = E[{(X + c) - E(X + c)} 2 ] = E[{X + c - (EX + c)} 2 ] = E[{X - EX} 2 ] = Var(X). • Preuve de (4). Var(c) = Var(c - c) = Var(0) = 0.  3.6. Moments Commençons par la dé?nition des moments d’une variable aléatoire. Définition 3.33. Soit X une variable aléatoire réelle. – Si X = 0 est une variable aléatoire positive, pour tout réel p > 0, on appelle moment d’ordre p de X la quantité E[Xp ] ? [0,8]. – Dans le cas général où X est une variable aléatoire réelle, pour tout entier p = 1 tel que E[|X| p ] < 8, on appelle moment d’ordre p de la variable aléatoire réelle X la quantité E(Xp ). On rappelle que les puissances non-entières ne sont dé?nies que pour les nombres positifs par x p := exp(p ln(x)), x > 0, p ? R et 0 p = 0 si p > 0. Proposition 3.34 (Comparaison des moments). On se donne deux réels 0 < p = q. Soit X = 0 une variable aléatoire positive : E[Xq ] < 8 ? E[Xp ] < 8. Pour toute variable aléatoire réelle X : E[|X| q ] < 8 ? E[|X| p ] < 8. Démonstration. Soit X = 0. On utilise les fonctions indicatrices 1W , voir la Dé?- nition 3.28, en remarquant que 1 = 1W + 1Wc : E[X p ] = E[(1{X<1} + 1{X=1})X p ] (a) = E[1{X<1}X p ] + E[1{X=1}X p ] (b) = 1 + E[1{X=1}X q ] (c) = 1 + E[X q ] < 8.26 3. LOI ET ESPÉRANCE D’UNE VARIABLE ALÉATOIRE L’égalité (a) est une application de la linéarité de l’espérance. L’inégalité (b) vient de 1{0=x<1}x p = 1 et x p = x q lorsque x = 1 et 0 < p = q. On obtient l’inégalité (c) en remarquant que 1{x=1}x q = x q lorsque x = 0. On a invoqué (3.26) pour des fonctions positives pour ces deux inégalités. La dernière assertion de la proposition s’en déduit immédiatement.  Corollaire 3.35. Si E(X2 ) < 8, alors E|X| < 8. De plus, Var(X) < 8 si et seulement si E(X2 ) < 8. Démonstration. La première assertion est un cas particulier de la Proposition 3.34 et la seconde s’en déduit à l’aide de la Proposition 3.32-(1).  3.7. Fonctions d’une variable aléatoire Si ? est une fonction numérique su?samment régulière et X est une variable aléatoire, alors Y = ?(X) est aussi une variable aléatoire. Pour tout intervalle B ? R, notons ? -1 (B) := {x ? R; ?(x) ? B}. Exercice 3.36. Montrer que si ? est continue par morceaux, ? -1 (B) est une réunion dénombrable d’intervalles. Grâce à l’exercice précédent et à l’identité (3.46) plus bas, on peut considérer PX(? -1 (B)) et écrire PY (B) = P(Y ? B) = P(?(X) ? B) = P(X ? ? -1 (B)) = PX(? -1 (B)) ce qui spéci?e la loi de Y. Avec B = F n=1 In où les In sont des intervalles disjoints, nous avons (3.37) P(X ? B) = X n=1 P(X ? In). (Notons que si B est la réunion ?nie de N intervalles, on peut toujours prendre In = Ø pour n > N). Or cette quantité est entièrement déterminée par la fonction de répartition FX de X comme le montre la Proposition 2.9. Par exemple, lorsque ? est une application strictement monotone son application réciproque ? -1 est bien dé?nie et en prenant B =] - 8, y] nous obtenons lorsque ? est strictement croissante FY (y) = P(?(X) = y) = P(X = ? -1 (y)) = FX(? -1 (y)) et lorsque ? est strictement décroissante FY (y) = P(?(X) = y) = P(X = ? -1 (y)) = 1 - FX((? -1 (y)) - ) Donnons quelques exemples d’application de cette méthode.3.7. FONCTIONS D’UNE VARIABLE ALÉATOIRE 27 (a) Soit X une variable continue de densité fX continue par morceaux. On cherche la loi de Y = aX + b avec a et b réels. Remarquons avant tout que lorsque a = 0, Y vaut b quoiqu’il arrive, sa loi est donc PY = db. On note en passant que ceci nous donne un exemple de ?(X) discrète alors que X est continue. Prenons maintenant a = 0 6 et calculons la fonction de répartition de Y = aX + b. – Si a > 0, FY (y) = P(aX + b = y) = P(X = (y - b)/a) = FX((y - b)/a). Ce qui donne fY (y) = F ' Y (y) = fX((y - b)/a)/a. – Si a < 0, FY (y) = P(aX + b = y) = P(X = (y - b)/a) = 1 - FX((y - b)/a). Ce qui donne fY (y) = F ' Y (y) = -fX((y - b)/a)/a. Finalement, nous obtenons dans les deux cas (3.38) fY (y) = fX((y - b)/a) |a| , y ? R (b) Soit X une variable aléatoire quelconque, la fonction de répartition FY de Y = X2 s’exprime en fonction de FX de la manière suivante. Pour tout y = 0, FY (y) = P(X 2 = y) = P(- v y = X = v y) = FX( v y) - FX((- v y) - ) alors que pour tout y < 0, FY (y) = 0. En particulier, si X admet une densité fX continue par morceaux, FX est dérivable partout sauf en un nombre ?ni de points et F ' X = fX. Par conséquent Y admet la densité (dé?nie partout sauf en un nombre ?ni de points) (3.39) fY (y) = F ' Y (y) = 1(y>0) fX( v y) + fX(- v y) 2 v y . Exemple 3.40. Si X est l’angle de la ?èche de l’Exemple 2.17 et Y = X2 , fX(x) = 1[0,2p[(x)/(2p) et avec (3.39) : fY (y) = 1[0,4p2 [/(4p v y) de sorte que E(X 2 ) = Z 2p 0 x 2 2p dx = 4 3 p 2 E(Y ) = Z 4p 2 0 v y 4p dy = 4 3 p 2 On constate bien évidemment que E(Y ) = E(X2 ). (c) Les choses sont plus simples si l’on considère Z = X3 . En e?et, pour tout z ? R, nous avons FZ (z) = P(X 3 = z) = P(X = z 1/3 ) = FX(z 1/3 ). La simplicité de ce calcul vient du fait que z 3 est injective, alors que la non-injectivité de z 2 créait quelques di?cultés dans l’exemple précédent. Si X admet une fonction de densité continue par morceaux, Z = X3 admet la fonction de densité fZ (z) = fX(z 1/3 ) 3z 2/3 . Notons que cette fonction n’est pas dé?nie en z = 0, mais ça n’est pas un problème puisque des fonctions de densité égales sauf sur un ensemble de longueur nulle28 3. LOI ET ESPÉRANCE D’UNE VARIABLE ALÉATOIRE (Lebesgue-presque partout) correspondent à la même loi, voir la Proposition 3.43 plus bas. 3.8. Egalité en loi Cette notion est spéci?que à la théorie des probabilités. Définition 3.41 (Egalité en loi). Deux variables aléatoires X1 et X2 construites respectivement sur (?1, P1) et (?2, P2) sont égales en loi si et seulement si elles ont la même loi : PX1 = PX2 . On note dans ce cas : X1 L = X2. Cela ne signi?e pas que (1) X1 = X2 ni même que (2) P(X1 = X2) = 1, même lorsque (?1, P1) = (?2, P2). Bien sûr, (1) implique (2) qui implique l’égalité en loi. L’égalité en loi est la notion la plus faible permettant d’identi?er deux phénomènes aléatoires. Exemples 3.42. (1) On joue deux fois de suite à pile ou face de sorte que ?1 = {pp, pf, fp, ff } et P1 = 1 4 (dpp+dpf +df p+df f ). On considère X1 dé?ni par : X1(pp) = X1(pf) = -3 et X1(fp) = X1(ff) = v 5. On lance un dé de sorte que ?2 = {a, b, c, d, e, f } avec P2 = 1 6 (da + db + dc + dd + de + df ). On considère X2 dé?ni par X2(a) = X2(b) = X2(c) = -3 et X2(d) = X2(e) = X2(f) = v 5. On voit que PX1 = PX2 = 1 2 (d-3 + dv 5 ), c’est-à-dire X1 L = X2. (2) Soit X la variable de l’Exemple 2.6 dont la loi est 1 4 d0 + 1 2 d1 + 1 4 d2. Montrer que X L = 2 - X. (3) Soit X une variable aléatoire continue dont la densité est une fonction paire ; fX(-x) = fX(x), ?x. Alors nous avons X L = -X. En e?et, pour tout réel y nous avons F-X(y) = P(X = -y) = Z +8 -y fX(x) dx (a) = Z y -8 fX(-z) dz (b) = Z y -8 fX(z) dz = FX(y) où l’égalité (a) s’obtient avec le changement de variable z = -x et (b) est une conséquence de la parité de fX. Nous avons déjà remarqué que les données de FX et PX sont équivalentes. On en déduit le résultat suivant.3.9. DÉFINITION ABSTRAITE DE LA LOI D’UNE VARIABLE ALÉATOIRE 29 Proposition 3.43. Deux variables aléatoires X1 et X2 construites respectivement sur (?1, P1) et (?2, P2) sont égales en loi si et seulement si elles ont la même fonction de répartition : FX1 = FX2 . Si elles sont discrètes, cela signi?e qu’il existe une suite (éventuellement ?nie) (xn)n?N de réels distincts telle que P n?N P1(X1 = xn) = 1 et P1(X1 = xn) = P2(X2 = xn), ?n ? N Si elles sont continues, cela signi?e que leurs densités ont le même ensemble de points de discontinuité (Cf. les Dé?nitions 2.15 et 3.17) et qu’elles sont égales partout sauf éventuellement sur cet ensemble de "longueur nulle". On dit alors qu’elles sont égales Lebesgue-presque partout et on note fX1 = fX2 , Lebesgue-p.p. 3.9. Dé?nition abstraite de la loi d’une variable aléatoire Spéci?er complètement le comportement d’une variable aléatoire X devrait permettre en principe d’évaluer les quantités P(X ? B) pour toute partie B de R. Mais cela n’est possible que si l’ensemble {X ? B} est un événement, c’est-à-dire un élément de la tribu A. Lorsque X est une variable discrète, on peut prendre ? dénombrable et A = 2 ? de sorte que pour tout B ? R, {X ? B} est un événement. Lorsque X est une variable aléatoire continue, comme nous l’avons déjà évoqué à la Remarque 2.24, les choses se compliquent du point de vue mathématique : on ne peut pas prendre n’importe quelle partie B. Les "bonnes" parties B de R sont celles de la tribu de Borel. Définition 3.44. La tribu de Borel de R est la plus petite tribu contenant l’ensemble I de tous les intervalles de R. On la notera B. Exercice 3.45. Montrer que si (A? , ? ? G) est une collection quelconque de tribus sur le même ensemble ?, alors l’ensemble T ??G A? constitué des parties de ? qui se trouvent dans toutes les tribus A? lorsque ? parcourt l’ensemble d’indices G, est aussi une tribu. La plus petite tribu contenant l’ensemble I de tous les intervalles de R est par dé- ?nition l’intersection de toutes les tribus contenant I. Cette intersection existe puisque 2 R est une tribu qui contient I, de plus en tant qu’intersection de tribus, c’est une tribu d’après l’exercice précédent. Ceci justi?e la dé?nition de la tribu de Borel B. On peut montrer, mais ça n’est pas simple, qu’il existe des parties de R qui ne sont pas dans B. On retiendra que la tribu de Borel contient toutes les réunions dénombrables d’intervalles. Avec B = F n=1 In où les In sont des intervalles disjoints, nous avons (3.46) P(X ? B) = X n=1 P(X ? In).30 3. LOI ET ESPÉRANCE D’UNE VARIABLE ALÉATOIRE (Notons que si B est la réunion ?nie de N intervalles, on peut toujours prendre In = Ø pour n > N). Or cette quantité est entièrement déterminée par la fonction de répartition FX de X comme le montre la Proposition 2.9. Définition 3.47. La loi de la variable aléatoire (quelconque) X est la mesure de probabilité PX sur (R, B) dé?nie par PX(B) = P(X ? B), B ? B. La connaissance de PX sur tous les intervalles de la forme ]a, b] permet de retrouver FX(x) = P(X ?] - 8, x]) = limn?8 PX(] - n, x]), x ? R. Réciproquement, si on se donne FX, grâce à la Proposition 2.9, PX est connue sur tous les intervalles et par suite, grâce à (3.46), sur toutes les réunions dénombrables d’intervalles. On peut montrer, mais c’est assez délicat et dépasse le niveau de ce cours, qu’en fait FX spéci?e PX complètement sur B. En résumé, FX et PX encodent la même information sur le comportement aléatoire de X. De plus, PX n’est autre que l’image sur (R, B) de la mesure de probabilité P sur (?, A) par l’application X : PX = X#P. La notion de mesure image est présentée à l’Annexe ??.CHAPITRE 4 Variables aléatoires usuelles Nous présentons ici les lois des variables aléatoires les plus usitées. Certaines, comme la loi normale, sont extrêmement importantes tant sur le plan théorique que pratique (utilisation très fréquente en statistique). 4.1. Exemples de variables aléatoires discrètes Nous présentons dans cette section les lois de Bernoulli, binomiales, de Poisson et géométriques. Loi de Bernoulli. Il s’agit d’une des lois les plus simples. La variable aléatoire X suit la loi de Bernoulli B(p) de paramètre 0 = p = 1 si sa loi est PX = qd0 + pd1. Ceci signi?e que X peut prendre les valeurs 0 et 1 avec les probabilités respectives q = 1-p et p. On obtient immédiatement que EX = q0+p1 = p et que puisque X2 = X sous cette loi, E(X2 ) = p. Par conséquent, VarX = p - p 2 = pq. Une variante immédiate de cette loi est PY = qda + pdb avec a, b réels. On a immé- diatement EY = qa + pb et du fait que Y = a + (b - a)X avec X ~ B(p), VarY = (b - a) 2 VarX = (b - a) 2 pq, grâce à la Proposition 3.32. Loi binomiale. La variable aléatoire X suit la loi binomiale B(n, p) de paramètres n = 1 et 0 = p = 1 si sa loi est PX = Xn k=0  n k  p k q n-k dk où comme précédemment on pose q = 1 - p. Ceci signi?e que X peut prendre les valeurs 0, 1, . . . , n avec P(X = k) =  n k  p k q n-k pour 0 = k = n. On constate qu’avec n = 1, on retrouve B(1, p) = B(p). Exercice 4.1. (a) Véri?er que PX est une mesure de probabilité. (b) Montrer que EX = np et VarX = npq. 3132 4. VARIABLES ALÉATOIRES USUELLES Solution. Nous donnons seulement la solution de EX = np. Nous avons EX = Xn k=0 k n! k!(n - k)! p k q n-k = np Xn k=0 (n - 1)! (k - 1)!(n - k)! p k-1 q n-k (a) = np Xn l=0  n - 1 l  p l q n-1-l (b) = np(p + q) n-1 = np où l’on a e?ectué le changement de variable l = k-1 en (a) (on notera que n-k = n-1-l) et utilisé la formule du binôme de Newton en (b). Une indication pour calculer VarX : commencer par calculer E[X(X - 1)] en procédant dans le même esprit que ce que nous venons de faire.  Loi géométrique. La variable aléatoire X suit la loi géométrique G(p) de paramètre 0 < p = 1 si sa loi est PX = X8 k=1 q k-1 pdk où comme précédemment on pose q = 1 - p. Ceci signi?e que X peut prendre les valeurs 1, 2, . . . avec P(X = k) = q k-1 p pour k = 1. Exercice 4.2. (a) Véri?er que PX est une mesure de probabilité. (b) Montrer que EX = 1/p. Solution. On pose ?(q) = P8 k=0 q k , 0 = q < 1. On sait que ?(q) = limn?8 Pn k=0 q k = limn?8(1 - q n+1 )/(1 - q) = 1/(1 - q). De ce fait, PX(N) = p P8 k=1 q k-1 = p P8 k=0 q k = p/(1 - q) = 1, ce qui montre (a). Grâce au Théoréme de dérivation sous le signe somme B.3, en dérivant terme à terme la série P8 k=0 q k on obtient P8 k=1 kq k-1 = ? ' (q) et puisque ? ' (q) = d dq (1/(1-q)) = 1/(1-q) 2 , on voit que EX = P8 k=1 kq k-1 p = p/(1 - q) 2 = 1/p.  Loi de Poisson. La variable aléatoire X suit la loi de Poisson P(?) de paramètre ? > 0 si sa loi est PX = X8 k=0 e -? ? k k! dk. Ceci signi?e que X peut prendre les valeurs 0, 1, 2, . . . avec P(X = k) = e -? ? k /k! pour k = 0 avec la conventions habituelles ? 0 = 1 et 0! = 1 de sorte que P(X = 0) = e -? . Exercice 4.3. (a) Véri?er que PX est une mesure de probabilité. (b) Montrer que EX = VarX = ?.4.2. EXEMPLES DE VARIABLES ALÉATOIRES CONTINUES 33 Solution. Commençons par rappeler que pour tout réel x (4.4) e x = X l=0 x l l On en déduit immédiatement que PX(N) = e -? P k=0 ? k /k! = e -? e ? = 1. Montrons que EX = ?. Nous avons EX = X k=0 ke -? ? k k! = X k=1 ke -? ? k k! = ?e -?X k=1 ? k-1 (k - 1)! = ?e -?X l=0 ? l l! = ?e -? e ? = ? où l’on a e?ectué le changement de variable l = k - 1 et utilisé la formule (4.4). Calculons de façon similaire E[X(X - 1)] = X k=0 k(k - 1)e -? ? k k! = X k=2 k(k - 1)e -? ? k k! = ? 2 e -?X k=2 ? k-2 (k - 2)! = ? 2 e -?X l=0 ? l l! = ? 2 e -? e ? = ? 2 On en déduit que VarX = E[X(X - 1)] + EX - (EX) 2 = ? 2 + ? - ? 2 = ?.  Exercice 4.5. En vous inpirant de la solution précédente, montrer que pour tout entier k = 1, E[X(X - 1)    (X - k + 1)] = ? k . 4.2. Exemples de variables aléatoires continues Nous présentons dans cette section les lois uniformes, exponentielles, normales, Gamma et de Cauchy. Loi uniforme. Nous avons déjà rencontré la variable U de loi uniforme sur [0, 1]. Ses fonctions de répartition et de densité sont FU (u) = ? ? ? 0 si u = 0 u si 0 = u = 1 1 si u = 1 et fU (u) = 1(0=u=1) , u ? R.34 4. VARIABLES ALÉATOIRES USUELLES | | u u z z 0 0 1 1 1 1 z = FU (u) z = fU (u) Une variable aléatoire X suit une loi uniforme sur [a, b] si elle a la même loi (c’est-à-dire la même fonction de répartition) que a + (b - a)U. Ses fonctions de répartition et de densité (voir (3.38)) sont F (x) = ? ? ? 0 si x = a (x - a)/(b - a) si a = x = b 1 si x = b et f(x) = 1(a=x=b) b - a , x ? R. | | x x z z a a 1 1/(b - a) b b z = F (x) z = f(x) 0 0 | | On note U(a, b) la loi uniforme sur [a, b]. Nous avons donc (4.6) a + (b - a)U ~ U(a, b) lorsque U ~ U(0, 1). Exercice 4.7. Véri?er que E(X) = (a + b)/2 et que Var(X) = (b - a) 2 /12. Loi exponentielle. Une variable aléatoire X suit la loi exponentielle de paramètre ?, notée E(?), si ses fonction de répartition et fonction de densité sont F (x) =  0 si x = 0 1 - e -?x si x = 0 et f(x) = 1(x=0)?e -?x , x ? R. x x z z 0 0 1 ? | z = F (x) z = f(x) Exercice 4.8. Véri?er que E(X) = 1/? et que Var(X) = 1/? 2 .4.2. EXEMPLES DE VARIABLES ALÉATOIRES CONTINUES 35 Cette variable aléatoire sert souvent à modéliser des temps d’attente. Elle intervient de façon fondamentale dans la construction des processus de Markov à temps continu que l’on rencontre lors de la modélisation de système de ?les d’attente (réseaux informatiques, guichets, etc. . .). Loi normale. C’est probablement la loi continue la plus importante. On l’appelle aussi loi de Gauss ou loi gaussienne. On dit qu’une variable aléatoire Z suit une loi normale centrée réduite si sa fonction de densité est fZ (z) = 1 v 2p exp  - z 2 2  , z ? R Cette loi est notée N (0, 1). z v 0 1/ v 2p | | -1 1 | | | -2 2 1 b b b | | Représentation graphique de v = fZ (z) Il n’existe pas d’expression analytique de la fonction de répartition de Z. On la note traditionnellement (4.9) F(y) = P(Z = y) = Z y -8 1 v 2p exp  - z 2 2  dz. Toutefois, on peut véri?er que limy?+8 F(y) = R R fZ (z) dz = 1. Pour cela posons I = R R fZ (z) dz. Nous avons par un simple jeu d’écriture sur les variables d’intégration I 2 = Z R fZ (x) dx Z R fZ (y) dy = Z Z R2 fZ (x)fZ (y) dxdy = 1 2p ZZ R2 e -x 2 /2 e -y 2 /2 dxdy = 1 2p Z Z R2 e -(x 2+y 2 )/2 dxdy (a) = 1 2p Z 2p 0 Z 8 0 e -r 2 /2 rdrd? = 1 2p Z 2p 0 d?  Z 8 0 e -r 2 /2 rdr  (b) = Z 8 0 e -u du = 136 4. VARIABLES ALÉATOIRES USUELLES où nous avons e?ectué – en (a) : le changement de variables en coordonnées polaires : x = r cos ?, y = r sin ? avec r = 0 et 0 = ? < 2p de sorte que r 2 = x 2 + y 2 et dxdy est remplacé par rdrd?; – en (b) : le changement de variable u = r 2 /2. Puisque I > 0 et I 2 = 1, nous venons de montrer que (4.10) 1 v 2p Z R e -z 2 /2 dz = Z R fZ (z) dz = 1. Exercice 4.11. Véri?er que E(Z) = 0 et que Var(Z) = 1. Solution. L’intégrale EZ = R R zfZ (z) dz est nulle car la fonction z 7? zfZ (z) est impaire et intégrable. Donc EZ = 0 et VarZ = EZ 2 = v1 2p R R z 2 e -z 2 /2 dz. On e?ectue une intégration par parties R uv ' = [uv] - R u ' v avec u ' (z) = ze -z 2 /2 et v(z) = z. Nous avons u(z) = -e -z 2 /2 et v ' (z) = 1, de sorte que R R z 2 e -z 2 /2 dz = [-ze -z 2 /2 ] +8 -8 + R R e -z 2 /2 dz = 0 + v 2p R R fZ (z) dz. On en déduit avec (4.10) que EZ 2 = 1.  Exercice 4.12. Montrer que -Z L = Z. Solution. Pour tout réel y, F-Z (y) = P(-Z = y) = P(Z = -y) = R 8 -y fZ (z) dz = R 8 -y fZ (-z) dz = - R -8 y fZ (x) dx = R y -8 fZ (x) dx = FZ (y) où nous avons utilisé successivement la parité de fZ : fZ (z) = fZ (-z) et le changement de variable x = -z. Par conséquent Z et -Z ont la même fonction de répartition.  Définition 4.13. De manière générale, une variable aléatoire X est dite centrée si E(X) = 0 et réduite si Var(X) = 1. Une variable aléatoire X suit une loi normale de paramètres  et s 2 ( ? R, s > 0) notée N (, s 2 ), si elle peut s’écrire sous la forme (4.14) X =  + sZ où Z suit une loi N (0, 1). Cette loi est notée N (, s 2 ). Exercice 4.15. Véri?er que E(X) =  et que Var(X) = s 2 . La fonction de répartition de X est F (x) = P(X = x) = P( + sZ = x) = P(Z = (x - )/s) = F((x - )/s), de sorte qu’avec f(x) = F ' (x), nous obtenons l’expression de la fonction de densité de X suivante : (4.16) f(x) = 1 v 2ps 2 exp  - (x - ) 2 2s 2  , x ? R. La ?gure suivante donne la représentation graphique des densités de probabilité des lois N (, s 2 1 ) et N (, s 2 2 ) avec 0 < s1 < s2. On constate que ces densités sont symétriques par rapport à la moyenne  et que les aires situées entre les courbes et l’axe des x sont les mêmes pour les deux densités. De plus, la densité de N (, s 2 1 ) est plus concentrée autour de la moyenne  que celle de N (, s 2 2 ).4.2. EXEMPLES DE VARIABLES ALÉATOIRES CONTINUES 37  x |  + s1 | s1 s2 |  + s2 N (, s 2 1 ) N (, s 2 2 ) L’exercice suivant permet de donner une approximation de la fonction de répartition F dé?nie en (4.9) bien qu’on n’en connaisse pas d’expression analytique exacte. Exercice 4.17. Pour tout y > 0, nous avons (a) P(Z = y) = 1 - F(y) = e-y 2 /2 y v 2p et (b) P(|Z| = y) = 2e-y 2 /2 y v 2p . Solution. En remarquant que z/y = 1 pour tout z = y, nous avons P(Z = y) = Z 8 y 1 v 2p e -z 2 /2 dz = Z 8 y 1 v 2p z y e -z 2 /2 dz = 1 y v 2p Z 8 y ze -z 2 /2 dz = 1 y v 2p [-e -z 2 /2 ] 8 y = e -y 2 /2 y v 2p ce qui prouve (a). On en déduit (b) en remarquant que P(|Z| = y) = P(Z = -y)+P(Z = y) = P(-Z = y)+P(Z = y) = 2P(Z = y) puisque -Z a la même loi que Z, voir l’Exercice 4.12.  Notons que les majorations de l’exercice précédent sont très mauvaises pour y proche de 0, puisqu’elles sont en 1/y au voisinage zéro. En revanche ces estimées s’améliorent beaucoup pour des grandes valeurs de y. On trouve P(|Z| = 3) = 0, 0533 ainsi que P(|Z| = 4) = 0, 0021, P(|Z| = 5) = 3  10 -5 et P(|Z| = 6) = 2  10 -7 . En pratique, c’est-à-dire plus de 997 fois sur 1000, Z prend ses valeurs entre -4 et 4.CHAPITRE 5 Fonctions génératrices et caractéristiques Nous allons présenter des méthodes e?caces pour calculer les moments de certaines lois, ainsi que les lois de sommes de variables indépendantes. Nous commençons par étudier les variables aléatoires à valeurs entières, puis les variables générales. Rappelons que le moment d’ordre k de la variable aléatoire X est E(Xk ), voir la Dé?- nition 3.33. Les principaux résultats abstraits concernant les moments sont présentés en Chapitre 13. Dans ce qui suit on notera f (k) la dérivée d’ordre k de la fonction f. 5.1. Le cas des variables entières On dit qu’une variable aléatoire X est entière si elle prend ses valeurs dans l’ensemble N des nombres entiers. sa loi est donc de la forme PX = P n=0 pndn. C’est le cas des variables binomiales, géométriques et de Poisson. Définition 5.1. Soit X une variable entière. Sa fonction génératrice est dé?nie pour tous 0 = t = 1 par GX(t) = E(t X ). On remarque que puisque 0 = t = 1 et X est entier, nous avons 0 = t X = 1 de sorte que 0 = E(t X ) = 1 est bien dé?ni. En notant pn = P(X = n), n ? N, nous obtenons bien sûr (5.2) GX(t) = X n=0 pnt n = p0 + X n=1 pnt n , 0 = t = 1 avec GX(1) = E(1) = 1 et GX(0) = p0. Cette dernière égalité est une convention puisque GX(0) = p00 0 : nous avons choisi de prendre 0 0 = 1. Cette convention est justi?ée du fait qu’elle garantit la continuité de GX(t) en t = 0. En e?et, grâce au Théorème B.2, puisque 0 = t X = 1 est borné, limt?0 GX(t) = p0 + limt?0 P n=1 pnt n = p0 + P n=1 0 = p0. Proposition 5.3. Pour tout entier k = 1 tel que E(Xk ) < 8, nous avons E[X(X - 1)    (X - k + 1)] = G (k) X (1) où G (k) X (1) est la dérivée à gauche d’ordre k de GX en 1. On remarque que puisque X ne prend que des valeurs entières, X(X - 1)    (X - k + 1) = 0 si X ? {0, . . . , k - 1} de sorte que X(X - 1)    (X - k + 1) = 0. On appelle E[X(X - 1)    (X - k + 1)] le k-ième moment factoriel de X. Démonstration. Du fait que E(Xk ) < 8, nous avons aussi grâce à la Proposition 3.34 : E(Xl ) < 8 pour tous 1 = l = k. Ce qui implique clairement que E[X(X - 1)    (X - l + 1)] < 8 pour tous 1 = l = k. Commençons par le cas k = 1 sous l’hypothèse EX < 8. On peut donc appliquer le théorème de dérivation sous le signe somme énoncé au Théorème B.3 pour obtenir 3940 5. FONCTIONS GÉNÉRATRICES ET CARACTÉRISTIQUES G' X(1) = P n=1 pnnt n-1 |t=1 = P n=1 pnn puisque EX = P n=1 pnn < 8. En recommen- çant, on montre de même que G'' X(1) = P n=2 pnn(n - 1)t n-2 |t=1 = P n=2 pnn(n - 1) sous l’hypothèse P n=2 pnn(n - 1) = E[X(X - 1)] < 8. En dérivant k fois, nous obtenons G (k) X (1) = X n=k pnn(n - 1)    (n - k + 1) = E[X(X - 1)    (X - l + 1)] sous l’hypothèse E[X(X - 1)    (X - l + 1)] < 8.  Exemples 5.4. (a) La loi de Bernoulli B(p) de paramètre 0 = p = 1 est PX = qd0 + pd1 où q = 1 - p. Par conséquent, pour tout 0 = t = 1, GX(t) = qt 0 + pt 1 = q + pt. On a bien sûr, GX(0) = q, GX(1) = q + p = 1 et EX = G' X(1) = p. (b) La loi binomiale B(n, p) de paramètres n = 1 et 0 = p = 1 est Pn k=0  n k  p k q n-k dk de sorte que GX(t) = Pn k=0 p k q n-k t k = Pn k=0 (pt) k q n-k = (q + pt) n en utilisant la formule du binôme de Newton. Avec n = 1, on retrouve la formule précédente pour B(p). On obtient EX = G' X(1) = np(q + pt) n-1 t=1 = np(q + p) = np ainsi que E[X(X - 1)] = G'' X(1) = n(n - 1)p 2 (q + pt) n-2 t=1 = n(n - 1)p 2 . On en déduit que Var(X) = E[X(X - 1)] + EX - (EX) 2 = n(n - 1)p 2 + np - (np) 2 = npq. (c) La loi de Poisson P(?) de paramètre ? > 0 est P n=0 e -? ? n /n! dn de sorte que GX(t) = e -? P n=0 ? n /n! t n = e -? P n=0 (?t) n /n! = e -? e ?t = e ?(t-1) . On a EX = G' X(1) = ?e ?(t-1) |t=1 = ?, ainsi que E[X(X - 1)] = G'' X(1) = ? 2 e ?(t-1) |t=1 = ? 2 . On en déduit que Var(X) = E[X(X - 1)] + EX - (EX) 2 = ? 2 + ? - ? 2 = ?. (d) La loi géométrique G(p) est P n=1 q n-1 pdn. Par conséquent GX(t) = P n=1 q n-1 pt n = pt P n=1 (qt) n-1 = pt P n=0 (qt) n = pt/(1 - qt). On obtient donc EX = G' X(1) = [p(1 - qt) + pqt]/(1 - qt) 2 |t=1 = 1/p. Comme le montre le résultat suivant, la fonction génératrice permet de retrouver la loi de X. Proposition 5.5. Soit X une variable aléatoire entière de fonction génératrice GX. Nous avons pn = G (n) X (0)/n!, n = 0 où G (n) X (0) est la dérivée n-ième à droite de GX en 0. Démonstration. La preuve est analogue à celle de la Proposition 5.3. En dérivant n fois terme à terme la série (5.2), on obtient G (n) X (t) = P8 k=n pkk(k-1)    (k-n+1)t k-n = pnn! + P8 k=n+1 pkk(k - 1)    (k - n + 1)t k-n et en t = 0 : G (n) X (0) = pnn! + 0.  De ce fait GX caractérise la loi de la variable entière X. Un développement illimité formel en t = 0 de GX donne GX(t) = P n=0 G (n) X (0)/n! t n (un tel développement s’appelle un développement en série entière). La proposition pré- cédente exprime que l’on peut identi?er terme à terme cette série formelle avec la série (5.2) : GX(t) = P n=0 pnt n .5.2. FONCTIONS CARACTÉRISTIQUES 41 5.2. Fonctions caractéristiques On considère maintenant une variable X générale. On cherche une fonction analogue à GX qui permette de calculer aisément à l’aide de dérivations successives les moments de X. La généralisation naturelle de la fonction X 7? t X lorsque X peut prendre des valeurs non-entières s’obtient en posant t = e s ce qui nous donne X 7? e sX . De sorte que la généralisation de GX(t) = Et X est LX(s) = Ee sX . Définitions 5.6. (1) La transformée de Laplace de la loi de X est dé?nie par s ? R 7? LX(s) = Ee sX ? [0,8] (2) La transformée de Fourier de la loi de X est dé?nie par s ? R 7? fX(s) = Ee isX ? C où i est le nombre imaginaire tel que i 2 = -1. On appelle aussi fX la fonction caractéristique de la loi de X. Remarques 5.7. (1) Puisque e sX = 0, son espérance LX(s) = Ee sX est toujours dé?nie dans [0,8] (en incluant la valeur +8). (2) De même, e isX = cos(sX) + i sin(sX) est une variable bornée et son espérance fX(s) = Ee isX = E[cos(sX)] + iE[sin(sX)] est un nombre complexe bien dé?ni puisque ses parties réelle et imaginaire sont intégrables puisque bornées. (3) En particulier, la fonction caractéristique fX(s) est dé?nie pour tout réel s alors qu’on peut avoir LX(s) = +8 pour tout s non nul comme par exemple lorsque X suit une loi de Cauchy, voir (??). (4) Lorsque X est une variable entière, nous avons LX(s) = GX(e s ) et fX(s) = GX(e is ), s ? R. Théorème 5.8. (1) On suppose qu’il existe so > 0 tel que Ee so|X| < 8. Alors, pour tout k = 1, E|X| k < 8 et E(X k ) = L (k) X (0). (2) Sous les mêmes hypothèses qu’en (1), nous avons (ln LX) ' (0) = EX et (ln LX) '' (0) = VarX. (3) Si E|X| k < 8 alors fX est k fois di?érentiable et EX k = (-i) k f (k) X (0). La première assertion du théorème montre que l’hypothèse Ee so|X| < 8 faite en (1) et (2) est bien plus restrictive que celle faite en (3). Ceci justi?e l’usage de la fonction caractéristique plutôt que celui de la transformée de Laplace dans certaines situations. Notons que les calculs sont essentiellement les mêmes avec LX et fX du fait que formellement fX(s) = LX(is).42 5. FONCTIONS GÉNÉRATRICES ET CARACTÉRISTIQUES Démonstration. C’est une application directe du Théorème B.3 de dérivation sous le signe somme. • Preuve de (1). Pour tout k, il existe c > 0 tel que |x| k = c + e so|x| , ?x ? R. Par conséquent, E|X| k = c + Ee so|X| < 8. La dérivée k-ième de s 7? e sX est Xk e sX . Or nous avons |Xk e sX | = |X| k e sX = c+e so|X| dès que |s| = s1 avec 0 < s1 < so pour une certaine constante c. Sous notre hypothèse, nous avons E|Xk e sX | = c + Ee so|X| < 8 pour tout s tel que |s| = s1, ce qui permet d’appliquer le Théorème B.3 de dérivation en s = 0 (avec Y = c + e so|X| ). Ceci nous donne L (k) X (0) = E(Xk e 0.X ) = EXk qui est le résultat annoncé. • Preuve de (2). Nous avons (ln LX) ' = L ' X/LX et (ln LX) '' = L '' X/LX - L '2 X/L 2 X. En particulier en 0, nous obtenons grâce à (1), (ln LX) ' (0) = L ' X(0)/LX(0) = EX puisque LX(0) = 1 et (ln LX) '' (0) = L '' X(0)/LX(0) - L '2 X(0)/L 2 X(0) = EX2 - (EX) 2 = VarX. • Preuve de (3). Elle est analogue à celle de la seconde partie de (1). La dérivée k-ième de s 7? e isX est i kXk e isX . Or nous avons |i kXk e isX | = |X| k pour tout s et nous faisons l’hypothèse que E|X| k < 8. À l’aide du Théorème B.3 de dérivation en s = 0 nous obtenons f (k) X (0) = E(i kXk e 0.X ) = i k EXk qui est le résultat annoncé.  Remarque 5.9. Le développement formel en série entière de LX : LX(s) = P k=0 L (k) X (0)s k /k!, peut nous permettre d’identi?er rapidement les dérivées L (k) X (0) lorsqu’on en connaît l’expression LX(s) = P k=0 aks k . Nous avons alors L (k) X (0) = k!ak, k = 0. Un raisonnement analogue fonctionne lorsqu’on ne connaît qu’un développement limité en 0 à l’ordre K : LX(s) = PK k=0 aks k + s k o(s), pour identi?er les K premières dérivées en 0 de LX. Exemples 5.10. (a) Loi de Poisson P(?). En reprenant l’Exemple 5.4-(c), avec la Remarque 5.7-(4) nous obtenons LX(s) = exp(?(e s-1)) donc ln LX(s) = ?(e s-1) de sorte que (ln LX) ' (s) = (ln LX) '' (s) = ?e s . Avec le Théorème 5.8-(2) on retrouve EX = VarX = ?. (b) Loi géométrique G(p). En reprenant l’Exemple 5.4-(d), avec la Remarque 5.7-(4) nous obtenons LX(s) = pe s /(1 - qe s ) donc ln LX(s) = ln p + s - ln(1 - qe s ) de sorte que (ln LX) ' (s) = 1 + qe s /(1 - qe s ) et (ln LX) '' (s) = qe s (1-qe s )+q 2 e 2s (1-qe s ) 2 . Avec le Théorème 5.8-(2) on retrouve EX = 1/p et on obtient VarX = (qp + q 2 )/p 2 = (1 - p)/p 2 . (c) Loi exponentielle E(?). Puisque fX(x) = 1{x=0}?e -?x, nous avons LX(s) = ? R 8 0 e sx e -?x dx = ? R 8 0 e -(?-s)x dx. Cette intégrale est convergente si et seulement si s < ? et dans ce cas LX(s) = ?/(?-s). Nous sommes bien dans les conditions d’application du Théorème 5.8-(1). Lorsque |s|/? < 1, nous avons LX(s) = 1/(1 - s/?) = P k=0 (s/?) k = P k=0 s k k! k! ?k . En tenant compte de la Remarque 5.9, nous obtenons L (k) X (0) = k!/? k , donc EXk = k!/? k . Compte tenu de l’importance des variables aléatoires normales nous isolons le calcul de leurs transformées de Laplace et fonctions caractéristiques. Proposition 5.11. (1) Soit Z une variable aléatoire normale standard : Z ~ N (0, 1). Nous avons pour tout réel s, LZ (s) = e s 2 /2 et fZ (s) = e -s 2 /2 .5.2. FONCTIONS CARACTÉRISTIQUES 43 (2) Soit X une variable aléatoire normale de loi N (, s 2 ). Nous avons pour tout réel s, LX(s) = e s+s 2 s 2 /2 et fX(s) = e is-s 2 s 2 /2 . Démonstration. • Preuve de (1). Nous ne donnons que la preuve concernant LZ en admettant que le lien formel fX(s) = LX(is) est rigoureux dans ce cas. Cette identité nécessite la notion de prolongement analytique (prolongement de R à C) qui n’est pas du niveau de ce cours. Pour tout réel s, LZ (s) = Z R 1 v 2p e sz e -z 2 /2 dz = Z R 1 v 2p e sz-z 2 /2 dz = Z R 1 v 2p e - 1 2 (z 2-2sz+s 2 ) e s 2 /2 dz = e s 2 /2 Z R 1 v 2p e - 1 2 (z-s) 2 dz = e s 2 /2 où la dernière égalité provient de R R v1 2p e - 1 2 (z-s) 2 dz = 1, la condition de normalisation de la densité N (s, 1), voir (4.16). En admettant fZ (s) = LZ (is), on voit que fZ (s) = e -s 2 /2 . • Preuve de (2). Grâce à (4.14) nous avons X = +sZ de sorte que LX(s) = Ee s(+sZ) = e s LZ (ss) et fX(s) = Ee is(+sZ) = e is fZ (ss). CHAPITRE 6 Couples aléatoires Beaucoup d’énoncés probabilistes intéressants s’expriment à l’aide d’une paire de variables aléatoires X, Y. Nous allons étudier le problème de leur variation conjointe sur le même domaine ?. Dans tout ce qui va suivre, les variables aléatoires sont dé?nies sur le même espace probabilisé (?, A, P). 6.1. Lois jointe et marginales La loi du couple (X, Y ) est la mesure de probabilité PX,Y sur R 2 qui est spéci?ée par PX,Y (A × B) = P(X ? A et Y ? B) pour tous intervalles A et B. On appelle lois marginales du couple (X, Y ) les lois PX et PY de X et de Y. Nous avons pour tous intervalles A et B, PX(A) = PX,Y (A × R) PY (B) = PX,Y (R × B) Pour distinguer la loi PX,Y des lois marginales, on l’appelle parfois la loi jointe de (X, Y ). Exemple 6.1. Soit un couple aléatoire (X, Y ) qui prend les valeurs (1, 3), (1, 4) et (2, 4) avec les probabilités respectives 1/4, 1/8 et 5/8. b b b 1 2 3 4 x y 0 (1/4) (1/8) (5/8) (3/8) (5/8) (1/4) (3/4) Sa loi est PX,Y = 1 4 d(1,3) + 1 8 d(1,4) + 5 8 d(2,4) . Ses lois marginales sont PX = 3 8 d1 + 5 8 d2 et PY = 1 4 d3 + 3 4 d4. 6.2. Fonction de répartition Nous introduisons une notion de fonction de répartition d’un couple de variables aléatoires analogue à celle des variables réelles. Définitions 6.2. Une application (X, Y ) : ? ? R 2 est un couple aléatoire si pour tout x, y ? R, l’ensemble {? ? ?; X(?) = x et Y (?) = y} appartient à A. La fonction de répartition jointe de (X, Y ) est la fonction FX,Y : R 2 ? [0, 1] donnée par FX,Y (x, y) = P(X = x, Y = y). 4546 6. COUPLES ALÉATOIRES On montre aisément que pour tous a = b, c = d ? R P(a < X = b, c < Y = d) = FX,Y (b, d) - FX,Y (a, d) - FX,Y (b, c) + FX,Y (a, c). - + + - b b b b a b x y c d En d’autres termes, nous pouvons évaluer la probabilité que le point aléatoire (X, Y ) "tombe" dans la région rectangulaire ]a, b]×]c, d] du plan R 2 . En travaillant de façon analogue à la Proposition 2.9, on récupère les probabilités de tomber dans des régions rectangulaires quelconques, puis leurs réunions dénombrables, etc. . . De ?l en aiguille, il est possible de montrer, grâce aux propriétés des mesures de probabilité, l’assertion suivante : Proposition 6.3. FX,Y spéci?e de manière unique P((X, Y ) ? C) pour toutes les parties ouvertes C de R 2 . En d’autres termes, FX,Y spéci?e entièrement le loi jointe PX,Y . Les fonctions de répartition marginales de X et de Y sont FX(x) = P(X = x) = lim n?8 P(X = x et Y = n) = FX,Y (x,8) := lim y?8 FX,Y (x, y), FY (y) = P(Y = y) = lim n?8 P(X = n et Y = y) = FX,Y (8, y) = lim x?8 FX,Y (x, y), On constate que, même sur l’Exemple 6.1 qui est très simple, la fonction de répartition FX,Y est pénible à expliciter. En e?et, elle nécessite de découper le plan en 5 zones rectangulaires. Nous n’emploierons donc que très peu souvent les fonctions de répartition dans les calculs explicites. 6.3. Indépendance Deux variables aléatoires discrètes X et Y sont dites indépendantes si pour tous x, y ? R, P(X = x et Y = y) = P(X = x)P(Y = y). Nous revisiterons plus en détail cette notion importante au Chapitre 9.6.3. INDÉPENDANCE 47 Il est clair que cette dé?nition de l’indépendance ne peut pas être conservée si l’une au moins des variables (par exemple X) est continue, puisque dans ce cas P(X = x) = 0, pour tout x ? R. Nous adopterons la dé?nition générale suivante. Définition 6.4. Les variables aléatoires X et Y sont dites indépendantes si P(X = x et Y = y) = P(X = x)P(Y = y), ?x, y ? R. On véri?e que pour des variables aléatoires discrètes, cette dé?nition de l’indépendance est équivalente à celle rappelée plus haut. Une formulation équivalente est : X et Y sont indépendantes si et seulement si FX,Y (x, y) = FX(x)FY (y), ?x, y ? R. Proposition 6.5. Soient X et Y deux variables aléatoires indépendantes. Alors pour toute réunion dénombrable d’intervalles A et B, nous avons P(X ? A et Y ? B) = P(X ? A)P(Y ? B) et pour toutes fonctions numériques continues par morceaux ? et ?, les variables aléatoires ?(X) et ?(Y ) sont indépendantes. Notons que lorsque X et Y sont des variables discrètes dont toutes les valeurs sont isolées, toutes les fonctions ? et ? sont continues (en restriction à X(?) et Y (?)). Idée de la preuve. Nous n’avons pas les outils su?sants pour donner une preuve complète (donc une preuve) de ce résultat. Notons toutefois qu’il est possible de montrer, de façon similaire à la preuve de la Proposition 6.3, que X et Y sont indépendantes si et seulement si pour toutes réunions dénombrables de parties ouvertes A et B de R, P(X ? A et Y ? B) = P(X ? A)P(Y ? B). Maintenant, nous pouvons écrire pour toute paire d’ouverts A, B : P  ?(X) ? A et ?(Y ) ? B  = P  X ? ? -1 (A) et Y ? ? -1 (B)  = P  X ? ? -1 (A)  P  Y ? ? -1 (B)  = P(?(X) ? A)P(?(Y ) ? B) où l’avant-dernière égalité est une conséquence de l’indépendance de X et Y et du fait que ? et ? sont continues par morceaux, les ensembles ? -1 (A) et ? -1 (B) sont des réunions dénombrables d’ouverts.  Cette notion mathématique de l’indépendance est cohérente avec la notion intuitive que nous en avons. Pour étayer cette a?rmation, donnons-en une illustration simple. Exemple 6.6. Nous avons deux urnes contenant des boules de couleur numérotées. – La première urne contient 5 boules numérotées : 1,2,3,4 et 5. Les boules 1,2,3 sont jaunes et les boules 4,5 sont rouges. – La deuxième urne contient 3 boules numérotées : a,b,c. Les boules a,b sont vertes et la boule c est bleue. On note X et Y les numéros aléatoires des boules tirées au hasard dans la première et la seconde urne. On suppose que ces tirages sont uniformes sur {1, 2, 3, 4, 5} et {a, b, c}. De même, on note U et V les couleurs aléatoires des boules tirées au hasard dans la première et la seconde urne : U = ?(X) et V = ?(Y ) avec ?(1) = ?(2) = ?(3) = jaune,48 6. COUPLES ALÉATOIRES ?(4) = ?(5) = rouge, ?(a) = ?(b) = vert et ?(c) = bleu. On a donc P(X = jaune) = 3/5, P(X = rouge) = 2/5 ainsi que P(Y = vert) = 2/3, P(Y = bleu) = 1/3. Si de plus ces tirages sont indépendants (au sens habituel du terme), on n’avantage aucun couple de boules au détriment d’autres : la loi de (X, Y ) est uniforme sur {1, 2, 3, 4, 5} × {a, b, c}. On constate qu’alors X et Y sont des variables aléatoires indépendantes au sens mathématique. En e?et, pour tous A ? {1, 2, 3, 4, 5} et B ? {a, b, c}, P((X, Y ) ? A×B) = #(A×B) #({1, 2, 3, 4, 5} × {a, b, c}) = #(A)×#(B) #({1, 2, 3, 4, 5}) × #({a, b, c}) = #(A) 5 × #(B) 3 = P(X ? A)P(Y ? B) En particulier, en prenant A = ? -1 (jaune) = {1, 2, 3} et B = ? -1 (vert) = {a, b} on obtient P(U = jaune, V = vert) = P((X, Y ) ? {1, 2, 3}×{a, b}) = P(X ? {1, 2, 3})P(Y ? {a, b}) = P(U = jaune)P(V = vert) et de même pour les autres couleurs. Ce qui prouve l’indépendance mathématique de U et V. Mais il est clair que si les tirages dans les deux urnes sont indépendants (au sens habituel) il en est de même pour les couleurs des boules tirées. Exercice 6.7. Soient X et Y deux variables aléatoires indépendantes de fonctions de répartition FX et FY . Déterminer les lois de U = max(X, Y ) et V = min(X, Y ). Solution. Du fait que pour tout t ? R, max(x, y) = t ?? (x = t et y = t), FU (t) = P(max(X, Y ) = t) = P({X = t} n {Y = t}) = P(X = t)P(Y = t) = FX(t)FY (t) où l’on a fait usage de l’indépendance dans l’avant-dernière égalité. De même, pour tout t ? R, min(x, y) > t ?? (x > t) et (y > t), donc 1 - FV (t) = P(min(X, Y ) > t) = P({X > t} n {Y > t}) = P(X > t)P(Y > t) = [1 - FX(t)][1 - FY (t)] d’où FV (t) = 1 - [1 - FX(t)][1 - FY (t)], t ? R. ce qui détermine la loi de V. 6.4. COUPLES DISCRETS 49 Exemple 6.8. On se donne deux variables aléatoires X et Y indépendantes de lois exponentielles E(?) et E(). Calculons à l’aide de l’exercice précédent les lois de U = max(X, Y ) et V = min(X, Y ). Nous avons pour tout t = 0, FX(t) = FY (t) = 0 et pour tout t = 0, FX(t) = 1 - e -?t , FY (t) = 1 - e -t . Par conséquent pour tout t > 0, fU (t) = F ' U (t) = fX(t)FY (t) + FX(t)fY (t) = ?e -?t (1 - e -t ) + e -t (1 - e -?t ) et 1 - FV (t) = [1 - FX(t)][1 - FY (t)] = e -?t e -t = e -(?+)t Pour tout t = 0, FU (t) = FV (t) = 0. On constate que V = min(X, Y ) admet la loi exponentielle E(? + ). 6.4. Couples discrets Soit un couple de variables aléatoires (X, Y ) prenant ses valeurs dans l’ensemble produit X × Y avec X = {x1, . . . , xL} et Y = {y1, . . . , yK}. Pour tout indice n = (l, k) ? N := {1, . . . , L} × {1, . . . , K}, on note zn = (xl , yk). Cet ensemble étant ?ni, le couple Z = (X, Y ) est une variable aléatoire discrète à valeurs dans X × Y. Elle est donc de la forme PX,Y = PZ = P n?N pndzn = P 1=l=L,1=k=K pl,kd(xl ,yk) avec pl,k = P((X, Y ) = (xl , yk)) = P(X = xl et Y = yk). Pour plus de clarté, on note pl,k = pX,Y (xl , yk) et on peut regrouper l’ensemble de ces probabilités élémentaires en un tableau matriciel : y1 y2    yK ? Y x1 pX,Y (x1, y1) pX,Y (x1, y2)    pX,Y (x1, yK) pX(x1) x2 pX,Y (x2, y1) pX,Y (x2, y2)    pX,Y (x2, yK) pX(x2) . . . . . . . . . . . . . . . xL pX,Y (xL, y1) pX,Y (xL, y2)    pX,Y (xL, yK) pX(xL) X ? pY (y1) pY (y2)    pY (yK) 1 Pdont l’intérieur décrit la loi jointe de (X, Y ). Les lois marginales sont données par PX = 1=l=L pX(xl)dxl et PY = P 1=k=K pY (yk)dyk avec pX(xl) = X 1=k=K pX,Y (xl , yk), 1 = l = L pY (yk) = X 1=l=L pX,Y (xl , yk), 1 = k = K puisque P pX(xl) = P(X = xl) = P(X = xl et Y ? Y) = P((X, Y ) ? {xl} × Y) = 1=k=K P(X = xl et Y = yk) et de même pour pY (yk). Par conséquent la dernière ligne du tableau est constituée des sommes par colonnes et la dernière colonne des sommes par lignes : les marges du tableau spéci?ent les lois marginales PX et PY . De façon plus générale, soient X et Y deux variables aléatoires à valeurs dans des ensembles dénombrables X et Y. Alors le couple (X, Y ) est à valeurs dans l’ensemble50 6. COUPLES ALÉATOIRES dénombrable X × Y (voir la Proposition A.4) et sa loi jointe est de la forme PX,Y = X x?X ,y?Y pX,Y (x, y)d(x,y) . et on montre comme précédemment la Proposition 6.9. Les lois marginales sont PX = P x?X pX(x)dx et PY = P y?Y pY (y)dy avec pX(x) = X y?Y pX,Y (x, y), x ? X pY (y) = X x?X pX,Y (x, y), y ? Y. Exemple 6.10. Considérons les deux lois jointes spéci?ées par les tableaux suivants : 1 3 ? Y -1 0,1 0,2 0,3 2 0,45 0,25 0,7 X ? 0,55 0,45 1 1 3 ? Y -1 0,2 0,1 0,3 2 0,35 0,35 0,7 X ? 0,55 0,45 1 On constate que ces deux lois jointes sont distinctes bien qu’elles possèdent les mêmes lois marginales. Par conséquent la loi jointe PX,Y n’est pas spéci?ée par la donnée des deux lois marginales PX et PY . Il y a plus d’information dans l’intérieur du tableau que sur les marges. Proposition 6.11. Soit (X, Y ) de loi PX,Y = P x?X ,y?Y pX,Y (x, y)d(x,y) . Les variables X et Y sont indépendantes si et seulement s’il existe deux fonctions q : X ? [0, 1] et r : Y ? [0, 1] telles que pour tous x ? X et y ? Y nous avons pX,Y (x, y) = q(x)r(y). Dans ce cas, nous avons aussi pX,Y (x, y) = pX(x)pY (y), x ? X , y ? Y. Démonstration. C’est une conséquence directe de la Proposition 6.5 en prenant A = {x} et B = {y} avec x ? X et y ? Y. Notons aussi que lorsque P pX,Y (x, y) = q(x)r(y), pX(x) = aq(x) pour tout x avec a = y?Y r(y). De même pour tout y, pY (y) = br(y) avec 1 = P y?Y pY (y) = b P y?Y r(y) = ab. Finalement, r(x)q(y) = pX(x)pY (y)/(ab) = pX(x)pY (y).  Exemple 6.12. Considérons la loi jointe spéci?ée par le tableau 1 3 ? Y -1 0,165 0,135 0,3 2 0,385 0,315 0,7 X ? 0,55 0,45 1 On constate qu’il posséde la structure produit pX,Y (x, y) = pX(x)pY (y), ?x, y. Les variables X et Y sont donc indépendantes. On note que les lois marginales PX et PY sont les mêmes que celles de l’Exemple 6.10.6.4. COUPLES DISCRETS 51 Puisque le couple discret (X, Y ) est une variable discrète à valeurs dans l’ensemble dénombrable X × Y (voir la Proposition A.4) l’espérance de ?(X, Y ) est donnée par le Théoréme 3.10 qui dans ce cas précis s’écrit (6.13) E?(X, Y ) = X x?X ,y?Y ?(x, y)pX,Y (x, y) et qui est correctement dé?nie dès lors que E|?(X, Y )| = P x?X ,y?Y |?(x, y)|pX,Y (x, y) < 8. On obtient immédiatement la Proposition 6.14 (Linéarité et croissance). (1) En particulier, avec ?(x, y) = ax + by, nous obtenons la linéarité de l’espérance E(aX + bY ) = aEX + bEY, a, b ? R pour toute variables aléatoires X et Y telles que E|X| < 8 et E|Y | < 8. Plus généralement pour toutes fonctions ? et ? telles que E|?(X, Y )| < 8 et E|?(X, Y )| < 8 et tous réels a, b, nous avons E[a?(X, Y ) + b?(X, Y )] = aE?(X, Y ) + bE?(X, Y ). (2) Si les fonctions ?, ? : X × Y ? R sont telles que ? = ?, alors E?(X, Y ) = E?(X, Y ). Définition 6.15. Nous dé?nissons la covariance de (X, Y ) par Cov(X, Y ) := E[(X - EX)(Y - EY )] c’est-à-dire Cov(X, Y ) = X x?X ,y?Y (x - EX)(y - EY )pX,Y (x, y). On dit que X et Y sont décorellées si Cov(X, Y ) = 0. Noter que, tout comme l’espérance, la covariance n’est pas toujours dé?nie. Il faut pour cela que P x?X ,y?Y |(x - EX)(y - EY )|pX,Y (x, y) < 8. On montrera au Corollaire 6.37 qu’une condition su?sante est que E(X2 ) < 8 et E(Y 2 ) < 8. Un simple calcul nous mène à Cov(X, Y ) = E(XY ) - E(X)E(Y ). Proposition 6.16. Soient X et Y deux variables aléatoires discrètes indépendantes. (1) Pour toutes fonctions ? sur X et ? sur Y telles que E|?(X)| < 8 et E|?(Y )| < 8, nous avons E[?(X)?(Y )] = E[?(X)]E[?(Y )]. (2) Si E|X| < 8 et E|Y | < 8 alors Cov(X, Y ) = 0. Démonstration. • Preuve de (1). Avec la Proposition 6.11 nous avons E[?(X)?(Y )] = X x?X ,y?Y ?(x)?(y)pX(x)pY (y) = X x?X ?(x)pX(x) X y?Y ?(y)pY (y) = E[?(X)]E[?(Y )]52 6. COUPLES ALÉATOIRES qui est le résultat annoncé. • Preuve de (2). Grâce à (1), nous avons E(XY ) = E(X)E(Y ) c’est-à-dire Cov(X, Y ) = 0.  L’exercice suivant montre que la réciproque de l’assertion (2) de cette proposition est fausse. Exercice 6.17. (a) On considère le couple aléatoire (X, Y ) dont la loi est uniforme sur les quatre points du plan (1, 0), (0, 1), (-1, 0) et (0, -1). Montrer que Cov(X, Y ) = 0 mais que X et Y ne sont pas indépendantes. (b) On considère le couple aléatoire (X, Y ) dont la loi est uniforme sur les huits points du plan d’a?xes e ikp/4 , 0 = k = 7. b b b b b b b b -1 0 1 1 -1 y x p/4 Montrer que Cov(X, Y ) = 0 mais que X et Y ne sont pas indépendantes. Solution. Nous ne donnons que la solution de (a). Nous avons PX = PY = 1 4 d-1 + 1 2 d0+ 1 4 d1 de sorte que EX = EY = 0. De plus XY = 0, donc EXY = 0 et Cov(X, Y ) = 0. D’autre part X et Y ne sont pas des variables indépendantes puisque P(X = 1)P(Y = 0) = 1 4 × 1 2 = 1/8 = 1 6 /4 = P((X, Y ) = (1, 0)).  6.5. Couples continus Par analogie avec les variables aléatoires continues, nous introduisons la notion suivante. Définition 6.18. Un couple aléatoire (X, Y ) de fonction de répartition jointe FX,Y est dit continu, s’il existe une fonction intégrable fX,Y : R 2 ? [0,8[ telle que FX,Y (x, y) = Z x -8 Z y -8 fX,Y (s, t) dsdt, ?x, y ? R. Dans ce cas, la fonction fX,Y est appelée fonction de densité jointe du couple aléatoire (X, Y ). On déduit de cette dé?nition que si FX,Y est continûment dérivable alors (6.19) fX,Y (x, y) = ? 2 ?x?y FX,Y (x, y). Proposition 6.20. Les lois marginales PX et PY admettent les densités fX(x) = Z R fX,Y (x, y) dy, x ? R fY (y) = Z R fX,Y (x, y) dx, y ? R6.5. COUPLES CONTINUS 53 Démonstration. Nous avons vu que les fonctions de répartition marginales de X et de Y sont FX(x) = FX,Y (x,8) et FY (y) = FX,Y (8, y). En d’autres termes, FX(x) = R x -8 R R fX,Y (s, y) dy  ds d’où il vient que fX(x) = R R fX,Y (x, y) dy. De la même manière, nous obtenons que la fonction de densité marginale de Y est fY (y) = R R fX,Y (x, y) dx.  Définition 6.21. Par analogie avec (6.13) et la dé?nition (3.18) qui est justi?ée par le Théorème C.10, nous dé?nissons (sans plus de justi?cation cette fois-ci) l’espérance de la variable aléatoire ?(X, Y ) par E?(X, Y ) := ZZ R2 ?(x, y)fX,Y (x, y) dxdy pour toute fonction ? : R 2 ? R telle que |?|fX,Y soit intégrable et RR R2 |?(x, y)|fX,Y (x, y) dxdy < 8. On déduit immédiatement de cette dé?nition la Proposition 6.22 (Linéarité et croissance). (1) En particulier, avec ?(x, y) = ax + by, nous obtenons la linéarité de l’espérance E(aX + bY ) = aEX + bEY, a, b ? R pour toute variables aléatoires X et Y telles que E|X| < 8 et E|Y | < 8. Plus généralement pour toutes fonctions ? et ? telles que E|?(X, Y )| < 8 et E|?(X, Y )| < 8, nous avons E[?(X, Y ) + ?(X, Y )] = E?(X, Y ) + E?(X, Y ). (2) Si les fonctions ?, ? : R 2 ? R sont telles que ? = ?, alors E?(X, Y ) = E?(X, Y ). Comme pour les couples discrets nous dé?nissons la covariance de (X, Y ) par Cov(X, Y ) := E[(X - EX)(Y - EY )] = ZZ R2 (x - EX)(y - EY )fX,Y (x, y) dxdy. Noter que, tout comme l’espérance, la covariance n’est pas toujours dé?nie. Nous verrons au Corollaire 6.37 qu’il su?t pour cela E(X2 ), E(Y 2 ) < 8. Comme le montre la proposition suivante, la fonction de densité jointe d’un couple aléatoire continu de variables indépendantes a une forme produit. Proposition 6.23. (1) Soit (X, Y ) un couple aléatoire continu de fonction de densité jointe fX,Y . S’il existe des fonctions g et h telles que fX,Y (x, y) = g(x)h(y), x, y ? R, alors X et Y sont des variables aléatoires indépendantes. De plus, la fonction de densité jointe s’écrit alors : fX,Y (x, y) = fX(x)fY (y). (2) Soient X et Y des variables aléatoires indépendantes qui admettent des fonctions de densité fX et fY continues par morceaux. Alors la fonction de densité jointe de (X, Y ) est fX,Y (x, y) = fX(x)fY (y), x, y ? R.