Passer au contenu principal

Exercices : Concentration, loi des grands nombres

Exercices corrigés

Exercice 1

$20 %$ des habitants d'un pays sont atteints par un virus C . 1000 personnes rentrent dans une salle de spectacle. La population du pays est suffisamment importante pour assimiler l'entrée de chaque personne à un tirage aléatoire avec remise. Soit S la variable aléatoire comptant le nombre de personnes malades obtenus sur les 1000 personnes. Montrer à l'aide de l'inégalité de Bienaymé-Tchebychev que : $p(174<S<226) \geq 076$, . Calculer directement $p(174<S<226)$ et vérifier le résultat précédent. L'inégalité de Bienaymé-Tchebychev est-elle optimale?

Corrigé

On assimile l'entrée de chaque personne à un tirage aléatoire avec remise. La variable aléatoire S suit donc la loi binomiale de paramètres $n=1000$ et $p=0,20$. On a alors : $\mu=E(S)=n \times p=1000 \times 0,20=200$ et $V(S)=n \times p \times(1-p)=1000 \times 0,20 \times 0,80=160$. Par ailleurs, on note que : : $174<S<226 \Leftrightarrow|S-200|<26$. Or, d'après l'inégalité de Bienaymé-Tchebychev, on a : : $p(|S-\mu| \geq \delta) \leq \frac{V(S)}{\delta^{2}}$. Soit, en posant $\delta=26: p(|S-200| \geq 26) \leq \frac{160}{26^{2}}$. Et donc : $\quad p(|S-200| \geq 26) \leq a$ avec $a \approx 0,237$. Et par là : $\quad p(|S-200|<26) \geq 1-a$. Soit : $p(174<S<226) \geq 1-a$ avec $1-a \approx 0,763$. Et donc : $p(174<S<226) \geq 0,76$.

On calcule directement : $p(174<S<226)=p(S \leq 225)-p(S \leq 174) \approx 0,977-0,021 \approx 0,96$. Le résultat est largement supérieur à 0,76 . On constate que l'inégalité de Bienaymé-Tchebychev n'est pas optimale !

Exercice 2

Une élection oppose deux candidats A et B. Soit $p$ la proportion d'électeurs, dans la population totale, décidés à voter pour le candidat A.

On souhaite estimer cette proportion $p$ inconnue .

On effectue un sondage auprès de $n$ personnes. On suppose que chaque personne interrogée donne son intention réelle de vote. La population est suffisamment importante pour assimiler le choix de chaque personne à un tirage aléatoire avec remise. On note $X_{i}$ la variable aléatoire qui vaut 1 si la i-ème personne interrogée vote pour A, et 0 sinon. Soit la moyenne : $M_{n}=\frac{X_{1}+X_{2}+\ldots+X_{n}}{n}$.

  1. Montrer que, pour tout $p$ dans $[0 ; 1]$, on a : $p(1-p) \leq \frac{1}{4}$
  2. De quelle nature sont chacune des $X_{i}$ ? Donner leur espérance et leur variance.
  3. Montrer à l'aide de l'inégalité de concentration que : pour tout réel $\delta$ strictement positif, on a : $p\left(M_{n}-\delta<p<M_{n}+\delta\right) \geq 1-\frac{1}{4 n \delta^{2}}$. Si $f$ est la valeur prise par $M_{n}$ lors du sondage, on dit alors que l'intervalle $I=] f-\delta ; f+\delta[$ est un intervalle de confiance pour $p$ au niveau de confiance supérieur ou égal à $1-\frac{1}{4 n \delta^{2}}$
  4. Le sondage auprès de $n=1000$ personnes donne une fréquence de votants pour A égale à $55 %$. Un intervalle de confiance pour $p$ est alors $] 0,55-\delta ; 0,55+\delta[$. On veut que cet intervalle de confiance se trouve à un niveau supérieur ou égal à 0,95 . Montrer qu'il suffit que $\delta \geq a$ avec $a \approx 0,0707$.
  5. On prend $\delta=0,071$. Donner alors l'intervalle de confiance de $p$ au niveau supérieur ou égal à 0,95 . Peut-on affirmer que $p$ est strictement supérieur à $50 %$ avec un niveau de confiance supérieur à 0,95 ?
  6. Le candidat A souhaite que l'amplitude de l'intervalle de confiance au seuil de 0,95 soit de $4 %$ maximum. Combien de personnes doit-on interroger au minimum ?

Corrigé

  1. On pose: $f(p)=p(1-p)$.

On a : $f(p)=p-p^{2}$. On reconnaît un trinôme du second degré, avec $a=-1$, $b=1$ et $c=0$. Son coefficient dominant $a=-1$ est strictement négatif. Donc $f$ admet un maximum atteint en $p=-\frac{b}{2 a}=-\frac{1}{-2}=0,5$. Ce maximum est donc égal à $f(0,5)=0,25$. Par conséquent, pour tout $p$, en particulier dans $[0 ; 1]$, on a : $p(1-p) \leq \frac{1}{4}$ 2. Chacune des $X_{i}$ suit la loi de Bernoulli de paramètre $p$.

Appelons X la variable aléatoire qui suit la loi de Bernoulli de paramètre $p$. L'espérance cherchée vaut : $E(X)=p \times 1+(1-p) \times 0=p$. La variance cherchée vaut: $V(X)=p \times 1^{2}+(1-p) \times 0^{2}-E^{2}=p-p^{2}=p(1-p)$. 3. Les choix des personnes étant indépendants, la liste ( $X_{1}, X_{2}, \ldots, X_{n}$ ) est un échantillon aléatoire de taille $n$ de X . $M_{n}$ est alors la variable aléatoire moyenne de l'échantillon. Et par là, d'après l'inégalité de concentration, on obtient, pour tout réel $\delta$ strictement positif : $p\left(\left|M_{n}-p\right| \geq \delta\right) \leq \frac{V(X)}{n \delta^{2}}$. Soit : $p\left(\left|M_{n}-p\right| \geq \delta\right) \leq \frac{p(1-p)}{n \delta^{2}}$. Or on a vu au 1. que : $p(1-p) \leq \frac{1}{4}$. Donc on en déduit que : $p\left(\left|M_{n}-p\right| \geq \delta\right) \leq \frac{1}{4 n \delta^{2}}$. Et, en considérant l'événement contraire : $p\left(M_{n}-\delta<p<M_{n}+\delta\right) \geq 1-\frac{1}{4 n \delta^{2}}$. 4. Le sondage donne $f=55 %$.

On veut que l'intervalle de confiance pour $p] 0,55-\delta ; 0,55+\delta[$ soit à un niveau supérieur ou égal à 0,95 . Il suffit donc que $1-\frac{1}{4 n \delta^{2}} \geq 0,95$. Soit : $1-\frac{1}{4 \times 1000 \times \delta^{2}} \geq 0,95$. Donc : $0,05 \geq \frac{1}{4000 \times \delta^{2}}$. Donc : $\delta^{2} \geq \frac{1}{4000 \times 0,05}$. Soit : $\delta^{2} \geq 5 \times 10^{-3}$. Et, comme $\delta$ est strictement positif, on obtient : $\delta \geq \sqrt{5 \times 10^{-3}}$. Or : $\sqrt{5 \times 10^{-3}} \approx 0,07071$. Donc il suffit que $\delta \geq a$ avec $a \approx 0,0707$. 5. On prend $\delta=0,071$.

L'intervalle de confiance de $p$ est alors : $] 0,55-0,071 ; 0,55+0,071[\approx] 0,479 ; 0,621[$.

Interprétation : avant de faire le sondage, on sait que, si $f$ est la fréquence de votants pour A dans l'échantillon que l'on va obtenir, alors la probabilité que l'intervalle de confiance $] f-0,071 ; f+0,071$ [ contienne $p$ est d'au moins 0,95 . Mais, une fois l'échantillon obtenu, la proportion $p$ peut être n'importe où dans cet intervalle de confiance (elle peut même être en dehors). Ici, comme $50 %$ est dans l'intervalle de confiance ] 0,$479 ; 0,621$ [, la proportion $p$ peut en particulier être inférieure à $50 %$. Et le fait que l'intervalle $] 0,479 ; 0,50$ [ soit plus petit que ] 0,$50 ; 0,621$ [ n'a aucune importance ! Donc on ne peut absolument pas affirmer que $p$ est strictement supérieur à $50 %$ avec un niveau de confiance supérieur à 0,95 . En fait, avec un intervalle qui contient la valeur $50 %$, on ne sait pas si le candidat est plutôt gagnant ou plutôt perdant. Le candidat va donc réclamer un sondage sur un plus grand nombre de personnes pour en réduire l'amplitude, espérant ainsi sortir 50 % de cet intervalle... 6. Le candidat A souhaite que l'amplitude de l'intervalle de confiance soit de $4 %$ maximum.

Donc on doit avoir : $\delta \leq 2 %$. Or, comme $1-\frac{1}{4 n \delta^{2}} \geq 0,95$, on a : $0,05 \geq \frac{1}{4 n \delta^{2}}$. D'où : $n \geq \frac{1}{4 \times 0,05 \times \delta^{2}}$. Et comme $\delta \leq 2 %$, on obtient : $n \geq \frac{1}{4 \times 0,05 \times 0,02^{2}}$. Soit : $n \geq 12500$. On doit interroger au minimum 12500 personnes.

Exercice 3

Une variable aléatoire X suit la loi binomiale de paramètres $n=500$ et $p=0,7$

  1. Montrer à l'aide de l'inégalité de Bienaymé-Tchebychev que : $p(|X-350| \geq 21) \leq 0,24$.
  2. Déterminer la valeur de $p(|X-350| \geq 21)$ arrondie à 0,001 près.
  3. Écrire en Python une fonction Lbin() qui renvoie une liste de 0 et de 1 simulant une succession de 500 expériences de Bernoulli de paramètre $p=0,7$. On notera que la fonction Lbin() renvoie donc un échantillon de taille 500 associé à la loi de Bernoulli de paramètre 0,7 .
  4. Compléter le programme précédent par une fonction simul( n ) qui produit n échantillons de taille 500 associés à la loi de Bernoulli de paramètre 0,7 . Si $x$ est le nombre de 1 dans l'échantillon courant, alors la fonction simul(n) doit retourner la fréquence d'échantillons qui vérifient $|x-350| \geq 21$.
  5. Candide a obtenu l'affichage suivant : simul $(10)=0.0$ simul $(100)=0.05$ simul $(1000)=0.035$ $\operatorname{simul}(10000)=0.0435 \operatorname{simul}(100000)=0.04419$ Quel résultat bien connu ces nombres semblent-ils confirmer? Soyez précis dans vos explications...

Corrigé

  1. La variable aléatoire $X$ suit la loi binomiale de paramètres $n=500$ et $p=0,7$.

On a alors: $\mu=E(X)=n \times p=500 \times 0,7=350$ et $V(X)=n \times p \times(1-p)=500 \times 0,7 \times 0,3=105$. D'après l'inégalité de Bienaymé-Tchebychev, on a : : $p(|X-\mu| \geq \delta) \leq \frac{V(X)}{\delta^{2}}$. Soit, en posant $\delta=21: \quad p(|X-350| \geq 21) \leq \frac{105}{21^{2}}$. Or : $\frac{350}{21^{2}} \approx 0,238$. Et par là : $\quad p(|X-350| \geq 21) \leq 0,24$. 2. On a: $p(|X-350| \geq 21)=1-p(|X-350|<21)$.

Or : $p(|X-350|<21)=p(330 \leq X \leq 370)$. Soit : $p(|X-350|<21)=p(X \leq 370)-p(X \leq 329) \approx 0,9784-0,0237 \approx 0,955$. Et par là : $p(|X-350| \geq 21) \approx 1-0,955 \approx 0,045$. Le résultat est largement inférieur à la valeur de 0,24 trouvée au 1 . On constate que l'inégalité de Bienaymé-Tchebychev n'est pas optimale ! 3. Voici un programme convenable.

from random import random
def Lbin():
    L=[] # La Liste L est vide pour commencer
    for k in range(500): # la boucle va être parcourue 500 fois
        if random()<0.7: # random() contient un réel aléatoire entre 0 et 1
            L.append(1) #1 est ajouté à la fin de la liste L
        else:
            L.append(0) #0 est ajouté à la fin de la liste L
    return L # La fonction Lbin() retourne la liste L
print(Lbin())

La ligne 11, non demandée, imprime une liste de 0 et de 1 , correspondant à un échantillon de taille 500 associé à la loi de Bernoulli de paramètre 0,7 . 4. Voici un programme convenable.

from random import random
def Lbin():
    L=[]
    for k in range(500):
        if random()<0.7:
            L.append(1)
        else:
            L.append(0)
    return L
def simul(n):
    compteur=0
    for j in range(n):
        x=Lbin().count(1)
        if abs(x-350)>=21:
            compteur=compteur+1
    return compteur/n
print(simul(100))

La ligne 19, non demandée, imprime le pourcentage d'échantillons parmi 100 dont le nombre x de succès vérifie $|x-350| \geq 21$. Dans mon cas, il s'est affiché 0.05 dans la console. Cela signifie que 5% des 100 échantillons possédaient soit au moins 329 succès, soit au maximum 371 succès. Ces échantillons avaient donc un nombre de succès assez éloigné du nombre espéré qui est de 350. 5. Posons : $p_{B}=p(|X-350| \geq 21) \approx 0,045$.

On constate que, plus $n$ augmente, plus la valeur de $\operatorname{simul}(\mathrm{n})$ se rapproche de $p_{B}$. Ne pas confondre $p$ et $p_{B}$ dans ce qui suit !

Explication.

On considère l'expérience consistant à produire un échantillon de taille 500 associé à la loi de Bernoulli de paramètre $p=0,7$. Si $x$ est le nombre de 1 dans l'échantillon, et si $|x-350| \geq 21$, alors l'expérience est un succès. Sinon c'est un échec. Soit B la variable aléatoire qui prend la valeur 1 en cas de succès, et qui prend la valeur 0 en cas d'échec. On a alors: $p(B=1)=p_{B} \approx 0,045$. Et la variable aléatoire B suit donc la loi de Bernoulli de paramètre $p_{B}$. On peut alors considérer que simul(n) renvoie la variable aléatoire moyenne $M_{n}$ d'un échantillon de taille $n$ de la variable aléatoire B. Or la variable aléatoire de Bernoulli B a pour espérance $\mu=p_{B} \approx 0,045$. Les nombres affichés traduisent alors le fait que, pour n'importe quel nombre $\delta$ strictement positif, $\lim {n \rightarrow+\infty} p\left(\left|M{n}-\mu\right| \geq \delta\right)=0$. C'est-à-dire ici : $\lim {n \rightarrow+\infty} p\left(\left|M{n}-p_{B}\right| \geq \delta\right)=0$. C'est la loi faible des grands nombres.

Quelques explications complémentaires... Dans un échantillon de taille 500 associé à la loi de Bernoulli de paramètre 0,7, le nombre de succès espéré est de 350. Appelons «échantillon hors norme» un échantillon dont le nombre de succès s'éloigne de 350 d'au moins 21. La probabilité d'obtenir un échantillon «hors norme» est $\mu=p_{B} \approx 0,045$. Sur n échantillons, la proportion d'échantillons «hors norme» est donnée par la variable aléatoire $M_{n}$. La loi faible des grands nombres traduit le fait que, plus $n$ augmente, plus il est probable que $M_{n}$ soit proche de $\mu$.

Exercice 4

Un virus infecte une partie de la population. On appelle $p$ la proportion de la population porteuse du virus. Plusieurs articles affirment que $32 %$ de la population est atteinte. Un institut est chargé de vérifier la validité de cette affirmation. L'institut veut donc déterminer si l'hypothèse « $p=0,32$ » est vraie. $n$ personnes sont testées successivement. On considère que les tests sont indépendants et parfaitement fiables. Soit $f$ la fréquence de malades parmi les $n$ personnes.

  1. Supposons que la proposition « $p=0,32$ » soit vraie.

Soit $M_{n}$ la variable aléatoire donnant la fréquence de malades parmi les $n$ personnes. Montrer à l'aide de l'inégalité de concentration que : $p\left(0,28<M_{n}<0,36\right) \geq 1-\frac{136}{n}$. 2. Compte tenu du résultat précédent, combien de personnes suffit-il de tester pour que l'on ait l'inégalité : $p\left(0,28<M_{n}<0,36\right) \geq 0,95$. 3. L'institut teste 2800 personnes, et il constate que 700 sont malades.

En s'appuyant sur le résultat obtenu au 2 ., l'institut déclare alors que l'affirmation « $32 %$ de la population est atteinte» est fausse. Donner un majorant du risque que l'institut se trompe. 4. Déterminer une valeur précise du risque d'erreur de l'institut (arrondie à $10^{-6}$ près). 5. L'institut se rend compte qu'une erreur s'est produite lors de la transmission des données de l'étude. L'échantillon testé ne contenait pas 700 malades, mais 900 malades.

L'institut publie alors le communiqué suivant. «Au seuil de $95 %$, nous ne pouvons pas affirmer que les articles qui prétendent que $32 %$ de la population est infectée sont faux». Déterminer la valeur de $p(848 \leq B \leq 944)$, arrondie à 0,001 près, où B est la binomiale de paramètres $n=2800$ et $p=0,32$. Expliquer l'affirmation de l'institut. Connaît-on la probabilité d'accepter à tort l'hypothèse que $p=32 %$ ?

Corrigé

  1. Soit $X_{i}$ la variable aléatoire qui vaut 1 si la i-ème personne testée est malade, et 0 sinon. Chacune des $X_{i}$ suit la loi de Bernoulli de paramètre $p=0,32$. Appelons $X$ la variable aléatoire qui suit la loi de Bernoulli de paramètre $p=0,32$. On a: $E(X)=p \times 1+(1-p) \times 0=p=0,32$. Et : $V(X)=p \times 1^{2}+(1-p) \times 0^{2}-E^{2}=p-p^{2}$. Soit: $V(X)=p(1-p)=0,32 \times 0,68=0,2176$. Les tests étant indépendants, la liste ( $X_{1}, X_{2}, \ldots, X_{n}$ ) est un échantillon aléatoire de taille $n$ de X . Soit $M_{n}$ la variable aléatoire moyenne de l'échantillon. D'après l'inégalité de concentration, on obtient, pour tout réel $\delta$ strictement positif : $p\left(\left|M_{n}-p\right| \geq \delta\right) \leq \frac{V(X)}{n \delta^{2}}$. Prenons : $\delta=0,04$. On a donc: $p\left(\left|M_{n}-0,32\right| \geq 0,04\right) \leq \frac{0,2176}{n 0,04^{2}}$. Soit : $p\left(\left|M_{n}-0,32\right| \geq 0,04\right) \leq \frac{136}{n}$. Et, en considérant l'événement contraire : $p\left(0,28<M_{n}<0,36\right) \geq 1-\frac{136}{n}$.
  2. Par conséquent, pour avoir $p\left(0,28<M_{n}<0,36\right) \geq 0,95$, il suffit que : $1-\frac{136}{n} \geq 0,95$. Soit : $1-0,95 \geq \frac{136}{n}$. Soit : $n \geq \frac{136}{0,05}$ (on rappelle que $n$ est strictement positif, et par là, le sens de l'inégalité ne change pas). On obtient donc : $n \geq 2720$. Il suffit donc de tester au moins 2720 personnes pour que l'on ait l'inégalité : $p\left(0,28<M_{n}<0,36\right) \geq 0,95$.
  3. Les 700 malades de l'échantillon correspondent à $25 %$ des 2800 personnes testées. La valeur prise par $M_{n}$ est donc de 0,25 . Elle n'est pas dans l'intervalle ]0,28; 0,36[. Or l'institut a testé plus de 2720 personnes, et d'après le 2 ., la probabilité que la fréquence de malades dans un tel échantillon soit dans l'intervalle $] 0,28 ; 0,36[$ est d'au moins 0,95 . Par conséquent, si effectivement on avait $p=0,32$, alors l'institut est confronté à un événement qui avait une probabilité d'arriver inférieure à $5 %$. L'institut choisit donc de contester l'affirmation « $32 %$ de la population est atteinte ». Le risque qu'il se trompe est inférieur à $5 %$.
  4. $28 %$ de 2800 correspond à 784 personnes. $36 %$ de 2800 correspond à 1008 personnes. On a alors : $p\left(0,28<M_{n}<0,36\right)=p(784<B<1008)$, où B est la binomiale de paramètres $n=2800$ et $p=0,32$. On calcule alors : $p(784<B<1008)=p(B \leq 1007)-p(B \leq 784)$. Soit : $p(784<B<1008) \approx 0,999996-0,000002 \approx 0,999994$. Le risque que l'institut se trompe est donc d' environ $6 \times 10^{-6}$. C'est très faible ! En tout cas bien inférieur aux $5 %$ obtenus précédemment! On notera à nouveau que les majorations ou minorations obtenues à l'aide de l'inégalité de concentration sont loin d'être optimales...
  5. On calcule : $p(848 \leq B \leq 944)=p(B \leq 944)-p(B \leq 847) \approx 0,975-0,024 \approx 0,951$. Or le nombre de malades dans l'échantillon est de 900 . Il est donc dans l'intervalle [848;944]. Par conséquent, si effectivement on avait $p=0,32$, alors l'institut est confronté à un événement qui avait une probabilité d'arriver légèrement supérieure à $95 %$. L'institut choisit donc de ne pas contester l'affirmation « $32 %$ de la population est atteinte $»$. Le risque d'accepter à tort le fait que $p=32 %$ est inconnu !

Remarques.

Il ne faut surtout pas dire que la probabilité que $p$ vaille $32 %$ est d'au moins $0,95$. La première raison est que la valeur de $p$ n'est pas aléatoire. Les probabilités n'ont pas leur place ici. Le seconde raison est la suivante. Imaginons que $p$ ne vaille pas $32 %$, mais qu'elle en soit assez proche, par exemple $p=33 %$. Dans ce cas précis, on trouverait que $p(848 \leq B \leq 944) \approx 0,80$, ce qui est assez grand. Par conséquent, comme 900 est compris entre 848 et 944 , nous serions dans un cas qui n'est pas improbable, alors que p serait différent de $32 %$. Et c'est vrai pour toutes les valeurs de p proches de $32 %$. Du coup, la valeur de $p$ reste inconnue. On peut cependant supposer qu'elle est sans doute proche de $32 %$.