La statistique à deux variables étudie la relation entre deux caractères quantitatifs mesurés sur les mêmes individus. L'objectif est de modéliser cette relation par une droite et d'en évaluer la pertinence.
Fiche mémo — Points clés à retenir
Nuage de points : représentation des couples \((x_i, y_i)\)
Point moyen : \(G = (\bar{x}, \bar{y})\) — toute droite d'ajustement passe par \(G\)
Droite de Mayer : passe par les points moyens des deux sous-nuages
Droite des moindres carrés : \(y = ax + b\) avec \(a = \frac{\text{cov}(X,Y)}{\sigma_X^2}\)
Causalité ≠ corrélation : une corrélation forte n'implique pas un lien de cause à effet
Nuage de points et point moyen
On dispose de \(n\) couples \((x_i, y_i)\). On les représente dans un repère orthogonal : c'est le nuage de points. Le point moyen \(G(\bar{x}, \bar{y})\) est le centre de gravité du nuage. Toute droite d'ajustement raisonnable passe par \(G\).
La covariance mesure la tendance commune de variation des deux variables. Le coefficient de corrélation linéaire \(r\) de Bravais-Pearson normalise cette mesure entre \(-1\) et \(1\). Si \(r > 0\) : relation croissante ; \(r < 0\) : décroissante ; \(r = 0\) : absence de corrélation linéaire.
\[ r = \frac{\text{cov}(X,Y)}{\sigma_X \cdot \sigma_Y} \]
Droite de Mayer
On partage le nuage en deux sous-nuages de tailles égales selon les valeurs croissantes de \(x\). On calcule le point moyen \(G_1\) du premier sous-nuage et \(G_2\) du second. La droite de Mayer est la droite passant par \(G_1\) et \(G_2\). Elle est simple à construire mais sensible au découpage.
La droite des moindres carrés (régression de \(Y\) en \(X\)) minimise la somme des carrés des écarts verticaux entre les points et la droite. C'est la méthode de référence en statistique.
\[ y = ax + b \quad \text{avec} \quad a = \frac{\text{cov}(X,Y)}{\sigma_X^2}, \quad b = \bar{y} - a\bar{x} \]
Causalité et corrélation
Une corrélation forte (\(|r|\) proche de 1) indique une relation linéaire entre les variables, mais n'implique pas un lien de cause à effet. Exemple classique : la corrélation entre ventes de glaces et noyades est due à une troisième variable (la chaleur). Il faut toujours exercer son esprit critique face à une corrélation.
Exercices résolus
Ex. 1
Calcul du coefficient de corrélation
On observe les données suivantes pour 5 élèves (heures de travail \(x\) et note \(y\) sur 20) :\n\n| Élève | \(x\) | \(y\) |\n|---|---|---|\n| A | 2 | 8 |\n| B | 4 | 11 |\n| C | 5 | 13 |\n| D | 7 | 16 |\n| E | 7 | 17 |\n\nCalculer \(\bar{x}\), \(\bar{y}\), \(\text{cov}(X,Y)\), \(\sigma_X\), \(\sigma_Y\) et \(r\).
Conclusion : \(r \approx 0{,}995\), corrélation linéaire très forte et positive.
Ex. 2
Droite des moindres carrés
En reprenant les données de l'exercice précédent (\(\bar{x}=5\), \(\bar{y}=13\), \(\text{cov}=6{,}2\), \(\sigma_X^2=3{,}6\)), déterminer l'équation de la droite des moindres carrés, puis estimer la note d'un élève qui travaillerait 6 heures.