Dans cet article, on s’intéresse à l’étude d’une matrice carrée particulière : la matrice de variance/covariance. Cela peut être utile pour revoir certaines propriétés de la variance et de la covariance. L’étude de cette matrice peut aussi faire ressortir quelques astuces.
Définition
Une matrice de variance/covariance est une matrice carrée qui comporte les variances et les covariances associées à plusieurs variables. Les éléments de diagonale de la matrice contiennent les variances des variables, tandis que les éléments hors diagonale contiennent les covariances entre toutes les paires possibles de variables.
Pour rappel : \(Cov(X,X)=V(X)\) on peut donc dire que la matrice de variance/covariance est une matrice où tous les éléments sont des covariances.
Soit \(n\) un entier naturel, soit (\(X_1, X_2,…,X_n\)) des variables aléatoires, la matrice de variance/covariance associée à ces variables est la matrice \(C=\begin{pmatrix} V(X_1) & Cov(X_1,X_2) & \ldots
& Cov(X_1,X_n) \\ Cov(X_2,X_1) & V(X_2) & \ldots &
Cov(X_2,X_n) \\ \vdots & & & \vdots \\ Cov(X_n,X_1) & Cov(X_n, X_2) & \ldots & V(X_n) \end{pmatrix}\)
Propriétés
La matrice de variance/covariance est symétrique, car la covariance entre X et Y est identique à celle entre Y et X. Par conséquent, la covariance pour chaque paire de variables est affichée deux fois dans la matrice.
La matrice de variance/covariance de variables aléatoires indépendantes deux à deux est une matrice diagonale. En effet, si les variables aléatoires sont indépendantes entre elles, alors leurs covariances respectives sont nulles. Par exemple, soit (\(X_1, X_2,…,X_n\)) des variables aléatoires deux à deux indépendantes, alors la matrice de variance/covariance associée à ces variables est la matrice \(C=diag(V(X_1),V(X_2),…,V(X_n))\)
La matrice de variance/covariance est positive (ses valeurs propres sont positives ou nulles). Elle est définie positive (valeurs propres strictement positives) s’il n’existe aucune relation affine entre les composantes du vecteur aléatoire. Pour plus d’informations sur le signe d’une matrice, tu peux te référer à cet article.
Soit \(F\) une application linéaire de matrice \(M\). Soit \(X=(X_1,…,X_n)\) un vecteur aléatoire de matrice de variance/covariance \(C\). Alors le vecteur aléatoire \(F(X)\) a pour matrice de covariance \(MC^tM\).
Astuce
Grâce à la matrice de variance/covariance, on peut retrouver la formule de la variance d’une somme de variables.
En effet, en sommant tous les termes de la matrice de variance/covariance, on retrouve l’expression de la variance d’une somme : on prend \(V=\begin{pmatrix} V(X_1) & Cov(X_1,X_2) & \ldots
& Cov(X_1,X_n) \\ Cov(X_2,X_1) & V(X_2) & \ldots &
Cov(X_2,X_n) \\ \vdots & & & \vdots \\ Cov(X_n,X_1) & Cov(X_n, X_2) & \ldots & V(X_n) \end{pmatrix}\).
Si on somme les termes, on trouve \(V(X_1+\dots+X_n)=V(X_1)+\dots+V(X_n)+2\sum_{i<j}Cov(X_i,X_j)\). Ce qui est bien la formule de la somme de variables aléatoires.
Cela fonctionne aussi si les variables sont indépendantes deux à deux, toutes les covariances sont alors nulles et on retrouve bien \(V(X_1+\dots+X_n)=V(X_1)+\dots+V(X_n)\).
Analyse d’une matrice de variance/covariance
On se positionne dans un exercice où on a trois variables aléatoires \(X, Y, Z\), et la seule information que nous avons est la matrice de variance/covariance.
Par exemple, \(C= \begin{pmatrix} 16 & 0 & 2\\ 0 & 4 &
6 \\ 2 & 6 &9 \end{pmatrix}\).
Cela nous permet de récupérer différentes informations sur ces trois variables et d’en tirer certaines conclusions. On lit déjà que \(Cov(X,Y)=0\). Attention, cela ne nous permet pas de conclure sur l’indépendance ou non de ces deux variables, pour cela, il faut le prouver ! Cependant, on peut émettre une hypothèse d’indépendance pour ensuite la prouver. Pour autant, on peut conclure sur le fait que les variables \(X\) et \(Z\) ne sont pas indépendantes, de même pour \(Y\) et \(Z\).
On peut également déterminer les coefficients de corrélation linéaires entre les variables : entre \(X\) et \(Y\), on trouve \(0\). Entre \(X\) et \(Z\), on trouve \(\frac{2}{4*3}=\frac{1}{6}\). De même pour \(Y\) et \(Z\), où le coefficient de corrélation linéaire vaut \(\frac{6}{3*2}=1\). Il y a donc une corrélation linéaire parfaite entre \(Y\) et \(Z\). Il existe donc deux réels \((a,b)\) tels que \(Y=aZ+b\). On peut trouver \(a\) facilement puisque \(V(Y)=a^2V(Z)\), d’où \(4=a^2*9\), donc \(a=\sqrt{4/9}\). Donc \(Y=\sqrt{4/9}Z+b\).
Retrouve un exemple de matrice de covariance/variance dans le sujet 3.17 de l’oral ESCP 2021.
Ainsi, connaître la matrice de variance/covariance nous donne déjà certaines indications sur les variables aléatoires, et en particulier leur corrélation !