Diagonalisation d’une matrice de corrélation :

Soit R une matrice de corrélation 3 x 3 :

1	0,5	0,4
0,5	1	0,8
0,4	0,8	1

Diagonalisation de R :

1,2	-0,6	0
0	1	0
0	-1,3	1,7

1	0,5	0,4
0,5	1	0,8
0,4	0,8	1

1,2	0	0
-0,6	1	-1,3
0	0	1,7

1	0	0
0	1	0
0	0	1

La matrice R est de rang complet, Q® = I et L^-1 L^-1' = R

L^-1

0,9	0,5	0
0	1	0
0	0,8	0,6

0,9	0	0
0,5	1	0,8
0	0	0,6

1	0,5	0,4
0,5	1	0,8
0,4	0,8	1

Les solutions de la diagonalisation sont multiples : voici une autre matrice L qui arrive au même résultat. Il y en a beaucoup d’autres.

L^-1

0,9	0	0,4
0,2	0,6	0,8
0	0	1

0,9	0,2	0
0	0,6	0
0,4	0,8	1

1	0,5	0,4
0,5	1	0,8
0,4	0,8	1

Il n’est donc pas trivial d’obtenir les vecteurs propres et valeurs propres par la diagonalisation de R. De nombreuses méthodes, itératives et plus ou moins robustes, sont décrites dans la littérature et implémentées (avec plus ou moins de bonheur) dans de nombreux logiciels.

Diagonalisation optimisée pour obtenir les valeurs propres et vecteurs propres :

Les valeurs de la matrice L proviennent de la fonction EVD du logiciel R.

1,2	-0,6	0
0	1	0
0	-1,3	1,7

1	0,5	0,4
0,5	1	0,8
0,4	0,8	1

1,2	0	0
-0,6	1	-1,3
0	0	1,7

1	0	0
0	1	0
0	0	1

La matrice L^-1 sera appelée F (pour Factor loadings). Nous retrouvons la propriété générale vue plus haut :

-0,7	0,7	0,1
-0,9	-0,2	-0,3
-0,9	-0,4	0,3

-0,7	-0,9	-0,9
0,7	-0,2	-0,4
0,1	-0,3	0,3

1	0,5	0,4
0,5	1	0,8
0,4	0,8	1

Nous observons à présent une nouvelle propriété :

-0,7	-0,9	-0,9
0,7	-0,2	-0,4
0,1	-0,3	0,3

-0,7	0,7	0,1
-0,9	-0,2	-0,3
-0,9	-0,4	0,3

2,1	0	0
0	0,7	0
0	0	0,2

Le produit F’F représente la norme des vecteurs sur la diagonale et une valeur fonction de leur cosinus en dehors de la diagonale (voir module 220 : représentation géométrique des vecteurs).

Leur norme est appelée valeur propre ( λ_i, eigenvalue). L’algorithme a pour objectif de trouver la plus grande valeur propre de la matrice (ici 2,1), puis la plus grande dans une direction orthogonale et ainsi de suite. Nous verrons que chacune d’elle représente une variance : notez déjà que la somme des valeurs propres est égale à 3, soit p, le nombre de variables, ou encore la somme des valeurs diagonales de R, ou encore la somme des variances de 3 variables standardisées qui ont généré les coefficients de corrélation de R.

Les colonnes de F apparaissent indépendantes (cosinus nul, orthogonales, non corrélées). Chacune est appelée vecteur propre (f_i, eigenvector). Chaque vecteur définit la direction f_i dans l’espace dans laquelle on trouve la variance la plus grande.

Définition des valeurs propres et vecteurs propres :

Le couple valeur propre – vecteur propre est une véritable curiosité mathématique. Pour chaque couple , la relation suivante est respectée :

R f_i = f_i λ_i

1	0,5	0,4
0,5	1	0,8
0,4	0,8	1

-0,7

-0,9

-1,5

-2

-1,9

-0,7

-0,9

x 2,1

-1,5

-2

-1,9

f₁

λ₁

1	0,5	0,4
0,5	1	0,8
0,4	0,8	1

0,7

-0,2

-0,4

0,5

-0,1

-0,2

0,7

-0,2

-0,4

x 0,7

0,46

-0,1

-0,2

f₂

λ₂

1	0,5	0,4
0,5	1	0,8
0,4	0,8	1

0,05

-0,3

0,29

0,01

-0,1

0,06

0,05

-0,3

0,29

x 0,19

0,01

-0,1

0,06

f₃

λ₃

Cette propriété définit le couple valeur propre – vecteur propre d’une matrice.