Analyse factorielle (statistique descriptive)

 

Traitement d'un cas fictif pour montrer les principaux concepts, les étapes de l'analyse et les principes d'interprétation des résultats (logiciel utilisé : STATISTICA)

Données : résultats de 6 élèves à 4 tests de logique (notation 1 à 5). Les énoncés du premier test sont supposés avoir une grande composante verbale, les énoncés des autres tests sont supposés plus simples (phrases courtes, qcm).

+-+--------+--------+--------+--------+--------+
| |       1|       2|       3|       4|       5|
| | VAR1   | VAR2   | VAR3   | VAR4   | VAR5   |
| |        | 1e test| 2e test| 3e test| 4e test|
+-+--------+--------+--------+--------+--------+
|1|e1      | 4.000  | 3.000  | 1.000  | 2.000  |
|2|e2      | 5.000  | 2.000  | 1.000  | 3.000  |
|3|e3      | 2.000  | 5.000  | 4.000  | 2.000  |
|4|e4      | 4.000  | 2.000  | 5.000  | 4.000  |
|5|e5      | 2.000  | 5.000  | 3.000  | 4.000  |
|6|e6      | 2.000  | 3.000  | 4.000  | 5.000  |
+-+--------+--------+--------+--------+--------+
But de l'analyse : simplifier le tableau des résultats en regardant la dépendance (corrélation) des résultats aux différents tests.

Idée : chaque élève est un "point" dans un espace à 4 dimensions (les deux premières sont représentées ci-dessous. On essaye de repérer les élèves par des axes fictifs (facteurs) dont le premier rendra compte du maximum de la diversité entre les résultats (variance). Le deuxième rendra compte du maximum du reste, etc.

Procédure (cas de l'analyse en composantes principales)

1) les notes sont réduites (moyenne nulle et écart type unitaire).

Cette étape n'est en général pas visible pour l'utilisateur d'un progiciel de statistique. Le système délivrevra automatiquement les autres résultats.

Les notes deviennent:


+-+--------+--------+--------+--------+--------+
| |       1|       2|       3|       4|       5|
| |    VAR1|     VN2|     VN3|     VN4|     VN5|
+-+--------+--------+--------+--------+--------+
|1|     e1 |    .627|   -.244|  -1.195|  -1.101|
|2|     e2 |   1.379|   -.976|  -1.195|   -.275|
|3|     e3 |   -.878|   1.220|    .598|  -1.101|
|4|     e4 |    .627|   -.976|   1.195|    .550|
|5|     e5 |   -.878|   1.220|   0.000|    .550|
|6|     e6 |   -.878|   -.244|    .598|   1.376|
+-+--------+--------+--------+--------+--------+
2) Les 2 (ou plus) premiers facteurs sont fournis avec la variance qu'ils expliquent. Ici c'est un bon cas, le deux premiers facteurs prennent en charge 88% de la variabilité totale.
+----------+-------------------------------------------+
| STAT.    | Eigenvalues                               |
| FACTOR   | Extraction: Principal components          |
| ANALYSIS |                                           |
+----------+----------+----------+----------+----------+
|          |          | % total  | Cumul.   | Cumul.   |
| Value    | Eigenval | Variance | Eigenval | %        |
+----------+----------+----------+----------+----------+
| 1        | 2.149970 | 53.74926 | 2.149970 | 53.74926 |
| 2        | 1.369689 | 34.24223 | 3.519660 | 87.99149 |
+----------+----------+----------+----------+----------+
3) Par tableau ou par graphique, les anciennes variables sont représentées dans le système des facteurs.
+----------+----------------------------------+
| STAT.    |Factor Score Coefficients         |
| FACTOR   | Rotation: Unrotated              |
| ANALYSIS | Extraction: Principal components |
+----------+----------------+-----------------+
| Variable | Factor 1       | Factor 2        |
+----------+----------------+-----------------+
| VAR2     | .443830        | -.152984        |
| VAR3     | -.328762       | .500830         |
| VAR4     | -.345100       | -.327674        |
| VAR5     | -.202383       | -.590329        |
+----------+----------------+-----------------+

4) A ce niveau intervient le problème de l'interprétation des facteurs : ici on pourrait dire que le facteur 1 représente la compréhension des énoncés verbaux et le facteur 2 le résultat en logique pure.

5) Il est possible de remplacer les 5 notes des élèves par deux notes (ici réduites), une en compréhension de texte et une en logique.

+----------+---------------------------------+
| STAT.    | Factor Scores                   |
| FACTOR   | Rotation: Unrotated             |
| ANALYSIS |Extraction: Principal components |
+----------+----------------+----------------+
| Case     | Factor  1      |  Factor 2      |
+----------+----------------+----------------+
| 1        | .993765        | .82347         |
| 2        | 1.401199       | -.14565        |
| 3        | -.774040       | 1.19934        |
| 4        | .075222        | -1.30129       |
| 5        | -.902027       | .42027         |
| 6        | -.794119       | -.99614        |
+----------+----------------+----------------+

(c) L.-O. Pochon, IRDP, 1997