Une enquête internationale sur les acquis des élèves (PISA)
La publication des résultats de PISA a donné lieu à de très nombreux commentaires dans la presse. Il a semblé intéressant à cette occasion de se pencher sur les travaux et les méthodes de l'OCDE. La discussion est d'autant plus utile que, même si chacun a pu avoir connaissance des résultats ou de certains résultats de ce travail, les méthodes et les postulats adoptés n'ont pas toujours été explicités.
PISA participe d'une pratique déjà bien établie depuis une quinzaine d'années dans les pays développés : l'évaluation. Deux questions se posent d’emblée, en quelque sorte : pourquoi et comment évaluer ? Selon beaucoup d’observateurs, en effet, évaluer le système scolaire peut apparaître naturellement justifié par les demandes des usagers de l’école. Ces demandes sont de plus en plus fortes. Plus généralement, il paraît normal de rendre compte de l'utilisation des sommes engagées dans le service public. Évaluer présente aussi un intérêt pour la gestion interne. L’éducation est un secteur où les personnels sont très qualifiés. Elle ne se pilote pas tellement par le haut. L'évaluation doit donc servir aux acteurs eux-mêmes. Mais qui dit évaluer dit aussi contrôler, ce qui conduit à poser aussi sous cet angle la question de l’usage des résultats de l’évaluation.
Comment évaluer ? Ici la question de la pertinence des outils est évidemment première. Les évaluations comparatives, comme c'est le cas pour PISA, redoublent la difficulté. Enfin, question connexe, il reste à préciser ce que l'on évalue réellement. Sont-ce les établissements, les académies, les personnels, les élèves et leurs acquis, en termes de connaissances ou de performances …? Finalement, évaluer les objectifs donnés aux systèmes éducatifs, n’est-ce pas aussi évaluer les sociétés elles-mêmes ?
Georges Lemaître
Remarquons au préalable que pour une fois, avec PISA, l'OCDE a trouvé en trichant à peine un sigle qui fonctionne en anglais et en français (Programme for international student assessment et Programme international pour le suivi des acquis des élèves).
Je voudrais ici présenter rapidement l'étude. Puis, j’aborderai la question du palmarès, car à mon sens, il soulève quelques interrogations.
Qu'est-ce que PISA tout d'abord ? C'est une évaluation des élèves de quinze ans, c'est à dire en fin de scolarité obligatoire. Elle a lieu tous les trois ans. Chaque fois, il y a un domaine principal d’évaluation et un domaine mineur. Cette fois-ci, l’étude portait principalement sur la lecture, sur la compréhension de l'écrit. Le domaine mineur était les mathématiques et les sciences. Cette évaluation est censée être continue pour permettre la constitution de séries susceptibles de révéler des progrès, voire d'identifier les facteurs contribuant à ces progrès.
Pour la première fois, le programme a été financé et organisé par les ministères de l'éducation des pays membres. Auparavant il suscitait plutôt l'intérêt des chercheurs. Tout au long de la conception de cette évaluation, les ministères sont donc intervenus, ce qui traduit une réelle demande.
Sur le plan méthodologique, il me semble possible de dire que c'est la meilleure évaluation que l'on ait faite jusqu'à présent. Elle présente quelques différences avec ce qui s'était fait auparavant.
En 1991 il y avait eu une évaluation sur la lecture. Mais à l'époque une seule classe, la troisième, était concernée. Or du fait des pratiques de redoublement, en France notamment, les élèves n'avaient pas tous le même âge. Ils étaient en France plus âgés qu'ailleurs. Cette fois-ci, tous les élèves évalués ont entre quinze et quinze ans et demi. Par ailleurs, on peut noter le souci, important, d'une plus large couverture démographique. Dans tous les pays, près de 95% de la population visée y a participé.
Chaque item a été rédigé d'abord en français et en anglais pour faire ensuite l'objet d'une double traduction vers la langue de destination des pays participants. Puis les deux versions ont été conciliés. Contrairement à ce qui a été dit ou écrit ici et là, 45% seulement des questions étaient des questions à choix multiple.
De façon très générale, l'évaluation était axée sur les compétences plutôt que sur les connaissances. Il s’agissait de mesurer la capacité des élèves à appliquer ce qu'ils ont appris.
Cinq niveaux ont été définis à cette fin, pour les trois séries de compétences suivantes : retrouver de l'information, interpréter un texte, réfléchir sur le contenu.
|
Cadre d’évaluation |
|
Cinq niveaux + trois échelles de compétence |
|
Chaque niveau (en montant) est associé à des tâches de plus en plus difficiles |
|
Chaque échelle est associée à des tâches de nature différente |
|
Exemple - Niveau 1 |
|
Localiser une information en n’utilisant qu’un seul critère ("Retrouver de l’information") |
|
Identifier le thème principal ou l’intention de l’auteur ("Interpréter le texte") |
|
Établir une relation simple entre l’information du texte et des connaissances familières de la vie courante ("Réfléchir sur le contenu du texte") |
Pour cette contribution, j'ai effectué une simple transformation de résultats pour les reporter sur une échelle de zéro à vingt. On obtient alors une distribution pour l'ensemble des pays de l'OCDE. La moyenne est par définition de 10, avec une distribution assez concentrée (54% autour de 10).
|
Note |
Pourcentage (approximatif) des élèves |
|
< 5 |
7,7 |
|
5-7,5 |
14,4 |
|
7,5-12,5 |
54,1 |
|
12,5-15 |
18,4 |
|
> 15 |
5,4 |
Distribution des résultats par niveau de compétence

Les résultats:
Les collégiens français de quinze ans obtiennent une moyenne de 10,2, résultat comparable à celui des États-Unis.
|
Collégiens (37%) |
8,3 |
|
Fédération de Russie |
8,7 |
|
Garçons |
9,7 |
|
OCDE |
10,0 |
|
États-Unis |
10,1 |
|
France |
10,2 |
|
Filles |
10,6 |
|
Royaume-Uni |
10,8 |
|
Finlande Lycéens (sauf pro: 51%) |
11,5 12,0 |
A partir de ces quelques résultats, il me semble possible de tenter de répondre à trois questions:
Qu'est-ce qui est évalué ? Les résultats sont-ils fiables ? Pourquoi la France se situe-t-elle là où elle est ?
1/ Qu'est ce qui est évalué?
Il faut dire tout d'abord clairement qu'on n'évalue pas les connaissances mais les compétences. Même, si bien sûr, une compétence donnée suppose toujours un niveau minimum de connaissances. L'idée est d'estimer l'aptitude à réaliser des tâches que l'on trouve dans la vie de tous les jours. Ceci étant dit, on peut, il est vrai, se demander si le calcul de l'aire de l'antarctique est une opération quotidienne. Dans tous les cas on peut affirmer que l'on demande aux élèves de raisonner, de repérer des informations dans un texte, de tirer des conclusions, d'établir des liens entre le texte et leur propres connaissances à partir de supports différents : articles, revues, roman, etc. Cela ne me semble pas curieux pour les élèves.
2/ Les résultats sont-ils fiables ?
Le soin apporté à l'échantillonnage et aux procédures de mise en œuvre a déjà été évoqué. Le souci ici est surtout celui de la comparabilité des résultats. Le modèle utilisé tend à ce que chaque item évalué représente la même difficulté pour deux individus de capacité similaire, quelle que soit leur nationalité. Des critères statistiques permettent d'assurer ce point essentiel de comparaison. Il est en effet possible de repérer une question qui provoquerait un comportement particulier chez les élèves d'un pays.
Beaucoup d’objections ont été faites sur la validité des comparaisons, lorsque l’on traduit des questions ou lorsqu’on passe d’un pays à un autre. Ces objections sont connues et dans la mesure du possible elles ont été prises en compte. Je peux en donner deux exemples. En voyant la bonne performance des pays anglophones, il est possible de penser qu'un biais est apparu du fait que beaucoup d'items ont été proposés par ces pays. Or si l'on trie les items en prenant en compte le pays qui les a proposés, les résultats, plus précisément les différences de performance, restent les mêmes. Une autre comparaison a été effectuée : chaque pays a classé la pertinence des items. Cela a été fait notamment pour la France, soucieuse de prendre en compte le "biais culturel". Or, sur ce point encore, les performances et le classement des pays sont globalement inchangés.
Sur toutes ces questions un rapport technique doit paraître au mois d'avril. Le souci de comparabilité de cette étude est très fort et il me semble que toutes les difficultés prévisibles sont largement prises en compte.
Les résultats peuvent d'ores et déjà faire l'objet de quelques remarques. Globalement les résultats de tous les pays se situent entre 9 et 11,5.
Les différences entre pays sont-elles importantes?
|
Différence des moyennes |
|
France vs Finlande (10,2 vs 11,5) |
|
France vs Portugal (10,2 vs 9,0) |
|
Allemagne vs Finlande (9,5 vs 11,5) |
|
France vs Etats-Unis (10,2 vs 10,1) |
|
55% des jeunes de 15 ans doivent augmenter leur performance d’un niveau (de compétence) pour que la performance de la France soit identique à celle de la Finlande |
Le classement "final" a été diversement reçu dans les pays. En France on a pu s'étonner de la faible différence de performance entre la France et les États-Unis. En Allemagne, la publication des résultats, très décevants pour ce pays, a créé une quasi crise constitutionnelle, puisque ce sont les Länder qui ont en charge le système éducatif.
On peut établir des comparaisons entre deux pays, par exemple la France et la Finlande, le pays qui est le mieux classé. Globalement, on peut constater que les Français devraient augmenter leur performance d'un niveau de compétence (approximativement 2,5 points sur une échelle de 20). C'est énorme ! Certes, on peut penser qu'il faudrait établir une comparaison similaire quelques années plus tard, par exemple lorsque les individus arrivent sur le marché du travail, vers 22 ans. Cependant il faut se rappeler qu'une étude portant sur les mathématiques et sciences avait été effectuée sur des élèves de classe de quatrième. Or les différences de performance entre les pays étaient déjà perceptibles en CM2. On peut alors penser que les écarts de performance ne concernent pas seulement un certain niveau des systèmes. Ils sont plutôt structurels. Ils semblent assez caractéristiques des systèmes éducatifs.
Essayons d'aborder maintenant les effets à terme. L'OCDE a procédé à une étude sur l'impact de l'éducation sur la croissance économique. Pour la première fois, on a pu mettre en évidence un tel impact. Tout le monde en est convaincu mais il est bien difficile de le démontrer. Or, ce qui est curieux, c'est que ce lien apparaît comme purement quantitatif. Il ne dépend que des années d'instruction, sans tenir compte de mesures de qualité. D'où l'idée que les effets à terme des différences de performances que révèle PISA n'impliquent pas forcément des différences dans les performances économiques à venir.
On peut aussi tenter d'évaluer l'importance des compétences cognitives, toujours sur le plan du développement économique. Si l'on note effectivement une corrélation entre le niveau de diplôme et les salaires, on a pu montrer aussi que les compétences cognitives ne rentrent que pour un tiers dans l'avantage accordé au diplôme sur le marché du travail.
Enfin, dernière question, pourquoi la France est-elle classée là où elle est, c'est-à-dire à un niveau comparable à celui des États-Unis ?
Il faut souligner que cela ne correspond pas à l'image que l'Éducation nationale française a d'elle-même, ni d’ailleurs à celle que les pays étrangers ont d'elle. Tout le monde sait par exemple que la formation initiale des enseignants français est solide.
Il existe certainement un effet générationnel. On sait qu’il y a corrélation entre le niveau d'instruction des parents, de la mère surtout, et les performances des enfants. On peut transposer cette remarque à l'échelle d'un pays. Si les performances des enfants portugais sont relativement faibles, c'est en partie dû au fait que le niveau d'instruction de la population dans son ensemble est faible.
Pour la France, les résultats sont inégaux selon les échelles de compétences évaluées. Les jeunes Français sont meilleurs pour le repérage d'une information dans un texte mais moins bons pour la réflexion. Les explications sont difficiles à trouver. On dit par exemple que l'enseignement français est trop académique, trop classique. Est-ce une explication possible ?
Jean-Claude Emin
(Jean-Claude Emin est sous-directeur à la sous-direction de l'évaluation de la Direction de la Programmation et du Développement (DPD) du ministère français de l'éducation)
Comment évaluer et qu’évalue-t-on ? Rappelons, cela n’est pas inutile, que pour une activité aussi complexe que l'enseignement, toute évaluation est forcément réductrice. L'étude de l'OCDE est donc tout à la fois très rigoureuse dans son élaboration et sa méthode et en même temps réductrice, comme toute évaluation.
Il faut regarder plus précisément ce que sont les compétences évaluées par PISA, et surtout rattacher ces compétences aux objectifs qu'on assigne au système éducatif. Disons-le clairement : PISA est dans une assez large mesure très loin des objectifs d'éducation en France. Ce qui est d'autant plus intéressant pour réfléchir sur le système éducatif. L'autre avantage de PISA est de permettre, à travers les instruments d'évaluation, de poser une série de questions, d'élaborer des hypothèses, d'interroger les pratiques, d’interroger l’attitude des élèves, etc.
Dernière remarque à propos des méthodes : que sont nos élèves de 15 ans ? Pour 48% ils sont en seconde générale et technologique, 5% en seconde professionnelle, 36% en troisième et 9% en quatrième. Les autres, 1 ou 2%, sont déjà en classe de première ou ailleurs. Mais le rapprochement des résultats de PISA et des données concernant les établissements fréquentés est une opération extrêmement délicate. Un exemple absurde: les classes de seconde sont plus chargées que les classes de troisième, les élèves de seconde obtiennent avec PISA de meilleurs résultats que les élèves de troisième pour des raisons évidentes, la corrélation entre ces deux éléments montrerait qu'il faut des classes chargées pour améliorer les résultats !
Voilà, entre autres, ce qui nous conduit à mettre un sérieux bémol à l’interprétation de ces résultats. Le ministère a rendu publique une brève étude sur les résultats français.
Isabelle Robin
Isabelle Robin est chargée de mission à la sous-direction de l'évaluation de la Direction de la Programmation et du Développement du ministère français de l'Education nationale, responsable de la partie compréhension de l'écrit de PISA
Voici quelques exemples. Le premier concerne la compétence "s'informer".
S'informer c’est mettre en œuvre des processus, correspondant à des opérations plus ou moins quotidiennes, comme prélever de l'écrit, prélever et organiser plusieurs éléments selon un ou plusieurs critères, prélever une information très explicite ou implicite dans un texte ou encore faire des inférences afin de procéder à un prélèvement. Toutes ces opérations correspondent à cinq niveaux de difficulté. C’est valable pour chaque compétence
Voici un exemple de niveau de difficulté 4 pour la compétence "s'informer" : Au quatrième niveau de cette compétence, on demande aux élèves de situer et d’organiser plusieurs informations dans un texte à la fois long et peu familier. Ces informations sont peu apparentes et doivent faire l’objet d’un traitement. On en trouve un exemple au quatrième item de l’exercice « Amanda et la duchesse », extrait d’une pièce de théâtre (Léocadia, de Jean ANOUILH) où il est demandé de se servir des indications scéniques pour localiser les acteurs sur le plan d’une scène de théâtre.
Les élèves doivent ici donner le nombre, et non le pourcentage, de personnes en âge de travailler, qui ne sont pas sur le marché du travail, en prenant en compte le fait que, comme l'indique une petite note, les chiffres sont exprimés en milliers d’individus. C’était une question ouverte. La notation est la suivante: le 0 correspond à une réponse fausse, le 1 à une réponse non satisfaisante, le 2 à une réponse parfaitement exacte, la non réponse est indiquée comme telle. Pour cet exercice, qui n’est pas une question d'écrit mais de prélèvement, à un haut niveau de difficulté, la France obtient un résultat tout à fait correct.
Il ne faut pas oublier que les trois types compétences ont été conçues pour traduire une certaine hiérarchie des difficultés. Or, nous verrons qu'il existe des raisons qui nous amènent à douter de la pertinence de cette hiérarchie.
Un exemple d'exercice portant sur la compétence "interpréter". Il s'agit de mettre plusieurs informations en perspective afin de construire un sens. Là encore cinq niveaux de difficulté apparaissent. Pour cet exemple il s'agit du niveau 4.
La question posée était un questionnaire à choix multiple et portait sur le sens véritable de la phrase : "Ensuite je m'occuperai de toi". Les élèves français s'en tirent plutôt bien pour une question relativement difficile dans la mesure où elle suppose un rapport au langage assez complexe.
Les compétences que je viens de commenter, s'informer et interpréter, peuvent être mises en rapport avec les objectifs explicites de l'enseignement en France. Elles sont traditionnellement évaluées, elles font l'essentiel de nos protocoles de rentrée puisqu'il s'agit de construire du sens sur le texte et d'accéder à l'implicite.
Mais PISA évalue aussi une compétence que nous évoquons peu en France. Nous l’avons appelée « réagir ». Le terme anglais est reflect. Il s'agit de réfléchir sur le contenu et sur la forme d'un texte. Il faut donc s'emparer des informations qui sont données pour créer, produire quelque chose, livrer un avis personnel, une réflexion, produire un raisonnement.
Un exemple : un tableau dense, plein d'informations. On attire l'attention des élèves sur l'Éthiopie, cas paradoxal puisque ce pays très pauvre n'a reçu aucune aide internationale, ou très peu. Il s'agit pour l'élève d'élaborer un raisonnement, de proposer une hypothèse pour résoudre ce paradoxe. C'est là certainement une des questions les plus difficiles que l'on puisse poser à un enfant. Par ailleurs, dépasser ce paradoxe suppose un certain bagage personnel. Sur cet item les résultats français sont identiques aux résultats de États-Unis, sensiblement inférieurs à la moyenne OCDE. Mais surtout les profils de réponse sont très différents entre la France et les États-Unis. La France présente très peu de réponses fausses (34%, contre 75% pour les États-Unis). Les élèves français ont plutôt préféré ne pas répondre. Il est vrai qu'en France, on préfère s'abstenir de répondre plutôt que de proposer une réponse hasardeuse, contrairement aux États-Unis. On verra plus loin qu'une partie non négligeable des élèves réussiraient s'ils osaient répondre. Des groupes passent directement de la non réponse à la bonne réponse. Retenons pour cet exemple qu'avec des "scores" équivalents, on peut avoir des caractéristiques tout à fait différentes. Globalement la France se distingue par des non réponses très nombreuses.
Par ailleurs il reste à s'interroger sur la hiérarchie des questions. Plus précisément : la façon dont on va pondérer une réponse ne va pas de soi. Un exemple : l'histoire du puma. On demande aux élèves s'ils considèrent que la fin de la nouvelle est appropriée. L'exercice consiste pour eux à justifier leur réponse en indiquant comment ils interprètent la dernière phrase en prenant appui sur le sens général du récit. Il s'agit donc d'établir une relation entre le texte dans son ensemble et la phrase conclusive. La réponse "attendue" était que le jambon, l'os rongé, symbolise l'existence. 13% des élèves ont répondu juste. Cette question était d'autant plus difficile que la fin du texte tenait beaucoup de l'ironie.
Un mot maintenant sur la hiérarchie des compétences. Si l'on suit les résultats globaux pour les trois compétences, une chose apparaît : le classement des pays est différent selon la compétence. Aussi, si l'on admet qu'il existe une hiérarchie de ces compétences, on devrait retrouver pour chaque compétence un classement identique par pays. Or, ce n'est pas le cas, comme on peut le constater avec les documents.
Les Français seraient meilleurs pour dégager des informations que pour réagir face un texte. Ils disposeraient donc de plus de compétences "techniques" que de compétences d'expression. Ce serait l'inverse pour la Grande-Bretagne. Notre hypothèse est alors qu'il existe d'autres variables, qui ne sont pas des compétences, et qui interviennent dans cette évaluation. Nous pouvons en évoquer trois :
- il peut y avoir un « effet support ». Deux textes ont été proposés par la France. Pour un de ces textes, on note que les résultats des élèves français sont significativement supérieurs à la moyenne de l'OCDE. Ils sont meilleurs pour les trois compétences évaluées, y compris donc pour la compétence "réagir" pour laquelle globalement la France obtient de mauvais résultats. Nous avons pensé que les élèves français étaient familiarisés avec ce type de texte et réalisaient donc de meilleures performances.
Par contre, un support assez étranger à ce qui est utilisé par les enseignants en France, comme celui de la campagne de vaccination, donne des résultats assez médiocres chez les élèves français.
On peut donc penser qu'il existe des supports favorables et d'autres qui ne le sont pas.
une deuxième explication pourrait
venir du format des questions. Si l'on croise les résultats avec le format des
questions, on peut voir en effet que les élèves français ont des résultats
faibles pour la compétence "réagir", plus particulièrement si la
réponse doit être rédigée. Lorsqu'un QCM est proposé, les résultats
français, toujours pour la compétence "réagir", sont meilleurs et
supérieurs à la moyenne OCDE. Il faut donc relativiser les mauvais résultats
des élèves français pour cette compétence.
la troisième explication serait
qu'il existe un effet venant de la tâche demandée. Les élèves français sont
particulièrement habiles lorsqu'il s'agit d'effectuer des tracés sur une
carte, un plan. Les trois exercices de ce type ont été très bien réussis.
Retenons donc pour conclure qu'il y a une difficulté pour les élèves français pour la compétence "réagir". Difficulté qui doit être selon nous interrogée en tenant compte du support et du format de la réponse demandée.
Claire Dupé
L'évaluation de la culture mathématique a été faite d'une part pour des compétences liées à des concepts de mathématiques pures (résolution de problème, mathématisation de problèmes, etc.), et d'autre part à partir de concepts mathématiques pouvant se rencontrer dans la vie courante (croissance, hasard, variation, etc.). Les mathématiques étaient une mineure de l'évaluation PISA de 2000, et les items sont donc peu nombreux. Ils permettent toutefois de dégager quelques points forts et d'autres plus faibles.
Des points forts tout d'abord en géométrie plane. En France, la géométrie plane est présente dès l'école primaire et son importance augmente pendant le cursus. Aussi la présentation de cet exercice est-elle relativement familière pour les élèves français, qui obtiennent le meilleur score.
Les différents exercices de lecture graphique comptent aussi parmi les bonnes performances des jeunes Français. On peut penser ici que l'utilisation de ce type de document dans d'autres disciplines (histoire, sciences de la vie et de la terre par exemple) a facilité la réussite des élèves français. On le constate avec un exercice comme celui du circuit automobile.
On retiendra que pour cet exercice les performances des garçons sont nettement supérieures à celles des filles.
Les points faibles sont apparus dans les situations numériques ou algébriques. On peut distinguer la résolution des équations des situations plus abstraites. C'est pour ces dernières que les résultats des jeunes Français sont les plus faibles. On le voit dans l'exercice sur les pommiers. On remarquera que la réponse à la question 2 n'est pas facilitée par la réponse à la première question. Situation à laquelle les élèves français ne sont pas habitués. La formulation de la question a pu les dérouter : "il existe une valeur de n pour laquelle le nombre de pommiers…" D'autant qu'on leur demande "d'expliquer" leur méthode, ce qui n'est pas une formulation particulièrement utilisée en mathématiques. On a dit que globalement ils n'étaient pas toujours à l'aise pour formuler par écrit une idée. Or beaucoup ont pu comprendre "expliquer" comme une invite à rédiger une justification de leur démarche. On attendait en fait plus simplement d'eux qu'ils "justifient" ou qu'ils écrivent leurs calculs.
Pour la troisième question ils devaient se prononcer sur la variété d'arbres qui pousseraient le plus vite. Beaucoup n'ont pas répondu, et beaucoup n'ont pas expliqué leur résultat.
On remarquera que les résultats à cet exercice sont en adéquation avec notre système scolaire. Pour simplifier : au collège on se contente d'introduire un certain nombre de notions essentielles et la diversité de l'activité mathématique est plutôt abordée dans le cadre du lycée.
Débat
Jean-Claude EMIN
Sur les objectifs de l'évaluation, il faut dire que le champ de ce que l'on a voulu évaluer n'était pas très scolaire. Les enquêtes précédentes étaient parties des programmes des différents pays pour définir des points communs permettant évaluations et comparaisons . Cela avait été très difficile pour les sciences et les mathématiques. Ici, l'attention a été portée sur les compétences, la capacité à mettre en œuvre des connaissances, plutôt que sur les connaissances elles-mêmes et sur les programmes. Dès lors la question se déplace légèrement. Elle est de savoir si le panel des compétences en question est un modèle, s’il représente ce qu'il faut atteindre. La réponse est évidemment de nature politique.
Par ailleurs, l'étude montre globalement que lorsque l'on interroge les élèves sur des questions ou des supports qui leur sont familiers, les résultats sont bons, satisfaisants. Pour le dire comme les anglo-saxons : l'exposition à l'apprentissage, cela marche. Ce que l'on fait faire à nos élèves à o’école est globalement acquis. Ce n'est pas inintéressant par rapport à notre système éducatif.
Ceci étant, l’étude pointe des difficultés qui sont à prendre en compte. Cette réflexion doit être menée de façon assez fine, et non par rapport à un quelconque palmarès.
Georges Lemaître
C'est à mon sens en effet ce dernier point qui fait tout l'intérêt des études internationales. Elles permettent de mettre en évidence des phénomènes que l'on ne peut voir autrement. C'est tout l'intérêt du comparatisme. Lorsque l'on sous-entend que l’OCDE ou qui que ce soit d’autre auraient un modèle qu’elle chercherait à imposer, cela n’a pas beaucoup de sens. L'OCDE n'a fait qu'impulser cette étude et les ministères des différents pays ont largement contribué à son élaboration.
Comment l'accord s'est-il fait sur les non réponses ? Comment a-t-on noté les réponses relatives à l'interprétation des textes littéraires qui divergeaient par rapport à celles qui étaient attendues ?
Isabelle ROBIN
La question est importante et soulève en effet beaucoup de difficultés. Les corrigés pour les questions ouvertes sont présentées sous la forme : "On admettra des réponses du type…". Ceci dit, la notation reste très délicate. Prenons un exemple. On demandait aux élèves de "réagir" à un document, une brochure sur laquelle apparaissent des seringues, et de dire si ce document était bien présenté. Deux exemples de réponses: "Non, les seringues ne rendent rien d'attrayant" ou "Oui, et les images sont bien choisies". La première réponse était créditée de deux points, le maximum, car il y a une relation explicite avec un élément du document. La deuxième n'était créditée d'aucun point car on a supposé qu'il n'y a pas eu d'évaluation de la photographie de la part de l'élève, tout au moins pas explicitement. Or on peut très bien penser que l'élève qui considère que les images sont bien choisies les juge en correcte relation avec le contenu du texte. Ici, à mon sens, la différence entre les deux réponses est extrêmement faible et ne justifie pas une telle différence de notation. Par ailleurs les consignes de codage, de notation, font parfois deux pages. Il est bien évidemment impossible de tout retenir, d'évaluer en toute rigueur les réponses des élèves. On peut à ce sujet signaler que certains correcteurs, notamment français, ont réagi, tant les pondérations ne correspondaient pas à nos habitudes nationales. Pour atténuer tout cela, les questions ouvertes ont fait l'objet d'une double voire d'une quadruple correction.
Jean-Yves Rochex
L’évaluation portait-elle vraiment seulement sur des compétences a-scolaires. Les exemples en mathématiques présentés renvoient pourtant tous à des compétences et connaissances scolaires ! S’agissant de la culture de l'écrit, les compétences choisies ne sont-elles pas d'un tel niveau de généralité qu’il est difficile de savoir de quoi l'on parle. Par exemple, saisir l'ironie relève-t-il de la même compétence, mais à un niveau supérieur, que saisir une information dans un texte ? Dans le même ordre d'idées, la question des formats de restitution renvoie en fait à des compétences différentes. Dès lors l'hypothèse de compétences générales et l'idée d'une évaluation de ces mêmes compétences émancipée des contextes scolaires est-elle vraiment pertinente ?
Isabelle ROBIN
Je partage pour une grande part votre position. Il y a effectivement une incertitude tout à fait perceptible dans la manière avec laquelle on a rangé les items.
Jean-Yves ROCHEX
Une incertitude ou un élément qui vient invalider partiellement les hypothèses ?
Jean-Claude EMIN
Ce qui est sûr, c’est qu’il faut être extrêmement précautionneux quant à des interprétations qui ne se feraient que sur des scores globaux résumés sur une échelle, comme si l'on était sur un vecteur unique de compétences totalement hiérarchisées. Ce n’est pas vrai.
Il est en effet exact de dire que, lorsqu'il faut répondre à une question en rédigeant et en argumentant, plusieurs compétences sont mobilisées.
Pierre Vrignaud
La première prudence n’est-elle pas d'éviter de réifier les résultats. On peut facilement en effet glisser à partir d'une construction, qui n'est pas sans qualité méthodologique par ailleurs, à des discussions sur une ou des compétences qui existeraient réellement.
On fait des évaluations depuis trente ans. Si on en discute aujourd'hui, c'est parce que l'OCDE s'en occupe. N’est-ce pas parce que l’évaluation devient un marché ? En même temps que l'on vend de l'évaluation, on vend du conseil, et peut-être même, au bout du compte, des systèmes éducatifs. Pourquoi certains items qui viennent de l'ancienne étude sur la littéracie des adultes ont-ils été maintenus ? Pourquoi ces mêmes items ont-ils été présentés tard un dimanche soir au moment où tout le monde reprenait son avion ? Ces items ne sont-ils pas là pour assurer des ancrages avec des enquêtes antérieures.
Certains organismes privés vont jusqu'à s'approprier des études publiques, y compris PISA. Forts de leur savoir-faire, ils proposent leur expertise à tous les ministres qui les écoutent.
Marie DURU-BELLA
Il me semble qu'il est nécessaire de rappeler que l’imperfection décelée chez PISA est inhérente à toute évaluation. On évalue bien nos élèves sans pour autant prétendre à une quelconque perfection. Il me semble que PISA apporte des renseignements importants à un autre niveau; celui des politiques éducatives. On remarque en effet que les élèves les plus faibles de certains pays font mieux que les bons élèves d'autres pays. Les élèves les plus défavorisés socialement de certains pays font mieux que les élèves les plus favorisés d'autres pays. De même, les pays les plus efficaces, en terme de moyenne, sont souvent les plus équitables, au sens où l'écart entre les mauvais et les bons élèves est faible. Ces éléments me semblent contrer un certain fatalisme de plus en plus répandu.
La difficulté avec PISA, selon moi, c'est qu'il ne s'agit que d'un point de départ. Il reste en effet, pour comprendre réellement les différences de performances des pays, de les resituer avec quelques données d'ensemble, macro, concernant les systèmes éducatifs en présence. Les pays les plus inégalitaires sont aussi les pays qui ont des établissements très typés socialement, qui ont des filières. Certes, comparaison n'est pas raison, mais c'est tout ce travail qui, me semble-t-il, reste à faire.
Georges Lemaître
Je suis tout à fait d'accord avec vous. Pour ne prendre qu'un seul sujet d'actualité en France, il me semble que PISA a enterré la remise en cause du collège unique. Les pays où il existe une différenciation précoce sont ceux qui connaissent les plus grandes inégalités.
Guy DREUX
Dans les exemples donnés, il apparaît assez clairement que pour répondre aux questions posées un minimum de connaissances sont nécessaires ou tout au moins facilitent grandement l'exercice. Or toutes les difficultés méthodologiques qui ont été évoquées ne sont-elles pas générées par le fait que, dès le départ, on a essayé de dissocier compétences et contenus, compétences et connaissances.
Isabelle ROBIN
L'objectif affiché est bien d'évaluer des compétences, pas des connaissances. Mais, en fait, ce sont bien des connaissances qui sont évaluées. C'est d'ailleurs ainsi que l'on peut comprendre les différences de performances entre les élèves de troisième et ceux de seconde. A l'évidence, ces derniers bénéficient d'un effet apprentissage que les autres n'ont évidemment pas.
Jean-Louis MARCHETTI
Il ne faut pas oublier qu'au-delà de la question de savoir si ce sont les connaissances ou les compétences qui sont évaluées, PISA est une évaluation des niveaux des systèmes éducatifs des différents pays. La preuve, c’est l'utilisation qui en est faite.
Du point de vue méthodologique, quelles références universelles a-t-on construites ? Pour pouvoir faire des comparaisons internationales il faut en effet de l'universel. Dès lors, quelle constatation peut-on faire ? Tout simplement que les élèves savent ce qu'on leur a appris, ce qui est d'ailleurs apparu pour certaines questions de mathématiques.
Tout cela, justement parce qu’on ne pose pas cette question, me semble participer d'un modèle social dont on estime qu'il a une vocation universelle. Dès lors il s'agit d'évaluer dans les systèmes éducatifs la capacité à produire des élèves conformes à ce modèle. Cette évaluation est tout imprégnée du souci de mesurer les compétences demandées par les employeurs.
Georges Lemaître
Contrairement à ce que l'on peut penser parfois, les pays intéressés par ce type d'évaluation ne sont pas forcément les plus proches du modèle social qui vient d’être évoqué. Les États-Unis par exemple sont plus intéressés par des évaluations de connaissances que par les compétences. Ce sont les pays nordiques qui sont les plus intéressés par les évaluations de compétences.
Elisabeth BAUTIER
Ce qui peut poser problème, c’est le fait qu’il est difficile de faire des inférences si le contenu de l’exercice est familier pour les uns et ne l’est pas pour les autres. On ne pourra jamais évaluer un raisonnement indépendamment du contexte. Ceci dit, nous avons grâce à PISA un énorme matériau. Qu’allons-nous en faire ? Une chose n’est pas tout à fait claire : on dit qu’on évalue des compétences ou des connaissances, peu importe pour ce qui me préoccupe ici, sans aller faire un détour par l’évaluation du système scolaire. Il faudrait cependant choisir : évaluer ce qui est utile pour vivre ou évaluer ce qui est enseigné. Ce qui est important aussi, ce sont les corrélations que l’on va faire, les interprétations que l’on va donner à partir de ce qui est disponible. Ce travail reste à faire. Là aussi il faudra distinguer entre ce qui relève du macro et des questions du type : qu’est-ce qui fait qu’un élève comprend quelque chose et réagit aux questions posées ?
Georges Lemaître
Nous n'en sommes qu'à la surface des choses. C'est dans l'année qui vient que seront publiés quatre rapports thématiques. Le premier portera sur le lien entre les milieux socio-économiques et les performances. Les informations sur les milieux socio-économiques partent de la déclaration des élèves sur la profession de leurs parents.
Thierry ROCHE
Il y a en effet une réalité : globalement, ce que l'on peut reprocher à PISA, ce sont les analyses. Par ailleurs les agrégations sont parfois problématiques. Les milieux socioprofessionnels en sont un bon exemple. L'OCDE établit une échelle unique pour hiérarchiser les professions. Dans ce cadre un boulanger, quel que soit son pays, se voit attribuer 53 points. C'est ensuite que l'on procèdera à une simple corrélation pour établir que les inégalités sociales devant ou face à l'école sont plus importantes dans tel pays que dans tel autre.
Jean-Claude EMIN
Il est clair que c'est avec la plus grande prudence qu'il faut manipuler les résultats. Les données elles-mêmes sont parfois incertaines. Par ailleurs poser, comme il vient d'être dit, une échelle unique de catégories socioprofessionnelles, valable pour tous les pays, est à l'évidence très problématique. Pour ne prendre qu'un exemple, nous savons tous que le statut et le salaire des enseignants sont extrêmement variables selon les pays.
Georges Lemaître
Sur tous ces points, il est possible de se mettre d'accord. Mais il faut bien dire que tous les phénomènes que l'on entend évaluer posent ces problèmes. Le chômage peut répondre à des définitions et des comptabilisations très différentes. Aussi, toutes les comparaisons internationales amènent des simplifications, des réductions, des approximations. Cela étant dit, à adopter une position trop rigoriste, on risque de ne plus rien étudier du tout. Il faut faire la part des choses pour rendre possibles certaines analyses.
Daniel RALLET
Il est clair que PISA représente un matériau très intéressant. Mais on peut être perplexe pour ce qui relève des analyses.
Si l'on met les Pays-Bas dans les pays anglo-saxons, on voit que la quasi totalité des conseillers techniques du programme sont anglo-saxons. Il n'y a qu'un seul Belge.
Par ailleurs, comme pour d'autres travaux, l'OCDE traitent de problèmes sociaux en ignorant la plupart des travaux sociologiques sur les domaines concernés. PISA paie, en termes de pertinence des problématiques et des questionnement, le prix de ces lacunes. Certaines corrélations effectuées sont d'un intérêt douteux. Est-il très utile par exemple de vérifier que les élèves absentéistes ont de moins bons résultats que les autres ?
Sur le plan méthodologique quelques questions peuvent être posées. Dans la deuxième partie de l'ouvrage il apparaît que les seules déclarations qui ont été recueillies sont celles des élèves et des chefs d'établissement. Les enseignants ne sont pas questionnés. On interroge les élèves sur les représentations qu'ils ont de la question qu'on leur pose et sur leurs comportements. Des confusions s'établissent alors, du type: "60% des élèves déclarent se servir chez eux d'un ordinateur, presque chaque jour". Or le taux d'équipement dans les pays de l'OCDE ne doit pas dépasser 30%. Comment dès lors peut-on affirmer que les élèves utilisent plus l'informatique chez eux qu'à l'école ? Cette affirmation se fait sur la base de statistiques qui à mon sens n'ont aucune fiabilité. De plus il y a beaucoup de biais culturels dans les questions posées.
Jean-Marie Maillard
Au Snes nous avons décidé de travailler sur le collège. Nous avons choisi d'étudier l'école danoise, présentée souvent comme un modèle de démocratisation, l'école allemande, ultra sélective, les écoles italienne et finlandaise.
On s'aperçoit qu'avec deux modèles d'organisation aussi différents que le modèle danois et le modèle allemand, PISA donne des résultats assez peu différents. Ce qui signifie en clair que lorsque l'on avance des hypothèses dites "macro" sur les systèmes éducatifs, il est impératif d'être extrêmement prudent. C'est l'ensemble des corrélations qu'il faut prendre en compte, y compris les situations des enseignants, ou la question des méthodes d'enseignement, etc. On peut ne pas être très surpris du grand nombre de non réponses des élèves français quand on voit à quel point, dans notre système, les réponses hors sujet sont pénalisées.
N’y a-t-il pas un décalage entre l'appréciation très prudente portée ici sur PISA ou les travaux similaires et les propos déjà tenus sur l'efficacité ou l'inefficacité des différents systèmes éducatifs ? Est-il bon de publier les résultats de l'étude, sans d’abord donner les précisions et réserves entendues ici ?
Jean-Claude EMIN
Nous avons essayé d'accompagner la publication de l'OCDE comme il vient d’être dit. Le ministère a fait un point de presse. Dans la notre présentation de PISA figuraient nos réserves Mais nous ne maîtrisons pas la plume des journalistes.
Lorsque Georges Lemaître dit que c'est l'ensemble des pays qui ont décidé de cette étude, il a parfaitement raison d'un point de vue institutionnel. Cependant, les compromis entre pays et les rapports de force au sein de l'OCDE existent. Il y a des débats très politiques autour de cela.
Il reste que la nature de cette étude, les comparaisons internationales sont indispensables pour progresser dans nos réflexions. Il ne s'agit certainement pas de tomber dans le piège du palmarès, mais le comparatisme est nécessaire. L'essentiel est alors de garder un esprit critique très fort sur les données de bases, sur les instruments de l'évaluation. Sans revenir sur le débat compétence / connaissance, il faut dire que PISA a comparé des choses qui ne sont nécessairement dans les programmes scolaires des pays au moment où on les regarde. Ceci dit, les jugements que l'on porte sont des jugements sur le système éducatif. L'idée n'est donc pas de faire un modèle, mais de prendre en compte les difficultés qui peuvent apparaître. Par exemple, pour la France, les difficultés d'expression écrite.
Enfin il faut bien rappeler que l'ampleur des écarts entre les pays est assez faible.