Pourquoi deux périodes de mesure changent tout

Une mesure unique indique votre situation actuelle. Deux mesures, espacées d'un intervalle de temps significatif et suivies d'une intervention ciblée, permettent de déterminer si un changement s'est réellement produit, dans quelle mesure et pourquoi. Cette distinction n'est pas purement sémantique. Elle correspond à la différence entre preuve et supposition, entre démonstration et croyance. Elle constitue le fondement scientifique de la conception en deux phases de l'analyse des données probantes.

Le problème de la ligne de base : on ne peut mesurer un changement sans point de départ

Cette affirmation paraît évidente. Pourtant, la grande majorité des programmes de formation et de développement, des séances de coaching et des interventions organisationnelles sont conçus, mis en œuvre et évalués sans point de référence. Un atelier est organisé. Les participants remplissent un questionnaire de satisfaction. L'animateur reçoit des retours positifs. L'organisation conclut à la réussite du programme. Rien de tout cela ne constitue une mesure du changement, car sans point de référence, il n'existe aucun élément permettant de comparer l'état post-intervention.

Le problème n'est pas que les organisations se désintéressent des résultats. La plupart s'en soucient. Le problème réside dans le fait qu'établir une base de référence valable exige des investissements : en temps, en méthodologie et en rigueur pour mesurer les résultats avant l'intervention, et non seulement après. Historiquement, les outils nécessaires à une évaluation rigoureuse étaient coûteux, lents et spécialisés. Résultat : le secteur de la formation et du développement a bâti toute une culture d'évaluation des programmes qui mesure la satisfaction (facile) plutôt que le changement de comportement (difficile).

89%

Les responsables de la formation et du développement ne peuvent pas prouver le retour sur investissement de leurs programmes à leur conseil d'administration La raison principale est l'absence de pré-mesure. Sans une évaluation de référence de phase 1, les évaluations de niveau 3 et 4 (Kirkpatrick) sont structurellement impossibles, quelle que soit la qualité de la conception ou de la mise en œuvre du programme.

Rapport HBR/Deloitte sur les tendances en matière de capital humain ; voir aussi Phillips, JJ (1997)

60 ans de sciences de l'évaluation : le modèle de recherche pré-post

En 1963, Donald Campbell et Julian Stanley publiaient « Experimental and Quasi-Experimental Designs for Research » , un article qui allait devenir le texte fondateur de la méthodologie d'évaluation. Campbell et Stanley établissaient une hiérarchie des plans de recherche selon leur capacité à produire des inférences causales valides : déterminer non seulement si un phénomène a changé, mais aussi si l'intervention en est la cause.

Au sommet de leur hiérarchie se trouvait le véritable protocole expérimental : répartition aléatoire, groupe témoin, mesures avant et après l’intervention. En dessous, on trouvait une série de protocoles quasi-expérimentaux adaptés aux situations réelles où une randomisation stricte est impossible. Tout en bas – et explicitement identifié comme incapable de permettre une inférence causale – se trouvait le protocole basé uniquement sur les mesures après l’intervention : mesurer les résultats après une intervention sans mesure initiale.

L'évaluation post-test est, structurellement, la plus courante aujourd'hui dans le domaine de l'évaluation de la formation et du développement. Les participants sont évalués après le programme. Les scores sont interprétés comme une preuve de l'impact du programme. Campbell et Stanley ont démontré, il y a plus de 60 ans, pourquoi cette interprétation est erronée : sans évaluation initiale, le score post-programme peut refléter des compétences préexistantes, une maturation naturelle, des événements passés ou tout autre facteur sans lien avec le programme lui-même.

« Le problème fondamental de l’évaluation des programmes n’est pas la mesure, mais l’absence de situation contrefactuelle. Sans savoir d’où les participants ont commencé, nous ne pouvons pas savoir où le programme les a menés. »

Campbell, DT et Stanley, JC (1963), Plans d'expériences et de quasi-expériences pour la recherche

Le cadre de Kirkpatrick-Phillips : pourquoi les niveaux 3 et 4 nécessitent deux points dans le temps

Le modèle d'évaluation à quatre niveaux de Donald Kirkpatrick, publié pour la première fois en 1959, demeure le cadre d'évaluation de la formation et du développement le plus utilisé au monde. Ces quatre niveaux mesurent la réaction (satisfaction des participants), l'apprentissage (acquisition des connaissances), le comportement (transfert des compétences au milieu de travail) et les résultats (impact organisationnel).

Les niveaux 1 et 2 peuvent être mesurés instantanément, immédiatement après un programme. Les niveaux 3 et 4, par définition, ne le peuvent pas. Le changement de comportement nécessite du temps pour se manifester et un point de comparaison. Les résultats requièrent un référentiel pour mesurer l'amélioration. La méthodologie ROI de Jack Phillips, qui ajoute un cinquième niveau (retour sur investissement), repose sur la même architecture pré-post que les niveaux 3 et 4 de Kirkpatrick.

Phase 1 — IMPACT

Mesure de référence

Établit le point de départ quantifié pour toutes les dimensions diagnostiques. Équivalent à l'évaluation préliminaire de niveau 2 de Kirkpatrick.

↓

4 à 6 mois

Phase 2 — DELTA

Mesure du changement

Quantifie l'écart par rapport à la valeur de référence de la phase 1. Permet le calcul des niveaux 3 et 4 de Kirkpatrick et du ROI de Phillips.

Le modèle PDA en deux phases constitue la mise en œuvre structurelle de ces données probantes issues de 60 ans d'expérience. La phase 1 (IMPACT) établit la situation de référence, c'est-à-dire le point de départ quantifié pour toutes les dimensions diagnostiques. La phase 2 (DELTA) mesure ces mêmes dimensions après des interventions ciblées et calcule la différence statistique. Le résultat correspond aux exigences des niveaux 3 et 4 de Kirkpatrick : une mesure valide, espacée dans le temps et comparable du changement.

Le problème de la régression vers la moyenne

Il existe une seconde raison, moins connue, pour laquelle les mesures ponctuelles peuvent induire en erreur : la régression vers la moyenne. Identifiée pour la première fois par Francis Galton en 1886 et formalisée en théorie statistique, la régression vers la moyenne décrit la tendance des mesures extrêmes à se rapprocher de la moyenne lors des mesures ultérieures, indépendamment de toute intervention.

Concrètement : si une équipe traverse une période de stress aigu au moment de l’évaluation, ses scores aux indicateurs de stress seront élevés. Si l’on procède à une nouvelle évaluation six mois plus tard – avec ou sans intervention –, ses scores seront généralement plus bas, tout simplement parce que les états de stress aigu ne durent pas indéfiniment. Un entraîneur qui intervient après une période de stress élevé et constate une amélioration six mois plus tard pourrait observer un retour naturel à la moyenne plutôt que l’effet de son coaching.

La seule façon de distinguer les effets réels d'une intervention de la régression naturelle vers la moyenne est de comparer le taux de variation à une norme validée, ou d'utiliser un plan expérimental intra-sujet qui suit l'évolution de la variation à plusieurs moments. La méthodologie en deux phases de PDA répond à cette problématique en établissant une valeur de référence ajustée à la population lors de la phase 1 et en mesurant la variation DELTA par rapport à cette référence ajustée lors de la phase 2, ce qui permet de séparer le signal d'une amélioration réelle du bruit dû aux fluctuations naturelles.

La fenêtre de 4 à 6 mois : pourquoi le timing est important

L'intervalle de 4 à 6 mois entre la phase 1 et la phase 2 n'est pas arbitraire. Il reflète la convergence de plusieurs axes de recherche indépendants sur les échelles de temps nécessaires à un changement comportemental et organisationnel significatif.

Les recherches de Bandura sur l'auto-efficacité (1977, 1997) démontrent qu'un changement comportemental durable nécessite des expériences de performance répétées — un processus qui se déroule généralement sur 3 à 6 mois dans un contexte organisationnel.
Les recherches d'Edmondson sur l'apprentissage en équipe (1999, 2018) montrent que la sécurité psychologique — l'une des dimensions les plus importantes que mesure le PDA — évolue grâce à un comportement de leadership soutenu au fil du temps, avec des changements significatifs généralement observables après 3 à 4 mois d'intervention constante.
Un intervalle trop court (moins de 3 mois) signifie que les interventions n'ont pas eu suffisamment de temps pour produire un changement comportemental observable. Les données de la phase 2 reflètent davantage le programme que les participants.
Un intervalle trop long (plus de 9 mois) introduit des variables confondantes — changements organisationnels, modifications de la composition de l'équipe, événements externes — qui rendent difficile l'attribution des changements observés à l'intervention.

La période de 4 à 6 mois permet une maturation optimale de l'intervention tout en minimisant les facteurs de confusion. Elle est suffisamment longue pour que de réels changements se manifestent et suffisamment courte pour maintenir l'attribution causale au programme.

Ce que les programmes en une seule phase ne peuvent pas prouver

Les conséquences de l'absence de mesure de la phase 2 ne sont pas théoriques. Elles sont vécues quotidiennement par les coachs et les professionnels des RH qui conçoivent d'excellents programmes, mais qui ne peuvent en justifier la valeur lors des discussions de renouvellement. Sans données de phase 2, les questions suivantes restent sans réponse étayée :

L’engagement s’est-il amélioré — et dans quelle mesure par rapport à notre point de départ ?
Le programme de coaching a-t-il permis de réduire l'écart de perception du leadership ?
Parmi les dimensions prioritaires identifiées lors de la phase 1, lesquelles ont effectivement réagi à l'intervention ?
Quel a été le retour sur investissement statistique de l'organisation dans ce programme ?
Devrions-nous relancer ce programme ? Et si oui, quels éléments ont entraîné le plus de changements ?

Il ne s'agit pas de questions complémentaires. Ce sont les questions que se posent les directeurs financiers, les conseils d'administration et les services achats lors du renouvellement d'un programme. Sans les données de la phase 2, la réponse à toutes ces questions est : « Nous estimons que le programme a été efficace. » Avec les données de la phase 2, la réponse est : « Les indicateurs de stress ont diminué de 41 %. L'engagement a progressé de 28 %. La perception du leadership s'est améliorée de 0,8 écart-type. Voici les éléments de preuve prêts à être présentés au conseil d'administration. »

L'avantage concurrentiel de la mesure

Pour les organisations et les coachs et consultants qui les accompagnent, la méthodologie en deux phases vise avant tout à obtenir un avantage concurrentiel. Les organisations capables de mesurer le retour sur investissement de leurs ressources humaines prennent de meilleures décisions quant à leurs investissements futurs. Les coachs et consultants qui peuvent démontrer un impact mesurable fidélisent leurs clients, obtiennent des recommandations et sont en mesure de facturer des honoraires plus élevés.

Paradoxalement, la plupart des obstacles à la mesure ne sont pas techniques, mais structurels. Historiquement, les outils nécessaires à la mise en place d'un cadre de mesure rigoureux avant et après intervention au niveau de l'équipe ont été coûteux, complexes et réservés à des spécialistes. La plateforme PDA lève ces obstacles, rendant ainsi accessible à toute équipe, quelle que soit sa taille, une mesure en deux phases, prête à être présentée au conseil d'administration, et pouvant être mise en œuvre par tout coach ou professionnel RH qualifié.

Les preuves scientifiques de l'importance de ce phénomène sont établies depuis 60 ans. Il ne manquait plus que les moyens de les mettre en œuvre.

Références scientifiques

Campbell, DT & Stanley, JC (1963). Plans d'expériences et de quasi-expériences pour la recherche. Houghton Mifflin.
Kirkpatrick, DL (1959). Techniques d'évaluation des programmes de formation. Journal of the American Society of Training Directors, 13, 3–9.
Phillips, JJ (1997). Retour sur investissement dans les programmes de formation et d'amélioration des performances. Butterworth-Heinemann.
Bandura, A. (1977). L'auto-efficacité : vers une théorie unificatrice du changement comportemental. Psychological Review, 84(2), 191–215.
Bandura, A. (1997). L'auto-efficacité : l'exercice du contrôle. Freeman.
Galton, F. (1886). Régression vers la médiocrité dans la stature héréditaire. Journal of the Anthropological Institute, 15, 246–263.
Edmondson, A. (1999). Sécurité psychologique et comportement d'apprentissage dans les équipes de travail. Administrative Science Quarterly, 44(2), 350–383.
Edmondson, A. (2018). L'organisation intrépide. Wiley.
Deloitte (2024). Tendances mondiales en matière de capital humain. Deloitte Insights.

Pourquoi deux périodes de mesurechangent tout