Testez nos solutions

La conception d’un test et sa validité psychométrique

Saven membre itc

Saven est désormais membre affilié de la prestigieuse association International Test Commission (ITC).

L'ITC regroupe des chercheurs en psychologie, des éditeurs de tests et des entreprises engagées dans la promotion d'outils d'évaluation objectifs et fiables.

Réunissant les plus grands experts de l'évaluation psychométrique, l'ITC est le garant au niveau international des meilleurs standards psychométriques et a pour objectif de promouvoir et de garantir les bonnes pratiques liées à l'évaluation psychologique.

Parce que tous les tests ne se valent pas, Saven est fière d'appartenir cette communauté d'experts et de promouvoir le développement et la création de tests fiables et non discriminants sur le marché français et international. 

Mais au fait, comment construit-on un test fiable ? C'est l'occasion de rappeler les grandes principes promus par l'ITC et comment Saven y répond.

 

Plus des deux tiers des entreprises européennes utilisent des tests d'évaluation dans leur procédure de recrutement, soit en présélection, soit en complément de l'entretien d'embauche (test de personnalité, test de compétences, test de mise en situation,...). Les tests sont également utilisés en orientation scolaire et professionnelle, de même qu'en bilan de compétences.

La multiplication des tests de personnalité et d'intelligence, accentuée par le phénomène Internet, ne doit pas faire oublier cette exigence de qualité spécifique à l'évaluation objective des individus.

Dans le processus de recrutement, les tests psychométriques offrent au recruteur l'avantage unique de mieux connaître les comportements du candidat en situation professionnelle. En complément de l'entretien d'embauche et de son CV, un test va permettre de valider un certain nombre de critères, tels que la capacité du candidat à s’engager durablement dans l’organisation ou ses capacités d'intégration à l'équipe.

Les résultats d'un test ne peuvent servir seuls de base décisionnelle, et doivent s'inscrire dans le cadre d'une évaluation globale d'un candidat par rapport à un poste donné, une culture d’entreprise donnée et un type de rôle proposé. Ces tests constituent un support d'échange lors de l'entretien, ils pourront démontrer si le candidat possède réellement les qualités nécessaires pour répondre aux exigences du poste à pourvoir ou encore les compétences comportementales pour s'orienter vers un métier particulier .

  • La conception d’untest comporte cinq étapes successives.

Cinq étapes successives sont recommandées pour construire un test.

1/ La définition des fonctions du test

Les usages d'un test déterminent ses caractéristiques. En effet, un test ne sera pas construit de la même façon selon qu'il est utilisé pour l'évaluation, le diagnostic, la certification, le positionnement en formation.

2/ La définition de ce que l'on souhaite mesurer.

Selon le concept que l'on souhaite évaluer, des dimensions sont définies et sur la base de cette définition, les questions pourront être construites.


3/ La création des questions. 

Les questions ne sont pas créés par des experts du domaine à évaluer ;  elles doivent, autant que faire se peut, utiliser le vocabulaire des individus qui auront à l’utiliser. Elles doivent aussi circonscrire toute les facettes de la dimension à évaluer.


4/ L'évaluation des questions. 

Des méthodes statistiques permettent de vérifier que les questions mesurent bien ce qu'elles sont censées mesurer. Les questions ne présentant pas des qualités métriques suffisantes sont éliminées, et remplacées par d’autres plus fiables.

5/ La détermination des propriétés psychométriques du test définitif

Statistiques descriptives de l'échantillon de référence, étalonnages, études de validité, fidélité, sensibilité sont alors effectuées afin de valider l'outil.

Tous les tests doivent faire l'objet d'une étude de validation statistique sur la base d'échantillons représentatifs. 

Cette cinquième étape est la plus importante et repose sur une méthodologie rigoureuse. Cette méthodologie dépend de trois qualités métrologiques : la fidélité, la sensibilité et la validité. Celles-ci sont garantes de la qualité des tests. 

  • Les trois métriques qui font la qualité d’un test 

 

1/. La fidélité du test 

La fidélité est le premier critère psychométrique qui permet de vérifier la qualité du test. Elle décrit la stabilité des résultats dans le temps. Autrement dit, les résultats d’un individu devront être identiques (ou marginalement différents) entre deux passassions. Cette fidélité appelée test-retest permet donc de vérifier que le test  apporte des résultats stables dans le temps. 

Cette qualité repose en grande partie sur la standardisation de la procédure, des conditions de passation et du contenu du test. La passation se faisant via internet, les biais sont réduits et la standardisation est meilleure (exemple : temps de passation chronométré).

Pour Saven et plus précisément pour le test Sight, la corrélation test-retest moyenne est de 0,83. 

La consistance interne est un deuxième outil de mesure de la fidélité qui indique à quel point les items sont similaires dans leur contenu (c’est-à-dire homogènes). On la mesure via l’alpha de Cronbach(valeur qui varie entre 0 et 1, plus on se rapproche de 1 plus le test est fiable). Concernant le test Sight, l’alpha de Cronbach moyen est de 0,83. 

L’alpha de Cronbach réduit teste la contribution de chaque question à l’échelle à laquelle elle appartient. 

2. La sensibilité du test 

La sensibilité est le deuxième critère psychométrique qui permet de prouver la qualité du test. Elle correspond à la finesse discriminative du test. Un test sensible permet de différencier les sujets. Par opposition, si toutes les personnes qui passent un test obtiennent des résultats similaires, ceci pose problème au moment de l’interprétation des résultats : on ne peut pas les différencier.

Pour Saven, cette qualité est importante puisque : 

Dans le recrutement, puisqu’elle va permettre de différencier les candidats à propos d’un même poste.

Dans l’orientation, puisqu’elle va permettre de déterminer le ou les secteur(s) d’activités les plus épanouissants pour la personne, ainsi que les typologies de métiers.

Dans l’insertion, puisqu’elle va permettre au professionnel de réaliser une prestation spécifique aux besoins de la personne.

Dans la formation,puisqu’elle va permettre de mieux comprendre le fonctionnement particulier de chaque stagiaire, et leurs priorités de progression.

La sensibilité est évaluée en testant la normalité de la distribution des scores de chaque question puis de chaque dimension. Cette normalité est testée en calculant les coefficients de Skewness (Asymétrie) et de Kurtosis (Aplatissement). Pour Sight, ces coefficients sont toujours inférieurs à la norme de 2.

3. La validité du test 

La plus importante des qualités métrologiques est sans doute celle de la validité. La validité est le troisième critère psychométrique permettant de prouver la qualité d’un test. Cette qualité renvoie au fait que le test mesure bien ce qu’il est censé mesurer. 

Il existe deux catégories de validité, celles qui mesurent :

3.a. - La validité interne :

La validité de construit: permet de mettre en évidence que le test mesure bien les schémas cognitifs liés à la réussite de carrière et qu’il reste fidèle aux théories sous-jacentes à son élaboration.

La validité de contenu: le contenu du test doit être représentatif de ce que ce test est censé mesurer. Cette validité repose sur une vision ensembliste des items composant le test. Ainsi, vouloir mesurer les schémas cognitifs qui déterminent les comportements prédicteurs de la performance au travail implique de pouvoir en donner une définition précise et d’en saisir les différentes composantes (relation au travail, relation aux autres, relation à la carrière, relation au marché du travail). 

3.b. - La validité externe :

La validité critérielle: elle repose sur l’utilisation d’un critère. On veut montrer la concordance entre les résultats du test et le critère sélectionné. Il en existe 4 types : validité empirique, concomitante, concurrente et prédictive. Mais celle qui nous intéresse davantage ici est la validité prédictive, puisque l’administration du test et le critère sont séparés d’un laps de temps. Pour le modèle Saven, ce critère va permettre de prédire :

Dans le recrutement, la performance d’un candidat pour le poste convoité, et sa capacité à s’intégrer et réussir dans son futur contexte professionnel. Pour Sight, les mesures sont fortement liées à l’évolution hiérarchique (F moyen = 3,6 et p < 0,001), à la rémunération (F moyen = 4,4 et p < 0,001)et à la performance dans le poste (F moyen = 5,6 et p < 0,001).

Dans l’orientation, l’adaptabilité et les prédispositions de la personne à son futur métier et contexte professionnel.

Dans le coaching, l’identification et/ou la clarification d’un mode de fonctionnement particulier, en vue d’un travail collaboratif avec le coach.

Dans la formation, le mode de fonctionnement des différents stagiaires, en vue de l’utiliser comme accélérateur d’acquisition des compétences.

4. Les biais à éviter

La majorité des tests, notamment ceux de la personnalité, sont sujets aux biais. S’ils sont pris en compte et neutralisés lors de la construction du test ils peuvent être évités. Chez Saven nous apportons une vigilance particulière au facteur de désirabilité sociale. 

La désirabilité sociale décrit la capacité d’un individu à manipuler ses réponses de façon à être perçu par les autres de manière favorable. C’est un biais très courant ; son élimination doit faire l’objet d’un soin méticuleux lors de la conception. Pour vérifier l’absence de ce biais, on demande aux mêmes sujets de répondre trois fois : une première fois spontanément, une deuxième fois « comme s’ils voulaient se faire mal voir » et, enfin, une troisième fois « comme s’ils voulaient se faire bien voir. » Le test est dépourvu de biais de désirabilité si les trois passassions apportent des résultats identiques ou marginalement différents.

Pour Sight, la corrélation condition neutre / condition présentation positive moyenne est de 0,82 ; la corrélation condition neutre / condition présentation négative moyenne est de 0,79. Enfin, la corrélation condition présentation positive / condition présentation négative moyenne est de 0,76.