L’Histoire du nombre magique 5 dans les tests d’utilisabilité

Le nombre magique 5 dans les tests utilisateurs

10 Août 2017 @ 11:20

Vous êtes-vous déjà demandé quelles sont les origines de la controverse de la taille de l’échantillon dans les métiers de l’utilisabilité ? Voici un petit historique des événements et des articles qui alimentent ce sujet.

L’ère pré-paléozoïque (jusqu’en 1982)

Ce sont les débuts de l’évaluation de l’utilisabilité et les premières recommandations pour découvrir des problèmes sont en train d'émerger.

 

1981 : Alphonse Chapanis et ses collègues proposent d’observer entre 5 et 6 utilisateurs pour que la plupart des problèmes soient détectés.

1982 : Souhaitant déterminer un échantillon plus précis que 5 ou 6 personnes, Jim Lewis publie un premier article qui explique comment la distribution binomiale peut être exploitée pour trouver la taille idéale de l’échantillon pour détecter les problèmes d’utilisabilité. Celle-ci se base sur la probabilité de découvrir un problème (p) sur un nombre de tâches données et sur un échantillon de personnes représentatif de la population utilisateurs (n).

L’âge sombre (1983-1989)

À cette époque, les groupes de rock étaient un peu partout, c’est pour cette raison qu’il n’y a rien eu de neuf sur le sujet.

L’explosion cambrienne (1990-1994)

L’usage des interfaces graphiques a explosé et le besoin de précision sur l'échantillonnage a généré de nombreux articles qui proposent également à leur tour d’utiliser la distribution binomiale pour évaluer la taille minimale de l’échantillon.

 

1990 : Robert Virzi détaille trois expériences lors d’une conférence à l’HFES. Dans son article, il dit explicitement utilisé la formule 1-(1-p)n qui est la même formule que celle pensée par Jim Lewis 8 ans plus tôt. Il publie un peu plus tard ses résultats en détail dans un article de 1992.

Plus on ajoute des utilisateurs, et moins ils apporteront de nouvelles informations.

Les 4 ou 5 premiers utilisateurs trouvent 80% des problèmes d’utilisabilité.

Les problèmes critiques sont susceptibles d’être détectés par les 1ers utilisateurs.

1991 : Wright et Monk ont aussi montré que la formule 1-(1-p)n peut être utilisée pour identifier la taille de l’échantillon pour des tests d’utilisabilité itératifs.

1993 : Jakob Nielsen et Tom Landauer ont découvert qu’un seul utilisateur ou un évaluateur heuristique détecte en moyenne 31% des problèmes. En utilisant la loi de Poisson, ils sont aussi arrivés à la formule 1-(1-p)n.

1994 : Jim Lewis se tenait dans le public de la conférence donnée par Robert Virzi durant l’HFES et il se demande comment la sévérité et la fréquence peuvent être associées. Son article de 1994 confirme la théorie avancée par Vinzi : les premiers utilisateurs trouvent la plupart des problèmes. Ses données ne montrent pas si la sévérité et la fréquence sont corrélées. Il se pourrait que les problèmes les plus importants soient plus faciles à détecter, ou bien il se pourrait qu’il soit très difficile de déterminer la sévérité sans être biaisé par la fréquence. Il y a eu très peu de publications à ce sujet depuis.

La bulle internet (1995-2000)

L’utilisabilité devient grand public et les gens sont trop occupés à surveiller les actions en bourse plutôt qu’à écrire sur l’échantillonnage.

 

2000 : Nielsen publie un article sur le web qui sera cité à grande échelle : “Pourquoi vous n’avez besoin que de tester avec cinq utilisateurs”. Cet article résume les recherches de la dernière décennie. Ses graphiques sont connus comme la “parabole de l’optimisme”.

La révolution (2001-2005)

2001 : Jared Spool et Will Schroeder montrent que des problèmes sérieux étaient encore découverts après une dizaine d’utilisateurs (contredisant les recherches de Virzi mais pas celles de Lewis). Cette théorie a été réaffirmée plus tard par Perfetti et Landesman. Contrairement à la majorité des études, ces auteurs ont utilisé des tâches ouvertes qui permettent aux utilisateurs de naviguer librement sur quatre sites web.

2001 : Caulton argumente sur le fait que plusieurs types d’utilisateurs trouveront les différents problèmes et il recommande d’ajouter un nouveau paramètre pour segmenter les utilisateurs.

2001 : Hertzum et Jacobsen avertissent sur le fait qu’estimer une fréquence moyenne des problèmes rencontrés dès les premiers utilisateurs ne sera pas pertinent puisqu’il y aura inflation.

2001 : Lewis corrige l’estimation moyenne des problèmes rencontrés dès les 2-4 premiers utilisateurs.

2001 : Woolrych et Cockton alimentent le débat en affirmant que les utilisateurs ne sont pas constamment affectés par les mêmes problèmes, une estimation d’une fréquence de problème (p) est donc erronée. À la place, ils établissent qu’un nouveau modèle doit être mis en place pour déterminer quelle est la distribution de la fréquence de problème.

2002 : Carl Turner, Jim Lewis et Jakob Nielsen répondent aux critiques de la formule 1-(1-p)n durant une table ronde à l’UPA en 2002.

2003 : Laura Faulkner montre également la variabilité des utilisateurs qui rencontrent des problèmes.. Alors qu’en moyenne, cinq utilisateurs trouvent 85% des problèmes dans son étude, les combinaisons entre des utilisateurs révèlent autant 55% des problèmes que 99%.

2003 : Dennis Wixon affirme que le nombre d’utilisateurs nécessaire pour détecter les problèmes est complètement hors sujet, l’accent devrait être mis non pas sur la détection, mais sur la correction des problèmes (la méthode RITE).

2003 : Une table ronde au CHI avec les principaux acteurs concernés débattent autour de la légitimité du “nombre magique 5”.

Clarifications (2006 - 2010)

 

2006 : Dans un article basé sur la table ronde à l’UPA, Carl Turner, Jim Lewis et Jakob Nielsen analysent les critiques faites sur la taille de l’échantillon de leur formule. Ils profitent de cet article pour expliquer comment cette formule doit et peut être légitimement utilisée.

2006 : Jim Lewis explique en détail que la taille de l'échantillon est “généralement déterminée avec des calculs mathématiques, et non pas par magie”. Il revient également sur les résultats de Spool et Schroeder qui peuvent être justifiés en estimant la valeur de p pour leur étude et en insérant cette valeur dans la formule 1-(1-p)n.

2007 : Gitte Lindgaard et Jarinee Chattratichart utilisent une évaluation comparative d’utilisabilité pour nous rappeler que si on change les tâches, les problèmes détectés seront différents.

2008 : En réponse à certaines demandes, Martin Schmettow propose la loi bêta-binomiale pour expliquer la variabilité dans la fréquence des problèmes.

2010 : Jeff Sauro a écrit un article sur la manière dont les calculs mathématiques aide à prédire la taille d’un échantillon et les mauvaises interprétations qui en sont tirées. L’article reprend les mises en garde faites durant la dernière décennie sur le nombre magique 5 :

Vous ne saurez pas si vous avez trouvé 85% de TOUS les problèmes, juste au moins 85% des problèmes évidents (ceux qui affectent au moins 31% des utilisateurs).

La formule de cet échantillonnage s’applique uniquement lorsque vous réalisez des tests utilisateurs d’une même population qui réalise les mêmes tâches sur la même application.

La bonne stratégie n'est pas d'essayer de deviner la fréquence moyenne des problèmes. À la place, il vaut mieux choisir une fréquence minimum de problème que vous voulez détecter (p) et la loi binomiale vous dira convient d’utilisateurs vous avez besoin d’observer pour avoir l’opportunité de détecter les problèmes.

Si vous utilisez cette approche pour déterminer la taille de votre échantillon, vous évitez le problème sur la variabilité de la fréquence de problème et vous n’avez pas à faire des hypothèses sur le nombre total de problèmes d’une interface.


Article librement traduit depuis : http://measuringu.com/five-history/
Illustration réalisée à partir de freepik

Publié par : - Classé dans : UI / UX (Design & Conception)
FBTwitterLinkedIn