Survivre à commencer à penser à analyser ses données

Publié originalement le 9 octobre 2014

Cette semaine encore, je vais me servir d’un problème que je vis comme sujet. C’est pratique, car dans mon doctorat, j’ai des problèmes sur une base régulière. Donc, parlons analyses de données et plus précisément, ce terrible moment où l’on veut commencer, mais on ne sait pas trop par quel bout aborder la question. On peut diviser les tâches préparatoires en plusieurs étapes, à faire dans l’ordre ou dans le désordre.

Vérification des données

Vous avez récolté des données à la sueur de votre front. Si vous n’avez pas d’ordinateur de terrain, vous avez saisi les données (ou avez fait saisir les données… merci, étudiants au bac!). Prenez le temps nécessaire pour vérifier les données. Les problèmes d’importations des données dans les logiciels statistiques résultent souvent d’un manque de vérification. Pensez surtout à :

  • Comment sont saisies les données manquantes : un point, une case vide, un Na. Le choix dépendra de votre logiciel statistique.
  • Uniformisation des valeurs des variables catégoriques : par exemple, avez-vous toujours écrit Cassé lorsque vous rapportiez l’état de la tige d’un arbre, ou avez-vous aussi utilisé cassé et cassée?
  • Une virgule ou un point pour vos chiffres? Un détail qui bloque souvent lors du passage d’Excel à un logiciel statistique.
  • Erreurs potentielles dans le jeu de données : une valeur impossible, une date mal saisie, etc. Bien souvent, elles ne peuvent être détectées que par quelqu’un qui comprend bien le projet.

Revoir l’objectif des analyses

«Ben là ! C’est évident que j’ai déjà pensé à ce que je voulais analyser! »

Effectivement, vous savez probablement déjà quel type de conclusion vous voulez tirer de ces données. Et vous avez peut-être même décidé à l’avance quel type d’analyse effectuer (1). C’est quand même une excellente pratique que de réviser les décisions prise précédemment. De votre objectif découlent les variables que vous analyserez et le type d’analyse statistique utilisée.

Bien souvent, on récupère plus de données que ce dont on a besoin… commencez par analyser l’essentiel. Retournez aux décisions prises avant la collecte de données. Ça vous permettra de débuter les analyses. Vous pourrez toujours rajouter une couche de complexité par la suite.

Explorez vos données!

C’est une étape excitante! (2) Avant de procéder avec une analyse super complexe, vous devriez visualiser les données, graphiquement ou avec des statistiques descriptives comme les moyennes et écarts-types. J’avoue que j’ai tendance à sauter cette étape, surtout que mes analyses sont rarement complexes. Mais visualiser les données peut suggérer des analyses à faire, des variables à explorer…

L’exploration des données permet également d’éviter des problèmes statistiques. À ce sujet, Zuur et al. (2010) ont écrit un article brillant que je consulte régulièrement. Je vous le conseille et je me le conseille fortement.

Et maintenant?

Et maintenant, il faudra que je passe aux analyses en tant que telles. J’aimerais bien savoir si vous avez d’autres étapes à me suggérer!

(1) Sans cette décision préliminaire, c’est plutôt ardu de faire une bonne récolte de données. Comme le billet d’aujourd’hui s’adresse plutôt à l’analyse des données, je n’embarque pas dans la préparation du travail de collecte… ce sera pour une autre fois!

(2) Relativement excitante…

Zuur, A. F., E. N. Ieno et C. S. Elphick (2010). A protocol for data exploration to avoid common statistical problems. Methods in Ecology & Evolution 1: 3-14.