Echantillon
​
La pensée probabiliste n'a pas été théorisée pour penser l'aléatoire. Ou, pour être plus précis, pas pour penser l'aléatoire au sens d'un phénomène fondamentalement imprévisible qui se produirait "librement", ou indépendamment de toute chaîne causale. Les sciences empiriques n'envisagent d'ailleurs pas l'existence d'un tel alea fondamental - à l'exception notable de la mécanique quantique.
​
Les trois exemples les plus fréquents, dans les supports de cours visant à introduire la pensée probabiliste auprès des élèves de collège et lycée sont :
- Le tirage à pile ou face
- Le lancer de dé
- Le tirage au sort
Et aucun de ces dispositifs ne repose sur un alea fondamental, mais plutôt sur une part d'ignorance de la personne qui les manie.
​
Par convention, un tirage au sort nécessite une "main innocente", c'est-à-dire une personne qui ne connaît pas l'état de mélange du dispositif où elles s'apprête à piocher. La pièce et le dé, quant à eux, sont conçus de telle manière que le commun des mortels ne connaît pas les intrications causales entre les conditions de leur lancer et la position dans laquelle ils vont se stabiliser, une fois leur trajectoire terminée.
​
Si une personne venait à acquérir suffisamment de connaissances sur l'état d'un mélange (ou sur la balistique d'un dé) pour faire advenir l'issue de son choix, alors ces dispositifs ne fonctionneraient plus comme des générateurs d'aléatoire. Cela tend à montrer que c'est bien l'état de nos connaissances (ou plutôt de nos absences de connaissances) qui est à l'origine du caractère - aléatoire ou non - qu'on attribuera à ce genre de phénomène [1].
​
La pensée probabiliste permet alors de prolonger le raisonnement malgré cette zone d'ombre. Si je lance une pièce de monnaie dans mon dos, tant que je ne me suis pas retourné, je ne sais pas dans quel état la pièce s'est stabilisée. En revanche, je peux m'appuyer sur ce que je sais sur les lancers de pièces pour faire un pronostic. Par exemple, si j'ai assisté à des lancers avant celui-ci, peut-être ai-je pu constater que deux états ([pile] et [face]) représentaient l'écrasante majorité des issues. Peut-être ai-je pu constater que les états [pile] et [face] se produisaient approximativement en proportions égales, et que les autres issues ([cassé], [tranche], ....) étaient significativement plus rares.
​
La théorie des probabilités permet d'articuler ces données passées, et d'en extraire une prédiction sur ce que je verrai dans le futur, quand je me retournerai pour constater l'état de la pièce. Elle permet de faire un pas de plus [2] que le constat initial : "Je ne sais pas de quelle manière la pièce s'est stabilisée".
​
En quoi ce constat est-il intéressant pour les sciences humaines ? Je dirais que c'est parce que des sociologues sur un terrain voient rarement tout, et voient rarement tout le monde. Et, contrairement à un dé ou une pièce qui sont des dispositifs extrêmement simples et assez bien connus, les chercheurs et chercheuses de sciences humaines s'intéressent à des objets beaucoup plus complexes.
​
La zone d'ombre, l'endroit où nos connaissances s'arrêtent, on s'y heurte souvent. Et dans certains cas, il se pourrait qu'une utilisation judicieuse de la pensée probabiliste nous aide à faire un pas de plus.
​
LA QUESTION DE L'ECHANTILLONNAGE
​
Certaines modalités de la pensée probabiliste semblent déjà intégrées au regard sociologique, comme par exemple l'idée qu'observer un échantillon nous apprend quelque chose sur la totalité du groupe d'où on a extrait l'échantillon - y compris les secteurs du groupe qui ont échappé à notre regard.
​
Or les travaux monographiques de sociologie qui justifient la taille de leur échantillon par un argument mathématique semblent être très rares (je n'en ai personnellement jamais vu, mais est-ce que le corpus mes lectures forme un échantillon représentatif ?) Pourtant, la question de la généralisation de la connaissance d'une partie de domaine en une connaissance du domaine pourrait s'y poser aussi - et j'ai envie de dire "devrait s'y poser aussi" - au même titre que dans des enquêtes plus quantitatives.
​
Je souhaite donc proposer ici un outil rudimentaire pour relier la taille d'un échantillon, et le degré de confiance qu'on peut avoir en généralisant les propriétés de cet échantillon à la totalité du groupe. Toutefois, l'outil que je propose ne s'applique que sous les conditions suivantes :
​
1) Au moins une des questions qu'on se pose est de la forme "Quelle proportion de gens dans ce groupe remplissent le critère A ?" - ce qui devrait donc a minima concerner toutes les monographies qui utilisent des termes comme "majoritairement", "principalement", "une part importante", "ont tendance à", etc.
​
2) On connait le nombre de personnes qu'il y a dans le groupe.
​
3) On a déjà une vague idée a priori du pourcentage de personnes remplissant le critère A dans le groupe entier [3].
​
4) On va sélectionner notre échantillon au hasard; il est donc possible qu'on manque de chance, et qu'on tire au sort un échantillon ayant une proportion de [Personnes remplissant le critère A] très éloignée de la proportion qui existe au sein du groupe entier.
​
5) On veut qu'au moins 95% des manières de tirer au sort un échantillon nous donnent un résultat "pas trop éloigné" de la proportion présente dans le groupe entier. Autrement dit, on veut que seuls les 5% les plus "malchanceux" des scénarios de tirage soient à même de nous induire fortement en erreur.
​
6) On veut que la mesure "pas trop éloignée" qu'on va effectuer dans l'échantillon ait concrètement un écart de 1% (ou moins) avec le pourcentage réel au sein du groupe entier.
​
Si toutes ces conditions sont remplies, on peut calculer la taille de l’échantillon correspondant à partir de la formule dite « de Cochran », ou laisser le petit calculateur en bas de page le faire à notre place.
___
​
[1] Il semble que ce soit le cas pour tous les phénomènes se déroulant à notre échelle de complexité, c'est-à-dire à l'échelle macroscopique : aucun de ces phénomènes, même les plus opaques, ne semble relever d'une forme d'aléatoire plus fondamentale que les simples limites de la compréhension que nous en avons.
​
[2] Mais ce "pas supplémentaire" se fait au prix d'un degré d'abstraction qui semble nous éloigner légèrement du monde réel : je n'ai jamais vu aucun lancer se stabiliser "à 50% côté pile et à 50% côté face". La pièce probabiliste ne semble décrire aucun lancer pris individuellement.
​​
[3] Ce point peut être problématique si l'estimation a priori est très éloignée des réalités du terrain. L'outil que je propose ne protège pas contre les scénario du type : On remplit un saladier avec de l'eau de mer, on constate qu'il ne contient pas de baleine, et on en conclut que la mer ne contient pas de baleine.
Ce type de scénario est d'ailleurs un agrégat de plusieurs écueils méthodologiques, et ne se résume pas forcément à une mauvaise estimation de taille de récipient.
​
.
Posté le 30/03/2022