Des données d’enquête aux premiers résultats

Une initiation à l’utilisation de R/RStudio à partir de l’enquête Envie

Claire Kersuzan (PUD-Bx, MSH-Bx/Univ. de Bordeaux, LifeObs/Ined)
Capucine Rauch (PUD-S, MISHA/Univ. de Strasbourg, LifeObs/Ined)
Maude Crouzet (SAGE/Univ. de Strasbourg)

Ce que nous allons faire durant cet atelier

À partir de l’enquête Envie :

comprendre comment des données sont construites ;
explorer le jeu de données Envie dans R/RStudio ;
lire et interpréter des variables ;
repoduire certains résultats d’un article scientifique ;
réfléchir aux choix méthodologiques derrière les chiffres.

L’objectif n’est pas de devenir spécialiste de R, mais d’apprendre à raisonner sur des données d’enquête.

Qui êtes-vous ?

Sondage Wooclap

Objectifs du sondage

mieux connaître le groupe ;
identifier les profils présents ;
repérer les outils utilisés ;
adapter le rythme et les explications de l’atelier.

L’objectif n’est pas d’évaluer les participant·es, mais de partir de vos expériences et pratiques.

Participer au sondage Wooclap

Discussion rapide

Que remarque-t-on dans le groupe ?

Quels mots reviennent le plus souvent dans le nuage de mots ?
Des disciplines proches ou très différentes ?
Des types de données similaires ?
Des approches variées ?
Des expériences très hétérogènes des statistiques ?
Certains outils dominent-ils ?

Cette diversité est fréquente dans les formations quantitatives en SHS.

Pas besoin d’être spécialiste de R

Retours d’étudiant·es et doctorant·es en SHS montrent souvent que :

les statistiques peuvent sembler techniques ;
R/RStudio peut paraître impressionnant ;
certaines personnes ont déjà eu des expériences difficiles avec ces outils.

Mais l’objectif de cet atelier n’est pas :

d’apprendre l’informatique ;
de devenir développeur·euse ;
de mémoriser des commandes.

Comment allons-nous travailler ?

L’atelier alternera :

courtes présentations ;
manipulations guidées ;
mini exercices ;
discussions collectives ;
interprétation de résultats.

Important

Les erreurs, hésitations et tâtonnements :

font partie du travail normal sur données.

Première partie

Entrer dans les données d’enquête

Produire, documenter et comprendre des données quantitatives

Comment les données d’enquête sont-elles construites et organisées ?

Objectifs

Comprendre :

comment une enquête produit des données ;
comment les catégories sont construites ;
comment lire une base et sa documentation ;
pourquoi les résultats statistiques dépendent aussi de choix méthodologiques.

Produire des données sur le social

Nous allons réfléchir :

aux possibilités et aux limites des données quantitatives ;
à ce qu’une enquête comme Envie cherche à mesurer ;
aux catégories utilisées pour décrire les relations ;
à la manière dont les données sont produites ;
aux choix méthodologiques derrière les résultats statistiques.

Avant d’interpréter un résultat statistique, il faut savoir d’où il vient.

I.1. À quoi peut servir une enquête quantitative ?

L’enquête Envie

Envie

enquête réalisée par l’Ined en 2022–2023 ;
10 021 jeunes adultes interrogé·es en France hexagonale ;
personnes âgées de 18 à 29 ans ;
enquête par questionnaire ;
centrée sur les trajectoires affectives, relationnelles et sexuelles.

Une spécificité importante

Envie adopte une approche centrée sur les relations (et pas uniquement sur la cohabitation ou sur les actes sexuels)

Exemple : des expériences individuelles…aux régularités statistiques

Dans un entretien, une personne peut raconter :

une rupture difficile ;
une rencontre importante / une relation particulière ;
une relation non définie ;
des usages particuliers des applications de rencontre.

Une enquête quantitative permet ensuite de demander :

Ces situations sont-elles fréquentes ?
Observe-t-on des différences selon les groupes sociaux ?
Certaines trajectoires sont-elles plus fréquentes que d’autres ?

→ Le quantitatif ne remplace pas les récits individuels : il permet de les situer dans un ensemble plus large.

Une enquête quantitative a aussi des limites

Une enquête :

simplifie des réalités complexes ;
repose sur des catégories ;
ne montre pas tout ;
dépend des questions posées ;
transforme des expériences en variables ;
ne permet pas, à elle seule, d’établir une causalité.

Résultats doivent toujours être interprétés
en tenant compte de la manière dont les données sont produites.

Quantitatif et qualitatif ne s’opposent pas forcément

Les approches qualitatives permettent souvent :

de comprendre les logiques d’action ;
les significations ;
les trajectoires ;
les expériences vécues.

Les enquêtes quantitatives permettent davantage :

de comparer ;
mesurer des écarts ;
observer des régularités ;
contextualiser certaines situations.

Beaucoup de recherches mobilisent aujourd’hui les deux approches.

I.2. Comment « mesurer » la vie affective et sexuelle ?

Mini discussion

Qu’est-ce qui vous semble le plus difficile à mesurer dans une enquête sur les relations affectives et sexuelles ?

Quelques pistes :

définir les catégories ?
poser certaines questions ?
obtenir des réponses sincères ?
représenter toute la diversité des situations ?
autre chose ?

Peut-on « mesurer » la vie affective et sexuelle ?

Que cherche-t-on exactement à mesurer ?

Comment définir statistiquement :

un couple ?
une histoire d’un soir ?
une relation suivie qui n’est pas un couple ?
une relation envisagée ?
le célibat ?

Avant de produire des chiffres, il faut définir ce que l’on cherche à mesurer.

À votre avis…

Dans une enquête statistique :

qu’est-ce qu’un « couple » ?

Quelques possibilités :

vivre ensemble ?
avoir des relations sexuelles ?
partager des sentiments ?
autre chose ?

Discussion

Peut-on imposer une seule définition ?

Il n’existe pas toujours une seule définition possible

Dans une enquête statistique, il faut souvent :

fixer des frontières ;
définir des catégories ;
regrouper des situations diverses ;
simplifier certaines réalités.

Ces opérations sont nécessaires pour mesurer un phénomène, mais elles ne sont pas neutres.

Mais :

les individus ne décrivent pas toujours leurs relations de la même manière ;
certaines situations restent difficiles à classer ;
certaines catégories peuvent être discutées.

Produire des données, ce n’est pas simplement enregistrer une réalité déjà là.
C’est aussi construire une manière de décrire cette réalité

Un choix méthodologique important dans Envie

Dans Envie :

Ce sont les enquêté·es qui définissent ce qu’ils et elles considèrent comme une relation.

Par exemple :

le couple n’est pas limité à la cohabitation ;
une « histoire d’un soir » n’est pas définie à l’avance par les chercheur·es.

Ce choix influence directement la manière dont les relations sont décrite et analysées.

Les données ne « parlent » jamais toutes seules

Les résultats statistiques dépendent :

des questions posées ;
des catégories retenues ;
des personnes interrogées ;
des traitements réalisés sur les données.

Une enquête ne photographie pas directement « la réalité ».

Elle produit une représentation de la réalité à partir de différents choix méthodologiques.

Comment fonctionne une enquête comme Envie ?

Dans cette sous-partie, nous allons voir :

comment une enquête est construite ;
ce qu’est un échantillon ;
ce que signifie la représentativité ;
pourquoi toutes les données ne se ressemblent pas.

II.1. Comment une enquête est-elle construite ?

Une enquête n’interroge presque jamais toute la population

Dans Envie, la population étudiée est :

les 18–29 ans résidant en France hexagonale

Question

Est-il possible d’interroger tous les jeunes adultes vivant en France ?

Dans la plupart des cas :

il est impossible d’interroger tout le monde.

Les enquêtes reposent donc sur un échantillon

C’est-à-dire :

un sous-ensemble de la population étudiée.

Activité — À votre avis…

Pour une enquête comme Envie :

comment contacter des jeunes adultes de 18–29 ans ?

Questions

faut-il disposer d’une liste complète ?
certaines personnes sont-elles plus difficiles à joindre ?
tout le monde répond-il facilement ?
certains sujets rendent-ils l’enquête plus difficile ?

Produire une enquête est beaucoup plus complexe que simplement distribuer un questionnaire

Comment les personnes ont-elles été contactées dans Envie ?

Envie a été réalisée :

par téléphone ;
entre 2022 et 2023 ;
auprès de plus de 10 000 jeunes adultes de 18–29 ans.

Particularité importante

Méthode appelée génération aléatoire de numéros de téléphone mobile

Pourquoi ?

Parce qu’il n’existe pas de liste complète et facilement mobilisable des jeunes adultes vivant en France.

Numéros générés aléatoirement

↓

Appels téléphoniques

↓

Vérification

18–29 ans ?
France hexagonale ?

↓

Questionnaire Envie

L’objectif : produire des résultats qui dépassent l’échantillon

Une enquête quantitative cherche généralement à :

produire des résultats qui ne concernent pas uniquement les personnes interrogées.

Par exemple :

décrire une population (ex : Quelle proportion de jeunes a été en couple au cours des 12 derniers mois ?);
comparer des groupes (Observe-t-on des différences selon l’âge ou le milieu social ?);
observer des régularités sociales.

Cela suppose :

un échantillon construit méthodiquement ;
des choix d’enquête rigoureux.

pour obtenir un échantillon représentatif

Représentatif ne veut pas dire “parfait”

Une enquête représentative cherche à :

obtenir un échantillon ressemblant le plus possible à la population étudiée.

Par exemple :

en âge,
en genre ou en milieu social, etc.

Mais :

certaines personnes répondent moins ;
certaines sont plus difficiles à joindre ;
certaines expériences restent moins visibles.

Une enquête représentative ne reproduit jamais parfaitement la population, mais cherche à s’en approcher.

Activité — Qui risque d’être moins présent dans une enquête ?

Quelles populations peuvent être :

plus difficiles à contacter ?
moins disponibles ?
moins enclines à répondre ?
moins visibles statistiquement ?

Quelques exemples :

personnes très précaires ;
jeunes très mobiles ;
personnes sans logement stable ;
personnes éloignées du numérique ;
personnes peu disponibles ;
personnes réticentes à parler de sujets intimes ;
certaines minorités sexuelles ou de genre.

Que se passe-t-il si certains groupes répondent davantage ?

Dans une enquête :

certaines populations répondent davantage ;
d’autres sont plus difficiles à contacter ;
certaines refusent plus souvent de participer.

Exemple dans Envie

Les jeunes les plus diplômé·es répondent davantage à l’enquête.

Conséquence

L’échantillon obtenu :

peut différer partiellement de la population des 18–29 ans vivant en France.

Question

Peut-on analyser directement les réponses ?
Les résultats décrivent-ils vraiment tous les jeunes ?
Comment peut-on essayer de corriger certains déséquilibres ?

II.2. La pondération

La pondération

Pour limiter certains déséquilibres :

les enquêtes utilisent souvent des pondérations
On associe un poids différent à chaque observation.

Concrètement :

certaines réponses ont un poids plus élevé (profils sous-représentés) ;
d’autres un poids plus faible dans les analyses (profils surreprésentés).

On ne modifie pas ce que les personnes ont déclaré dans l’enquête, on change l’importance accordée à chaque réponse dans le calcul d’un résultat statistique à partir de l’échantillon.

Exemple dans le fichier Envie

Le fichier contient une variable de pondération :

poidscal

Description numérique de la variable poidscal

Minimum	Médiane	Maximum
79	567	6113

Question

Pourquoi certaines réponses ont-elles un poids plus élevé que d’autres ?

Toutes les personnes interrogées ne représentent pas exactement le même nombre d’individus dans la population des jeunes de 18-29 ans.

Important : la pondération ne “corrige” pas tout

La pondération peut aider à corriger certains écarts :

âge ;
sexe ;
diplôme ;
région ;
etc.

Mais elle ne permet pas :

d’éliminer tous les biais (erreurs de mémoire, malentendus sur certaines questions, différences de définition entre personnes, etc.);
de mesurer ce qui n’a pas été observé ;
de rendre une enquête “parfaite”.

Une enquête reste toujours une approximation du réel.

Discussion rapide

Pourquoi peut-il être important d’utiliser les pondérations dans une enquête ?

Peut-on imaginer des situations où cela complique l’analyse ?

Il n’existe pas toujours une réponse unique.

L’utilisation des pondérations dépend notamment :

des objectifs ;
des analyses réalisées ;
du type d’enquête.

II.3. Toutes les données ne se ressemblent pas

Toutes les données ne montrent pas les mêmes choses

Les données quantitatives peuvent provenir :

d’enquêtes ;
de fichiers administratifs ;
de traces numériques ;
d’expérimentations ou mesures automatiques.

Important

Chaque type de données :

rend visibles certaines réalités et en invisibilise d’autres.

Activité — Applications de rencontre et types de données

Imaginons que l’on souhaite étudier :

les usages des applications de rencontre

Quels types de données quantitatives pourrait-on utiliser ?

une enquête ?
des traces numériques issues d’une ou plusieurs applications ?
plusieurs sources combinées ?

Questions

Que permettent-elles d’observer ?
Que risquent-elles de ne pas montrer ?
Quelles informations resteraient invisibles ?

Exemple : que peut-on observer ?

Enquête

usages déclarés ;
intentions ;
pratiques et perceptions ;
description du contexte relationnel ;
expériences subjectives.

Traces numériques

connexions et clics ;
messages ;
comportements enregistrés automatiquement ;
temporalités fines ;
profils et présentations de soi.

Attention

Les traces numériques ne sont pas plus “brutes” ou neutres que les données d’enquête.

Elles dépendent aussi :

des usages de la plateforme ;
des choix techniques ;
des informations enregistrées ;
des comportements observables.

Comprendre les données avant analyse

Dans cette sous-partie, nous allons voir :

comment lire un questionnaire ;
à quoi sert un dictionnaire des variables ;
comment fonctionnent les filtres ;
ce que signifient les valeurs manquantes ;
comment est structurée une base de données.

Une base de données ne “parle” jamais toute seule.

III.1. Que contient le jeu de données ?

Le fichier utilisé pour l’atelier n’est pas le fichier de recherche

Pour la plupart des enquêtes, plusieurs versions des données existent, par exemple :

FPA : fichier pédagogique anonymisé ;
FPR : fichier de recherche plus détaillé ;
certaines données peuvent être accessibles dans des environnements sécurisés.

Aujourd’hui

Nous travaillerons sur un FPA de l’enquête Envie.

Activité — Une donnée peut-elle devenir identifiable ?

Imaginons une personne :

âgée de 28 ans ;
vivant dans une petite commune rurale ;
exerçant une profession rare ;
ayant une trajectoire familiale inhabituelle.

Question

Sans nom ni prénom, pourrait-on reconnaître cette personne dans une base de données ?

Pourquoi anonymiser les données ?

Certaines informations peuvent permettre :

d’identifier indirectement une personne ;
de reconnaître une situation rare ;
de combiner plusieurs caractéristiques.

L’anonymisation vise à :

protéger les personnes enquêtées ;
limiter les risques de ré-identification ;
permettre une diffusion plus large des données.

III.2. Comment comprendre le jeu de données ?

Récupérer et ouvrir le dossier `materiel.zip`

Pour la suite de la séance, nous allons travailler à partir des documents contenus dans l’archive materiel.zip.

1. Rendez-vous sur :

https://kit-envie-diapo-2c76aa.gitpages.huma-num.fr/

2. Dans le menu « Documentation de l’enquête ENVIE », téléchargez le dossier materiel.zip.

3. Enregistrez-le à l’emplacement de votre choix puis décompressez-le (clic droit → Extraire tout).

4. Ouvrez le dossier obtenu.

Une documentation accompagne le FPA de l’enquête Envie

Le fichier pédagogique anonymisé (FPA) d’Envie est accompagné :

d’un questionnaire ;
d’un dictionnaire des variables ;
d’une note méthodologique sur l’anonymisation.

Cette note explique notamment :

les transformations réalisées ;
les regroupements de catégories ;
les procédures de brouillage ;
les limites d’utilisation du fichier.

Important

Le FPA a été anonymisé et modifié pour des usages pédagogiques.

Les résultats produits à partir de ce fichier ne peuvent donc pas être utilisés à des fins de recherche scientifique.

Une documentation accompagne le FPA de l’enquête Envie

Le fichier pédagogique anonymisé (FPA) d’Envie est accompagné :

d’un questionnaire ;
d’un dictionnaire des variables ;
d’une note méthodologique sur l’anonymisation.

Cette note explique notamment :

les transformations réalisées ;
les regroupements de catégories ;
les procédures de brouillage ;
les limites d’utilisation du fichier.

Important

Le FPA a été anonymisé et modifié pour des usages pédagogiques.

Les résultats produits à partir de ce fichier ne peuvent donc pas être utilisés à des fins de recherche scientifique.

Peut-on comprendre une variable en regardant uniquement son nom ?

Dans le fichier Envie, on trouve par exemple :

couple12M
genre_id
par_men_5
poidscal

Questions

Que signifient ces variables ?
Comment ont-elles été construites ?
Que mesurent-elles exactement ?

Le questionnaire

Le questionnaire permet notamment de comprendre :

la formulation exacte des questions ;
les modalités proposées ;
les filtres ;
la période de référence ;
l’ordre des questions.

Important

Une variable :

correspond toujours à une ou plusieurs questions précises du questionnaire.

Les filtres dans une enquête

Dans une enquête :

toutes les questions ne sont pas posées à tout le monde.

Certaines questions dépendent :

de l’âge ;
des réponses précédentes ;
de la situation relationnelle ;
du parcours des enquêté·es.

Conséquence

Une même variable :

peut ne concerner qu’une partie des personnes interrogées.

Exemple de filtre dans Envie

Variable :

r1_ex

Cette variable contient :

plus de 55 % de valeurs manquantes (NA).

Question

Ces valeurs correspondent-elles :

à des erreurs ?
à des oublis ?
ou à un filtre du questionnaire ?

Une valeur manquante peut avoir une signification méthodologique.

Le dictionnaire des variables

Le dictionnaire des variables permet notamment de connaître :

le libellé (sens) des variables ;
les modalités de réponse ;
les codes utilisés ;
les filtres ;
certaines variables construites.

C’est un outil indispensable lorsque l’on travaille à partir d’un fichier de données comportant des centaines de variables, y compris pour les équipes qui ont produit l’enquête.

Activité — Comment construit-on une variable ?

La variable couple12M ne correspond pas directement à une seule question du questionnaire.

Elle est construite à partir de plusieurs variables du questionnaire, notamment :

r1_act_rec
r1_ex

Questions

Que cherchent à mesurer ces questions ?
Quelle période de la vie est prise en compte ?
Pourquoi construire une nouvelle variable à partir de plusieurs questions ?

Une variable peut être construite à partir de plusieurs questions

Dans Envie, la variable couple12M sert à identifier :

les personnes ayant été en couple au cours des 12 derniers mois.

Pour la construire, plusieurs questions sont mobilisées :

r1_act_rec → être actuellement en couple ou non ;
r1_ex → pour les personnes qui ne sont pas actuellement en couple : avoir été en couple au cours des 12 derniers mois.

C’est la personne enquêtée qui définit ce qu’elle considère comme une relation de couple.

Le couple peut donc être :

cohabitant ou non ;
correspondre à d’autres configurations relationnelles.

Une variable statistique résulte souvent de plusieurs questions, filtres et choix de construction.

Activité — Comprendre `par_men_5`

La variable par_men_5 sert à décrire l’origine sociale des enquêté·es.

À partir du dictionnaire des codes, essayez de reconstituer la manière dont cette variable a été construite.

Cette variable :

n’existe pas “naturellement” ;
elle a été construite ;
à partir des PCS des parents;
puis regroupée en grandes catégories sociales (@amosseNewNomenclatureFrench2022).
- Exemple : Les catégories ménage employé·es/ouvrier·ères, ménages monoactifs employé·es/ouvrier·ères et ménages d’inactif·ves
- ont été regroupées dans : ménages à dominante populaire

`par_men_5` : une variable construite et regroupée

Questions

Pourquoi construire une nouvelle variable ?
Pourquoi regrouper les catégories ?
D’autres regroupements auraient-ils été possibles ?

Pourquoi construire une telle variable ?

prendre en compte les deux parents et mieux décrire le milieu social familial ;
produire des catégories plus lisibles et éviter certaines catégories très rares.

Une variable statistique résulte toujours de choix de construction, de regroupement et d’interprétation.

Les valeurs manquantes ne signifient pas toujours la même chose

Dans une enquête, une valeur manquante (NA) peut correspondre :

à un oubli ;
à un refus ;
à une difficulté de réponse ;
à un filtre du questionnaire ou à une situation “non concernée.

Dans le FPA Envie

Certaines situations différentes :

refus ;
non concerné ou question non posée ;

peuvent être regroupées sous la forme :

NA

Une valeur manquante peut avoir une signification méthodologique importante.

Les valeurs manquantes sont-elles toujours sans importance ?

Peut-on toujours :

supprimer les NA sans réfléchir ?
considérer qu’ils sont sans importance ?

Les valeurs manquantes peuvent :

résulter d’un filtre ;
correspondre à une non-réponse ;
concerner davantage certains groupes.

Les NA ne sont pas toujours répartis au hasard.

Avant d’analyser une variable, il faut comprendre ce qu’ils signifient.

Les questions ne portent pas toutes sur la même période

Dans Envie, certaines questions portent sur :

les 12 derniers mois ;
les premières expériences ;
la situation actuelle ;
certaines expériences “au cours de la vie”.

Exemple

Quelle différence entre :

“Actuellement, êtes-vous en couple ?”

et :

“Avez-vous été en couple au cours des 12 derniers mois, c’est-à-dire depuis [date de l’enquête – 12 mois] ?”

La période de référence influence fortement l’interprétation des réponses.

Activité — Lire une ligne du fichier Envie

À partir de cet extrait du fichier Envie :

essayez d’utiliser la documentation pour répondre aux questions suivantes :

ce que représentent les lignes ;
quelles variables décrivent les personnes ;
quelles variables semblent construites ;
quelles variables semblent techniques ;
à quoi correspondent les codes situés à l’intersection des lignes et des colonnes.

Une base de données ne “s’explique” jamais toute seule.

Deux questions à toujours se poser

Avant toute analyse :

Que mesure exactement cette variable ?

et :

Sur qui porte l’analyse ?

Ces deux questions permettent :

de mieux interpréter les résultats ;
d’éviter certaines erreurs ;
de comprendre les limites des analyses produites.

Comprendre les données ne vient pas après l’analyse statistique
mais fait partie intégrante du travail statistique.

Une enquête ne se résume jamais à un tableau

Derrière un fichier de données, il y a de nombreux choix :

un questionnaire ;
des catégories ;
des pondérations ;
des traitements ;
une documentation méthodologique.

Important

Un fichier de données :

ne peut pas être interprété correctement sans sa documentation, en particulier en cas d’usage “secondaire” des données.

Quantifier et catégoriser

Dans cette dernière sous-partie, nous allons réfléchir à :

à la manière dont les catégories sont construites ;
aux choix de codage ;
à leurs effets sur les résultats ;
à l’interprétation des données produites.

Avant de produire des statistiques, il faut définir ce qui sera catégoriser et transformer le social en variables.

Quantifier : transformer une réalité en données

Produire des statistiques implique de transformer le monde social en données:

définir ce que l’on veut mesurer ;
construire des catégories ;
regrouper certaines situations ;
transformer des réponses en variables.

Exemple

âge exact → classes d’âge ;
profession → PCS ;
relations → catégories relationnelles.

Avant de compter, il faut définir ce qui sera compter et catégoriser.
C’est une étape centrale de tout travail statistique

Activité — Peut-on tout catégoriser ?

Dans vos propres recherches :

quelles notions vous semblent faciles à mesurer ?
lesquelles semblent difficiles à faire entrer dans des catégories ?
certaines réalités risquent-elles d’être simplifiées ou invisibilisées ?

Quelques exemples

relations ;
identité ;
violences ;
émotions ;
trajectoires ;
pratiques sexuelles ;
bien-être.

Les catégories statistiques sont construites

Les catégories utilisées dans les enquêtes :

ne sont pas “naturelles” ;
dépendent des objectifs de recherche ;
reposent sur des choix méthodologiques.

Exemple avec Envie

Pour décrire les relations, l’enquête distingue par exemple :

couples ;
relations suivies ;
histoires d’un soir ;
relations envisagées.

D’autres catégories auraient été possibles (cohabitants / non cohabitants, relations exclusives / non exclusives, etc.) .

Les catégories sont des outils d’analyse, pas des découpages naturels du monde social

Les catégories sont aussi testées et discutées

Dans Envie, le questionnaire n’a pas été construit “d’un seul coup”.

Avant l’enquête principale :

des entretiens qualitatifs ont été réalisés ;
certaines questions ont été testées ;
une enquête pilote a été menée en 2021.

Les entretiens cognitifs ont notamment permis :

d’observer comment les personnes comprenaient les questions ;
d’identifier certaines ambiguïtés ;
d’ajuster les catégories et formulations utilisées.

Les catégories statistiques sont aussi le produit d’un travail empirique, de tests et de discussions méthodologiques.

Exemple : mesurer sexe et genre dans une enquête

Dans Envie, deux variables différentes existent :

sexid_rec → sexe à l’état civil ;
genre_id → genre déclaré.

Important

Ces deux variables :

ne mesurent pas exactement la même chose.

l’une correspond à une catégorie administrative ;
l’autre à la manière dont une personne se définit (auto-identification).

Discussion rapide

Selon vous :

obtient-on exactement les mêmes résultats avec ces deux variables ?
certaines situations deviennent-elles plus visibles ?
le choix de la variable peut-il influencer l’interprétation ?

Le choix d’une variable n’est jamais totalement neutre, et peut avoir des conséquences sur les résultats obtenus.

Ce choix dépend en général du phénomène étudié (ex : sexe pour des sujets liés à caractéristiques biologiques ou physiologiques comme la santé reproductive ou certaines maladies ; genre pour des sujets liés à discrimination, rôles sociaux, santé mentale, etc. )

Sexe et genre : des résultats proches, mais des logiques différentes

Dans Envie, les réponses sont très proches dans la majorité des cas :

plus de 98 % des personnes de sexe masculin à l’état civil se définissent comme hommes ;
plus de 97 % des personnes de sexe féminin à l’état civil se définissent comme femmes.

Important

Ces écarts restent statistiquement minoritaires,

mais cela ne signifie pas que les deux variables sont équivalentes, les 2 variables ne décrivent pas la même réalité :

le sexe à l’état civil correspond à une catégorie administrative ;
le genre déclaré repose sur une auto-identification.

Même lorsque les résultats sont proches, le choix de la variable influence ce que l’on observe et interprète.

Mesurer l’origine sociale : plusieurs possibilités

Dans Envie, plusieurs variables permettent de décrire l’origine sociale des jeunes :

PCS du père ;
PCS de la mère ;
variable construite par_men_5.

Mais :

ces variables ne décrivent pas exactement la même chose.

Démonstration — Les variables changent les résultats

Explorer l’application interactive (Utilisation recommandée sur ordinateur.)

https://kit-envie-2025-e6343a.gitpages.huma-num.fr/17_reflexivite.html#leffet-du-choix-de-lindicateur

Nous allons observer la proportion de jeunes ayant été en couple au cours des 12 derniers mois
en faisant varier la manière de mesurer l’origine sociale (PCS du ménage parental, PCS du père ou PCS de la mère)

Questions

Les écarts femmes/hommes sont-ils les mêmes ?
Les groupes les plus souvent en couple sont-ils similaires ?
Les interprétations changent-elles ?

Les résultats statistiques dépendent aussi des catégories utilisées.

Certaines catégories sont très peu représentées

Dans une enquête :

certaines modalités regroupent très peu de personnes ;
certaines situations sont rares ;
certains groupes peuvent être très minoritaires.

Conséquence

Des effectifs très faibles peuvent produire :

des résultats instables ;
des comparaisons fragiles ;
des difficultés d’interprétation ;
parfois des risques d’identification.

Une solution fréquente

regrouper certaines catégories pour obtenir des résultats plus robustes.

Les catégories simplifient… mais aussi parfois invisibilisent

Catégoriser permet de :

comparer les groupes sociaux ;
résumer ;
produire des statistiques.

Mais cela peut aussi :

masquer certaines trajectoires ;
invisibiliser certaines expériences ;
lisser certaines différences ;
imposer une manière de découper le monde social.

Catégoriser, c’est déjà interpréter. Les catégories résultent de choix méthodologiques et théoriques.

Avant de produire des statistiques, il faut toujours se demander comment les données et les catégories ont été construites. Les chiffres ne parlent jamais tout seuls, ils racontent aussi quelques chose des choix qui ont permis de les produire.

Synthèse

Activité de synthèse

À partir de ce que nous avons vu ce matin :

qu’est-ce qui vous semble important avant d’analyser une base de données ?
qu’est-ce qui vous paraît plus complexe qu’au début de la matinée ?
certaines variables vous semblent-elles plus “construites” qu’auparavant ?

Ce qu’il faut retenir de cette première matinée

Avant de produire des statistiques, il faut :

comprendre comment les données ont été produites ;
lire la documentation ;
identifier les filtres et catégories ;
réfléchir aux choix de codage ;
interpréter les résultats avec prudence.

Les catégories statistiques :

sont construites ;
influencent les résultats ;
peuvent rendre certaines situations plus ou moins visibles.

Les données d’enquête ne sont jamais de simples “chiffres bruts”.

Avant d’ouvrir R

Pour comprendre une variable, il faut souvent consulter :

le questionnaire ;
le dictionnaire des variables ;
les notes méthodologiques.

Dans l’après-midi, nous allons apprendre à relier :

les variables du fichier ;
leur documentation ;
les résultats produits.

Une base de données ne se lit jamais seule.

Transition vers l’après-midi

Nous allons maintenant commencer à travailler directement :

dans R et RStudio

L’objectif sera de :

ouvrir le projet Envie ;
explorer le fichier de données (FPA de l’enquête Envie);
retrouver certaines variables vues ce matin ;
se familiariser avec l’utilisation de R/RStudio ;
produire des premiers résultats.

Nous allons progressivement passer : des choix méthodologiques aux manipulations concrètes des données.

Ce que nous allons faire durant cet atelier

Objectifs du sondage

Participer au sondage Wooclap

Discussion rapide

Pas besoin d’être spécialiste de R

Comment allons-nous travailler ?

Première partie

Objectifs

Une enquête quantitative permet de regarder autrement le social

Exemple : des expériences individuelles…aux régularités statistiques

Une enquête quantitative a aussi des limites

Quantitatif et qualitatif ne s’opposent pas forcément

Mini discussion

Peut-on « mesurer » la vie affective et sexuelle ?

À votre avis…

Il n’existe pas toujours une seule définition possible

Un choix méthodologique important dans Envie

Les données ne « parlent » jamais toutes seules

Une enquête n’interroge presque jamais toute la population

Activité — À votre avis…

Comment les personnes ont-elles été contactées dans Envie ?

L’objectif : produire des résultats qui dépassent l’échantillon

Représentatif ne veut pas dire “parfait”

Activité — Qui risque d’être moins présent dans une enquête ?

Que se passe-t-il si certains groupes répondent davantage ?

Exemple dans Envie

La pondération

Exemple dans le fichier Envie

Important : la pondération ne “corrige” pas tout

Discussion rapide

Toutes les données ne montrent pas les mêmes choses

Activité — Applications de rencontre et types de données

Exemple : que peut-on observer ?

Enquête

Traces numériques

Le fichier utilisé pour l’atelier n’est pas le fichier de recherche

Activité — Une donnée peut-elle devenir identifiable ?

Pourquoi anonymiser les données ?

Récupérer et ouvrir le dossier materiel.zip

Une documentation accompagne le FPA de l’enquête Envie

Une documentation accompagne le FPA de l’enquête Envie

Peut-on comprendre une variable en regardant uniquement son nom ?

Le questionnaire

Les filtres dans une enquête

Exemple de filtre dans Envie

Le dictionnaire des variables

Activité — Comment construit-on une variable ?

Une variable peut être construite à partir de plusieurs questions

Activité — Comprendre par_men_5

par_men_5 : une variable construite et regroupée

Les valeurs manquantes ne signifient pas toujours la même chose

Les valeurs manquantes sont-elles toujours sans importance ?

Les questions ne portent pas toutes sur la même période

Activité — Lire une ligne du fichier Envie

Deux questions à toujours se poser

Une enquête ne se résume jamais à un tableau

Quantifier : transformer une réalité en données

Activité — Peut-on tout catégoriser ?

Les catégories statistiques sont construites

Les catégories sont aussi testées et discutées

Exemple : mesurer sexe et genre dans une enquête

Discussion rapide

Sexe et genre : des résultats proches, mais des logiques différentes

Mesurer l’origine sociale : plusieurs possibilités

Démonstration — Les variables changent les résultats

Certaines catégories sont très peu représentées

Les catégories simplifient… mais aussi parfois invisibilisent

Activité de synthèse

Ce qu’il faut retenir de cette première matinée

Avant d’ouvrir R

Transition vers l’après-midi

Récupérer et ouvrir le dossier `materiel.zip`

Activité — Comprendre `par_men_5`

`par_men_5` : une variable construite et regroupée