Data & analytics

Qu’est-ce que l’échantillonnage dans Google Analytics

Décryptez l’échantillonnage dans Google Analytics et ses principaux enjeux.

Quand se passe l’échantillonnage dans Google Analytics ?

L’échantillonnage est une technique statistique éprouvée. Les sondages politiques, par exemple, l’utilisent fréquemment pour donner les tendances globales. Comme il est impossible de questionner 100% des personnes de la cible visée, on interroge un sous-ensemble, c’est-à-dire un échantillon, censé représenter le groupe le plus large.

Par défaut, l’échantillonnage ne s’applique pas aux rapports standard de Google Analytics (Audience, Acquisition, Comportement, Conversions).

Par contre il peut avoir lieu dans le cas des rapports ponctuels – lorsque vous appliquez des segments (sélection d’un sous-ensemble de données – exemple : les utilisateurs sur mobile) ou filtrez vos rapports Google Analytics, ou encore si vous créez un rapport personnalisé avec une combinaison de dimensions et statistiques qui n’existent pas dans un rapport standard.

L’échantillonnage s’applique alors si le nombre de sessions (nombre de visites sur le site) pour la plage de dates que vous utilisez est supérieur à 500 000, ce qui n’est pas rare, notamment lorsque l’on commence à investir un peu en marketing. Dans Analytics 360, le seuil d’échantillonnage est fixé quant à lui à 100 millions de sessions.

En quoi l’échantillonnage peut-il être problématique ?

Si vous utilisez Google Analytics Standard, la question de l’échantillonnage des données peut vous hanter. La problématique ne se pose par contre pas si vous avez les moyens de vous payer Google Analytics 360 (seuil de sessions à 100 millions), la version premium de la solution, dont le ticket d’entrée est à 150 000$ par an.

Appuyons-nous sur un exemple concret pour mieux comprendre :

Supposons que nous ayons un site de 10 000 000 de sessions pour une période donnée.
Nous dirons que GA utilise 500 000 personnes comme taille d’échantillon.
Si nous faisons 10 000 000 / 500 000 = 20, nous trouvons le facteur d’échelle que GA utilise sur l’échantillon pour générer des totaux pour l’ensemble de la population.

Supposons ensuite qu’il y ait 1 000 sessions de la campagne X dans l’échantillon. Google Analytics prendrait 1 000 x 20 = 20 000 pour calculer le nombre total de sessions de ce canal.

Or le nombre réel peut être 19 325 ou 20 453. Il y a en fait une chance très minime que notre échantillon inclue les 1 000 sessions de la campagne X dans l’ensemble de la population. C’est ce qu’on appelle la marge d’erreur.

Plus la valeur du segment / filtre, etc. est petite par rapport au total, plus la marge d’erreur est grande, ce qui fausse l’exactitude des données de sessions, mais aussi et peut-être surtout celles des données de conversion : nombre de conversions total, volume d’affaires, taux de conversion attribué à chacun de mes canaux.

Comment, dans ce cas, être certain de la pertinence de mes investissements ?

Comment savoir si mes rapports sont échantillonnés ?

Il existe désormais un symbole – sorte de bouclier – d’échantillonnage qui change de couleur lorsque nos rapports sont échantillonnés. L’icône se trouve tout en haut de votre rapport, à côté du titre.

Si votre bouclier est vert, vous êtes bon! Pas d’échantillonnage ici.

 

Mais si votre bouclier est jaune, survolez-vous avec votre souris pour voir le niveau d’échantillonnage :

Des solutions existent à ce problème et permettent de garantir un portrait exact des données.

Anne-Marie Devillers, partenaire ISM.

Pour aller plus loin, formez-vous pour maîtriser les fonctionnalités majeures de Google Analytics.

Vous aimerez peut-être aussi