Résolution du problème des valeurs manquantes avec la fonction « Fill in null value » de Datama

Avez-vous déjà été confronté à des difficultés pour attribuer correctement des mesures à différentes dimensions lors de l’analyse des indicateurs de performance clés ?

Considérez le scénario suivant : vous disposez de deux tables distinctes. Le premier ventile les données de transaction par pays et par sexe de l’utilisateur. Le second détaille les ventes de produits et les revenus, segmentés par nom de produit et par pays.

Voici le défi : comment pouvez-vous évaluer de manière fiable l’impact du sexe de l’utilisateur sur le chiffre d’affaires pour différents noms de produits, lorsque le sexe n’est pas directement lié aux produits dans les données ?

Figure 1 Source

Prenons une autre situation courante dans l’analyse des performances du E-commerce . Supposons que vous disposiez de données agrégées fiables sur les sessions et les recettes provenant de vos systèmes dorsaux (voir figure 2). Ces données sont fiables et complètes, mais elles ne sont pas très flexibles.

Qu’en est-il si vous souhaitez analyser l’évolution de ces recettes réelles sur les appareils mobiles ? Contrairement à ce que vous obtenez de l’API de votre outil d’analyse Web préféré, comme Google Analytics (voir figure 3), qui fournit souvent des mesures de revenus mobiles qui ne correspondent pas tout à fait aux chiffres du back-end, vous êtes maintenant coincé avec un décalage. Alors, comment combler ce fossé pour obtenir des informations significatives et spécifiques à l’appareil à partir de votre source de données la plus précise ?

Figure 2 Source

Figure 3 Source

Au cœur de tous ces exemples se trouve un problème commun : la réattribution des mesures aux dimensions que vous souhaiteriez avoir, mais qui n’existent pas réellement dans la structure actuelle des données. L’étape clé pour relever ce défi est ce que nous appelons le « remplissage des valeurs nulles ».

Dans cet article, nous allons voir comment résoudre ce type de problème en utilisant Datama, en tirant parti de l’une des dernières fonctionnalités du bloc « Append » : la fonction Fill in Null Values. Cette fonction vous permet de redistribuer intelligemment une valeur agrégée ou mal alignée à travers les dimensions souhaitées – même lorsque ces dimensions ne sont pas entièrement remplies dans votre jeu de données – en remplissant les valeurs nulles à travers toutes les lignes pertinentes dans la colonne cible.

Conceptuellement, cette fonction marche en utilisant la distribution d’autres indicateurs disponibles déjà répartis selon la dimension que vous ciblez. Prenons notre premier exemple : si les transactions ne sont pas réparties par nom de produit, la quantité et le chiffre d’affaires le sont. Nous pouvons donc réattribuer les transactions par nom de produit en utilisant la distribution proportionnelle de la quantité ou du chiffre d’affaires, selon ce qui est le plus logique pour l’analyse. Cela permet de s’assurer que la distribution reste cohérente avec les modèles déjà présents dans vos données.

Dans les prochaines sections, nous démontrerons comment cela fonctionne en pratique en utilisant les deux cas d’usage que nous avons présentés plus tôt.

Cas d’usage 1 :

Concentrons-nous maintenant sur un cas spécifique : l’analyse de l’évolution des indicateurs clés de performance – à savoir le nombre d’achats, le nombre moyen de produits par achat et le prix moyen par produit vendu – pour le produit A entre le troisième et le quatrième trimestre.

Pour ce faire, nous commençons par établir une équation de marché dans la solution Datama Compare. Cette équation servira de base pour décomposer le changement de la performance globale en ses facteurs contributifs, nous aidant à isoler ce qui est à l’origine de l’évolution de chaque ICP au fil du temps. (en savoir plus sur Datama Compare) :

Figure 4

Pour que l’équation fonctionne, nous devons répartir les performances en fonction du sexe du client et du nom du produit pour toutes les mesures. Voici ce qu’il faut faire pour préparer les données.

Étape 1 : Réunir deux tableaux en un seul

Nous commençons par ajouter les deux tableaux non liés illustrés dans la figure 5 ci-dessus dans le bloc Datama Prep. Dans ce bloc, nous utilisons la fonction Append, conçue pour fusionner des ensembles de données qui n’ont pas de relation existante. Cette fonction nous permet de combiner les tableaux en un seul ensemble de données cohérent, en les alignant verticalement par l’empilement de lignes provenant des deux sources.

Figure 5

Nous avons ensuite une table qui a seulement fusionné toutes les lignes, mais qui n’a pas réattribué toutes les métriques dans toutes les dimensions :

Figure 6 Source

Étape 2 Remplir les valeurs nulles

Ce qui est magique, c’est qu’en activant la fonction « Fill in null value » à l’étape d’Append dans Datama, nous pouvons réattribuer les transactions à chaque ligne individuelle du nom du produit en utilisant la quantité comme clé d’attribution, et distribuer la quantité et le revenu par sexe du client sur la base de la proportion de transactions.

Figure 7

Étape 3 tableau réattribué

En cliquant sur « Apply », vous verrez immédiatement le tableau réattribué comme ci-dessous. Ici, la distribution de chaque pays et nom de produit est basée sur la quantité, et la répartition du sexe des clients pour chaque pays est basée sur les transactions. Ne soyez pas surpris par les nombres décimaux pour la quantité et les transactions, qui semblent hors de la logique, mais ils sont correctement pondérés. Si vous additionnez tous ces chiffres, vous obtiendrez le même total que précédemment (voir figure 6).

Nous disposons donc maintenant d’un tableau réattribué avec toutes les mesures disponibles pour chaque ligne de dimensions.

Figure 8 Source

Étape 4 Analyse Datama Compare

Ensuite, l’analyse facile dans Datama compare pour voir comment les changements de KPI (nombre d’achats, nombre moyen de produits par achat et prix moyen par produit vendu) ont eu un impact sur le chiffre d’affaires entre le troisième et le quatrième trimestre. Grâce à la flexibilité de la fonction de filtrage de Datama, nous pouvons facilement appliquer des filtres sur toutes les dimensions disponibles. Dans ce cas, nous filtrons simplement sur le produit A, ce qui garantit que notre analyse se concentre uniquement sur cette catégorie spécifique tout au long de la comparaison.

Figure 9

Du troisième au quatrième trimestre, nous observons une augmentation globale du chiffre d’affaires du produit A. Cette croissance est principalement due aux contributions des États-Unis et de la France. Cependant, le nombre moyen d’articles vendus par achat et la taille du panier moyen ont en fait diminué au cours de cette période.

Cas d’usage 2 :

Dans le second cas d’utilisation, nous travaillons avec des données fiables sur les sessions et les revenus provenant du back-end, toutes deux agrégées et dignes de confiance. Cependant, nous voulons décomposer les performances en utilisant des dimensions typiques de GA comme l’appareil ou le navigateur.

Par exemple, disons que nous voulons analyser l’évolution du chiffre d’affaires réel généré sur Mobile uniquement – pas seulement les chiffres rapportés directement par GA, qui peuvent souvent comporter des incohérences – mais la version corrigée pour s’aligner sur les données de back-end. Cela permet d’obtenir une vue plus précise et plus granulaire des performances sur l’ensemble des appareils, sur la base de données vérifiées.

Figure 10 Source

Pour ce faire, nous devons distribuer les sessions de l’IT (enregistrements de back-end) sur la base de la distribution GA et, de la même manière, les recettes de l’IT (enregistrements de back_end) sur la base de la distribution GA des recettes.

La démonstration étape par étape est la suivante :

Nous créons une équation de marché pour Datama compare :

Figure 11

Étape 1 : Réunir deux tableaux en un seul

Ajoutez deux sources et ajoutez-les ensemble et nous obtenons le tableau fusionné.

Figure 12

Figure 13 Source

Étape 2 Remplir les valeurs nulles

Faites correspondre les mesures respectivement de manière à ce que les sessions et les recettes agrégées soient réparties dans chaque ligne.

Figure 14

Étape 3 tableau réattribué

Vous obtiendrez immédiatement le tableau réattribué :

Figure 15 Source

Étape 4 Analyse Datama Compare

Enfin, en un seul clic, Datama vous permet de visualiser instantanément tous les changements dans les dimensions de GA entre deux périodes comparables. Que vous regardiez l’appareil, le navigateur, le pays ou toute autre dimension, vous obtenez une vue claire et structurée de ce qui est à l’origine des changements, ce qui rend l’analyse en profondeur plus rapide et beaucoup plus intuitive.

Figure 16

Nous pouvons constater que l’augmentation des recettes réelles est principalement due à l’amélioration du taux de conversion, en particulier du trafic provenant du navigateur Chrome. Bien que le taux de consentement ait eu un impact négatif sur les revenus, son effet n’a pas été aussi important que la contribution positive de l’amélioration du taux de conversion.

Conclusion

La fonction « Fill in null value » est particulièrement utile dans les cas où les données sont incomplètes, comme les valeurs manquantes ou les métriques non renseignées, car elle permet d’attribuer à chaque ligne une valeur proportionnelle, garantissant ainsi la cohérence et la précision de l’analyse. Cette fonction distribue les valeurs en fonction de la part des mesures disponibles, en veillant à ce que la réattribution maintienne une tendance similaire à celle des données existantes. Cette approche permet d’éviter la distorsion des données ou les analyses trompeuses, car elle préserve les proportions naturelles de l’ensemble de données tout en remplissant les valeurs manquantes. En tirant parti de cette méthode, nous pouvons obtenir une représentation plus équilibrée et plus précise des données sans gonfler ou fausser artificiellement les résultats.