Entre votre équipe de données et les informations, les données doivent être transformées, lavées et leur qualité garantie. Cette tâche, au milieu des équipes de données et des analystes, a longtemps manqué d’un propriétaire clair.
En réponse à ce problème, Analytics Engineering est apparu comme un rôle et dbt en tant qu’outil populaire. Ici, nous passons en revue les deux.
A lire aussi : Quels sont les avantages concurrentiels d'Apple ?
Ces dernières années, bon nombre d’entre eux ont investi massivement dans leurs capacités de données et d’analyse. Les ingénieurs de données ont embauché ou loué, des pipelines de données ont été configurés, les entrepôts de données et les lacs de données ont été remplis de grandes quantités de données.
Tout le monde a fait son travail. Maintenant, nous avons enfin la date. Détendez-vous sur n’importe quelle coupe de gazon de visualisation (Tableau semble populaire) et commencez à analyser ! Désormais, nous sommes axés sur les données ! Eh bien, pas vraiment.
A lire en complément : Qu'est-ce-que le secteur du transport et de la logistique ?
Le parcours vers un avenir axé sur les données, expérimentant et toujours en apprentissage, dont de nombreuses entreprises rêvent aujourd’hui, se situe souvent entre l’équipe chargée des données et les consommateurs (données analystes/scientifiques/produits axés sur les données).
Avant que vos données ne soient utiles aux décideurs politiques, aux produits et aux employés analytiques, elles doivent être transformées et lavées encore quelques fois dans tous les cas intéressants. Il doit être adapté à son contexte, mis à disposition et qualité assurée afin de créer de la valeur.
Plan de l'article
- Défis liés à la façon dont nous utilisons les données aujourd’hui
- De l’ingénierie des données à l’ingénierie analytique
- La dette, hein ? Oui. À quoi ça sert ?
- Où dbt effectue un travail dans la transformation de vos données (bleu clair) Transformation testable, gérée en version et documentée
- Graphe acyclique dirigé (DAY) sur la façon dont la transformation se raccroche (Photo : getdbt.com) Collaborez avec SQL en tant qu’interface
- Puissant avec sa plateforme cloud
- Open Source
- Inconvénients et alternatives
- Il ne couvre également que le T (Transformation) dans l’ETL. Vous avez besoin d’autres solutions pour extraire et charger les données dont vous disposez clairement. D’autres entreprises et options open source commencent à plonger dans la pratique au sein de l’E et du L, mais dbt n’en fait pas partie. Airbyte et Hightouch sont deux options que nous testons actuellement, mais il existe presque autant d’options que d’entreprises gourmandes en données. Vous avez besoin de parler davantage de démocratisation des données, de la dette ou de quoi que ce soit d’autre ?
Défis liés à la façon dont nous utilisons les données aujourd’hui
Les données brutes ne sont pas prêtes à être analysées
Pour tirer parti de toutes les données que vous vous asseyez et appuyez, elles doivent être lavées, enrichies et compilées. Cette tâche est souvent confiée aux ingénieurs de données, mais il devient rapidement évident que cela ne génère pas beaucoup de valeur par sou. Ils sont un peu trop loin de l’accord et ne touchent souvent qu’à moitié droite avec les agrégats qu’ils font ressortir. Il semble toujours manquer certains numéros de dimensions ou de mesures. Lorsque votre équipe d’ingénierie des données est déjà complète, les propriétaires de produits, les analystes, les scientifiques des données et d’autres personnes commencent maintenant à poser des questions auquel vos données ne sont pas encore prêtes à répondre.
Q : Donnez-moi tous les utilisateurs qui ont quitté le service le mois dernier.
Réponse : Disponible dans le lac (de données)
Data Wash est un grand voleur
Il commence presque à devenir une vérité : 80 % du temps de travail d’un analyste/scientifique de données est consacré au débogage et au lavage des données. Si ce n’est pas le cas pour vous en ce moment, le risque est que vous soyez en train de faire face à un ravage de travaux planifiés mis en place pour éteindre des incendies d’analyse d’urgence et ensuite rester à la traîne. Quand quelque chose veut être ajouté, modifié ou expliqué, il ne fait que sauter dans le lac de données fleuri d’algues.
Les raccourcis deviennent des routes tardives
Il existe une pléthore de routes et d’outils pour améliorer l’impact et la qualité de leurs données. Comme pour beaucoup d’autres choses, les choix routiers sont importants pour votre capacité actuelle et surtout future à générer de la valeur. Il s’agit d’un équilibre entre des hacks créateurs de valeur rapides et des solutions évolutives à long terme.
Assez réel beaucoup commencent par investir dans le remplissage de leurs plates-formes de données avec des données. Après cela, on s’appuie sur n’importe quelle interface de visualisation très puissante pour extraire les informations. Malheureusement, cela devient rarement le cas.
Souvent, une usure interne se produit entre une entreprise qui souhaite obtenir des informations, de préférence hier, et des équipes de données qui cherchent à créer des données stables et évolutives.
Dans la frustration de l’attente, des personnes plus ou moins avisées des données et du contexte commencent à résoudre les problèmes à leur manière. Il configure vos propres spins, tâches planifiées et agrège ici et là autour de vos données.
C’est un effort fantastique qui crée du bien avec de la valeur à court terme. Malheureusement, elle a un coût à plus long terme. Maintenant, vous êtes assis avec des données éparses et incohérentes qui disent différentes choses en fonction de la personne que vous demandez. En outre, une dépendance de personnes est créée, où quelques personnes savent comment différents chiffres de mesure ont été piratés.
Bien sûr, ça ne devrait pas l’être. Bien sûr, ce sujet a été très discuté parmi les geeks de l’informatique ces dernières années.
De l’ingénierie des données à l’ingénierie analytique
D’accord, nous devons donc trouver des moyens plus efficaces de transformer nos données afin qu’un plus grand nombre de personnes puissent les utiliser. De plus, nous devons le faire de manière stable et évolutive. Comment allons-nous faire alors ?
Une solution vers laquelle beaucoup se tournent consiste à examiner comment des problèmes similaires sont résolus dans le développement traditionnel. La plupart des analystes peuvent disposer de suffisamment de SQL pour assurer le libre-service des requêtes les plus complexes.
Les fondements de la démocratisation des données :
- Pertinent et aligné sur le contexte
- Disponible lorsque des décisions critiques doivent être prises
- Qualité assurée
- Cohérent et transparent dans toute l’organisation
Il est tout à fait juste d’adopter une approche allégée et, dans certains cas, de créer des solutions rapides avant des modèles évolutifs. La suppression complète des expériences rapides n’est absolument pas la voie à suivre. Bien entendu, de nouvelles idées sur les points de mesure et les analyses devraient être encouragées. Toutefois, dès que vous voyez de la valeur, les deux derniers points ci-dessus deviennent critiques pour permettre une valeur récurrente à plus long terme.
Vous souhaitez en savoir plus sur la façon dont vous avez jeté les bases de la démocratisation de vos données ? Sayer sur notre webinaire !
La qualité crée la confiance
Sans la qualité de vos données, la confiance est rapidement perdue. La couverture humide sur votre élan axé sur les données est une peine à défaire. L’ingénierie analytique garantit que les données sous-jacentes à vos rapports, tableaux de bord, analyses et apprentissage automatique sont exactes et de qualité garantie.
Collaborez pour obtenir des données cohérentes
Un ingénieur analytique collabore de différentes manières avec des ingénieurs de données, des scientifiques et des analystes. Avec l’équipe de données les problèmes liés à l’infrastructure et aux données collectées peuvent être discutés et optimisés. Avec les scientifiques et les analystes, la capacité de la date à faire avancer l’accord est constamment poussée. Plus ou moins ensemble, ces deux rôles/fonctions fonctionnent pour assurer la qualité et affiner la transformation des données.
En collaboration avec des scientifiques et des analystes de données, un ingénieur analytique travaille à traduire les besoins de modélisation des données en meilleures pratiques issues du développement de logiciels. Au-delà de cela, on souhaite trouver des rationalisations sous la forme d’outils et d’interfaces pour que les analystes puissent se concentrer sur la recherche d’informations créatrices de valeur.
Vous ne voulez pas être dans le siège où le même point de mesure apparaît différemment en fonction de la personne dans l’organisation à laquelle vous demandez. Pour obtenir des données cohérentes, vous devez collaborer à l’échelle de l’organisation. Appliquer le meilleur de la façon dont nous collaborons au développement de produits « grand public » permet de démocratiser vos données et d’obtenir des informations plus rapides.
Un outil qui couvre et facilite une grande partie des lacunes que l’ingénierie analytique veut résoudre est dbt (outil de génération de données). Plusieurs clients de Significs et (des entreprises telles que Hubspot, Gitlab et The Telegraph et d’autres) utilisent dbt.
La dette, hein ? Oui. À quoi ça sert ?
Développé par Fishtown Analytics, Dbt est apparu au cours des deux ou trois dernières années comme la nouvelle technologie de ce que nous appelons l’ingénierie analytique. Chez Signific, nous qui l’avons utilisé ne pouvons que syntoniser le refrain hommage.
La fonction principale de dbt est de prendre du code, de le compiler en SQL et de l’exécuter sur votre base de données. En soi, cela semble assez basique, mais il y a plus à faire.
La Dbt prend la plus grande retenue globale sur le T dans l’ETL. Avec dbt, les entreprises peuvent configurer la transformation de leurs données à l’aide de requêtes. De plus, le flux de requêtes est orchestré de manière très fluide. Il s’agit d’un outil relativement nouveau, mais plus de 300 entreprises (et plusieurs clients importants) bénéficient déjà des avantages et des opportunités dbt donne.
Où dbt effectue un travail dans la transformation de vos données (bleu clair) Transformation testable, gérée en version et documentée
L’un des aspects les plus agréables de la dbt est la facilité avec laquelle il est possible de gérer la transformation en tant que produit réel.
Avec les modèles DBT, vous pouvez diviser vos tâches en une structure claire. L’ensemble de vos versions est géré en tant que base de code standard. Cela rend la collaboration beaucoup plus prévisible et plus facile que les tâches éparses et les hacks qui sont souvent la première solution.
Dbt offre également la possibilité de configurer des tests sur votre flux de transformation. Lorsque des décisions critiques doivent être prises, vous devez vous assurer que la date a été correctement pétrie. Lorsque le tableau de bord ou le graphique de la présentation affiche des données incorrectes, il est déjà en retard. Dbt propose des tests prêts à l’emploi du temps et un moyen simple de mettre en place des tests de données plus concrets.
La structure et la gestion des versions créent une documentation beaucoup plus claire sur ce qui existe et ce qui est fait (si on le met en place correctement). Une autre fonctionnalité intéressante de dbt est de pouvoir générer une visualisation de votre flux de transformation.
Graphe acyclique dirigé (DAY) sur la façon dont la transformation se raccroche (Photo : getdbt.com) Collaborez avec SQL en tant qu’interface
Avec dbt basé sur la configuration de SQL pour votre transformation, les obstacles aux collaborations entre les équipes de données et d’autres personnes sont réduits. SQL est quelque chose que de nombreux analystes et scientifiques des données peuvent faire, et même les développeurs. Au moins dans une mesure où vous pouvez commencer à collaborer, à partager des connaissances et à construire ensemble.
Puissant avec sa plateforme cloud
En tant qu’utilisateur de dbt, vous vous concentrez principalement sur la création de modèles (écriture de requêtes) pour effectuer la transformation qui convient à vos données et à vos transactions. Vous n’avez pas besoin d’écrire du code standard pour créer des tables et des vues. De plus, l’ordre d’exécution de vos modèles résout la dette pour vous.
Dbt prend vos modèles et les pose comme dans votre entrepôt de données. La simplicité et la structure sans nuire à la puissance et à l’évolutivité que vous obtenez dans le cloud. Nous avons nous-mêmes principalement exécuté dbt sur Google Cloud Platform et Big Query, mais une prise en charge est également disponible pour Snowflake, Redshift, Postgres et al.
Open Source
Comme la crème sur le gâteau, dbt est également open source. Il est donc gratuit pour commencer, mais également facilement accessible et en constante évolution par Fishtown et d’autres contributeurs. Cela dit, de plus en plus d’entreprises commencent à passer de certaines parties de leur transformation à la dette, même maintenant. Avec un nombre croissant d’utilisateurs et une communauté animée, il est commun de penser que la dbt est là pour rester.
Inconvénients et alternatives
Bien entendu, dbt n’est pas la solution à tous vos problèmes de données. Il existe à la fois des inconvénients et d’autres options.
Le fait qu’il soit basé sur SQL est dans de nombreux cas un avantage, mais après tout, il faut une connaissance relativement bonne de SQL pour réussir. Connaissance également de la source le contrôle est nécessaire pour en faire une lira. Des outils tels que le PDT de Looker et Tableau, dans une certaine mesure, permettent aux non-experts en SQL de configurer certaines parties de votre transformation.
Il ne couvre également que le T (Transformation) dans l’ETL. Vous avez besoin d’autres solutions pour extraire et charger les données dont vous disposez clairement. D’autres entreprises et options open source commencent à plonger dans la pratique au sein de l’E et du L, mais dbt n’en fait pas partie. Airbyte et Hightouch sont deux options que nous testons actuellement, mais il existe presque autant d’options que d’entreprises gourmandes en données. Vous avez besoin de parler davantage de démocratisation des données, de la dette ou de quoi que ce soit d’autre ?
Jetez un e-mail à max@signific.se, sur Linkedin ou consultez le webinaire du printemps !