Implementation Data Lake avec Hadoop

Publié le 17 Novembre 2018 par Marius LOWE

Catégories : #Big Data

Dans cet article de plusieurs séries, nous allons apprendre à mettre en œuvre un Data Lake à l’aide d’Apache Hadoop, un Framework logiciel open source basé sur Java pour un système d’information fiable, évolutive et distribuée. Apache Hadoop aborde les limites de l'informatique traditionnelle, aide les entreprises à surmonter les véritables défis et alimente de nouveaux types d'analyse Big Data.

Apache Hadoop permet le traitement parallèle distribué de très grands ensembles de données sur des grappes de machines standard (ordinateurs, matériels peu coûteux) utilisant des modèles de programmation simples. La structure de solution est évolutive horizontalement avec l'ajout de nœuds de travail au cluster. Hadoop a d'abord été conçu pour traiter tout type de données, qu'elles soient structurées, semi-structurées ou non structurées. Hadoop n'impose pas d'avoir un schéma ou une structure pour les données à stocker. Hadoop dispose d'une infrastructure de stockage et de traitement distribué, essentielle pour l'analyse de données non structurée en raison de sa taille et de sa complexité. La bibliothèque d'infrastructure Hadoop est conçue pour détecter et gérer les échecs au niveau de la couche d'application, au-dessus d'un cluster d'ordinateurs, chacun d'entre eux pouvant être sujet aux échecs. C’est ainsi que la bibliothèque de logiciels offre haute disponibilité et résilience au lieu de simplement compter sur du matériel haut de gamme.

Hadoop DataLake

Dans cet article, nous allons concevoir et mettre en œuvre un Data lake, pour stocker de grandes quantités de données et analyser des sources de données disparates dans leur format natif, dans des grappes composées de matériel standard. L’objectif est de briser les silos d’informations de l’entreprise en regroupant toutes les données en un seul endroit aux fins d’analyse, sans restriction de schéma, de sécurité ou d’autorisation. En raison de la diversité des données existantes, Hadoop représente une plate-forme idéale pour le Data lake, grâce à la prise en charge de différents formats de fichiers, à la structure dynamique des données et à la diversité des outils d'accès et d'interrogation des données. Les données sont simplement copiées dans HDFS et peuvent ensuite être interrogées avec différents outils. Toutes les données existantes ainsi que les données incrémentielles des différents systèmes sources seront chargées dans EDFS pour l’analyse des données. Dans un sens plus technique, un Data lake est un ensemble d’outils permettant d’intégrer, transformer, stocker, sécuriser, récupérer, accéder et analyser toutes les données pertinentes de l'entreprise. Une solution Data Lake ne nécessite aucune modification des systèmes sources existants, mais s'adapte parfaitement au paysage informatique existant. Même le déchargement ETL de la plate-forme EDW actuelle vers un environnement parallèle évolutif, open source et rentable, comme Hadoop, est également un cas d'utilisation typique.

Hortonworks Hadoop Distribution

Lorsqu’il s’agira de sélectionner la bonne variante Hadoop pour le déploiement en entreprise, nous utiliserons Hortonworks Hadoop Distribution. Hortonworks est un innovateur de premier plan dans l'industrie qui crée, distribue et prend en charge des plateformes de données ouvertes prêtes pour l'entreprise (Apache Hadoop 100% open source) et des applications de données modernes offrant des informations exploitables à partir de toutes les données : données en mouvement et données au repos (Open Enterprise Hadoop). Propulsé par la distribution Hadoop la plus populaire au monde, Hortonworks rend Hadoop rapide, facile et sécurisé, afin que les clients puissent se concentrer sur les résultats. Hortonworks Hadoop est le choix intelligent et fiable pour les entreprises qui recherchent Hadoop de niveau entreprise. HDP & HDF offre la possibilité d’exécuter diverses charges de travail d’entreprise (traitement par lots, SQL interactif)

À propos du HDP

Hortonworks Data Platform est la seule distribution Apache Hadoop open source sécurisée et prête à l'emploi destinée aux entreprises, basée sur une architecture centralisée (YARN). HDP répond aux besoins complets de repos des données, alimente les applications client en temps réel et fournit une analyse robuste des données volumineuses qui accélère la prise de décision et l'innovation.

YARN et le système de fichiers distribués Hadoop (HDFS) sont les composants centraux de la plate-forme de données Hortonworks (HDP) pour les données au repos. Alors que HDFS fournit le stockage évolutif, tolérant aux pannes et économique pour le Big Data Lake, YARN fournit l’architecture centralisée nous permettant de traiter simultanément plusieurs charges de travail. YARN fournit l'architecture de gestion des ressources et enfichable permettant une grande variété de méthodes d'accès aux données.

En ce qui concerne les opérations, Ambari est une plate-forme de gestion open source pour le provisionnement, la gestion, la surveillance et la sécurisation de la plate-forme de données Hortonworks. Cela permet à Hadoop de s'intégrer de manière transparente dans le paysage informatique de l'entreprise.

Pour ceux qui voudrons implémenter ce data Lake, téléchargez la Sandbox Hortonworks Data Platform . Suivez le guide d'installation pour déployer la Sandbox correctement

POURQUOI DOCKER

Implémentation Hadoop DataLake "Configuration HDP"

Commenter cet article

Retour à l'accueil