Comprendre le Big Data

Publié le 3 Août 2017 par Ludovic LOWE

Catégories : #Big Data

Bien sûr, vous avez entendu le terme "Big Data" plusieurs fois auparavant. Il n'y a pas de pénurie d'informations sur Internet et sur le support imprimé à ce sujet. Mais devinez quoi, ce terme reste encore vaguement défini et mal compris. Cet essai est notre effort pour décrire de grandes données dans un langage technique simple.

Quelles sont les grandes données?

Comme d'habitude, commençons par une définition quelque peu formelle des grandes données. Nous avons copié la définition ci-dessous de Wikipédia.

Dans les technologies de l'information, les grandes données sont une collection d'ensembles de données si vaste et complexe qu'il devient difficile de traiter en utilisant des outils de gestion de base de données ou des applications traditionnelles de traitement de données

Ne vous inquiétez pas si la définition ci-dessus n'a pas incité votre imagination. Si vous avez juste besoin de copier la définition ci-dessus et de la coller dans votre diapositive de présentation pour la réunion de gestion demain matin, n'hésitez pas à le faire et quittez cette page Web. Sinon, lisez la suite.

D'accord. Maintenant, respirez profondément et regardez en arrière à la définition ci-dessus. C'est en fait une très bonne définition. Tout ce qu'il dit, le terme «Big Data» se rapporte à toute collection d'ensemble de données qui est si énorme que les bases de données traditionnelles ne sont pas en mesure de les traiter en temps opportun. Alors, quelle est la taille suffisante? Et quelle est la limite de traitement des bases de données traditionnelles?

Quelle est la taille maximale de la base de données que vous avez vue jusqu'ici?

Maintenant, je sais si vous êtes un professionnel dans la base de données et les sujets connexes, vous pouvez répondre à cette question. Mais si vous ne savez rien sur les bases de données (alors, qu'est-ce que vous faites ici, de toute façon?), Il n'est pas possible pour vous de répondre à cette question. Permettez-moi de poser une question plus facile. Combien pensez-vous que la taille de la base de données où le gouvernement américain stocke le numéro de sécurité sociale de chaque citoyen (SSN)? La population des États-Unis se situe autour de 330 millions d'habitants. Si tout le monde a un SSN, cette base de données devrait stocker environ 330 millions d'enregistrements (je sais que c'est une simplification, Bill, mais il y a des gens qui utilisent Apple). Cette base de données est-elle suffisamment grande? Probablement pas. Pensez à Facebook. Au 31 décembre 2012, ils ont 680 millions d'utilisateurs actifs mensuels. Est-ce assez grand? Pas vraiment. Qu'en est-il de Google alors? Les gens effectuent 6 000 millions de recherches par jour dans Google. Est-ce que de grandes données? Oui, peut-être - selon la façon dont vous stockez ces données et ce que vous souhaitez faire avec ces données. le stockage de seulement 6000 millions de lignes n'est pas une grande chose en soi. Vous pouvez le faire en utilisant des technologies conventionnelles (lire des SGBDR) et des outils (base de données Oracle, par exemple). Mais cela peut être plus intrigant que cela.

Endurer ceci

Que faire si je vous demande de stocker 6000 millions de phrases de recherche qui sont recherchées dans Google tous les jours pendant 2 ans en continu et à la fin de la préparation d'un rapport sur les 25 premiers mots clés les plus recherchés relatifs au «football»?

Maintenant, vous pouvez (à juste titre) dire, "c'est fou". 6000 millions pour 2 ans signifie (2 X 6000 X 365) 4 380 000 000 000 d'enregistrements. Et même si nous l'enregistrons, comment procéderons-nous à des analyses sur ces données? Bienvenue dans le monde de Big Data!

Le monde du Big Data

Maintenant, je suis sûr que si vous avez fait RDBMS et SQL tout au long de votre vie, vous ne pourrez pas céder facilement. Bien que vous compreniez que votre base de données RDBMS préférée ne gérera jamais tant de données, mais vous poserez certainement cette question -

POURQUOI, sur la TERRE, quiconque doit faire ce genre d'analyse en premier lieu?

Ou vous pouvez également interroger la rationalité de ceci

Qu'en est-il du facteur coût?

Parce que le stockage d'une quantité aussi stupéfiante de données et d'effectuer une analyse sur cela prendra probablement des centaines de milliers de dollars. Cela signifie que le retour sur investissement sera pathétique!

Et ma réponse sera - "oui, ce serait pathétique. Pour vous. Pas pour de grandes données!" Parce que les grandes données n'utilisent pas de RDBMS, les requêtes SQL ou les bases de données conventionnelles. Certes, si nous avions essayé de dompter les grandes données à l'aide de technologies conventionnelles, nous aurions échoué. Et c'est pourquoi les scientifiques ont trouvé une autre façon de gérer un tel volume de données. Je vais vous montrer comment. Mais permettez-moi de répondre à une autre question avant cela. La question porte sur le besoin.

Pourquoi avons-nous besoin de grandes données?

Pour gérer votre entreprise de manière intelligible, vous devez pouvoir raisonner, planifier, résoudre des problèmes, réfléchir de manière abstraite, comprendre des idées complexes, apprendre rapidement et apprendre des expériences. Toutes ces capacités tournent autour d'un simple fait: votre capacité à effectuer une analyse axée sur les données. Parce que c'est ainsi que vous découvrez des connaissances. Mais le problème est, comment obtenez-vous suffisamment de données? Et si vous avez assez de données, comment effectuez-vous des analyses sur ces données? Ce sont deux questions différentes. Et la réponse à ces questions nous conduira à Big Data. Alors, allons les explorer.

D'une manière conventionnelle, afin d'avoir suffisamment de données, vous devrez configurer suffisamment de moyens pour collecter vos données. Ce n'est pas toujours simple et certainement pas bon marché.

Le problème

Dites, vous êtes un propriétaire de chaîne de restauration rapide à travers le pays et vous vendez des hamburger de poulet et des frites. Vous envisagez deux nouveaux produits, dont vous souhaitez en introduire un dans vos restaurants. Les produits sont le ndolè au plantain et du nbongo avec du riz. Si vous avez la tâche de sélectionner l'un de ces produits sur l'autre afin de maximiser votre bénéfice, comment prendre la décision? De toute évidence, vous n'avez pas d'autres connaissances / expériences / données sur les attentes ou les affinités de vos clients par rapport à l'autre.

Si vous devez prendre une décision axée sur les données, la manière conventionnelle serait de lancer une campagne de sondage. Comme, vous pouvez distribuer un formulaire de rétroaction à tous les visiteurs de votre restaurant pour exprimer leurs choix spécifiques. Et en fonction des données que vous avez collectées, vous pouvez prendre une décision. Mais il y a 3 problèmes à cette approche. D'abord, le processus est péniblement lent. Deuxièmement, la procédure est limitée aux choix de vos clients existants et ne tient pas compte de vos clients potentiels. Et enfin, vous devez concevoir un processus informatisé pour convertir les résultats de vos données d'enquête hors ligne en dossiers de base de données pour analyse.

Solution possible

L'exemple ci-dessus démontre la rareté typique des données lorsqu'une entreprise veut se développer sur un territoire inexploré. Mais cela ne doit pas toujours être comme ça. Avec l'avènement des médias sociaux comme Facebook et Twitter, il est relativement facile d'obtenir de telles données. Pensez à cela, 680 millions d'utilisateurs de Facebook vont à plusieurs restaurants chaque mois, aimant des aliments particuliers, commentant "wow! J'aime le pillé de pomme chaud" ou "Je déteste le taro sauce jaune" de temps en temps.

Cela peut être une incroyable source d'information pour votre entreprise de chaînes de restaurants. Ces données sont déjà là. La question est de savoir comment l'utilisons-nous? De toute évidence, la création d'un modèle de données basé sur RDBMS classique pour stocker ces données est hors de question en raison du temps et du traitement requis pour transformer ces données textuelles non structurées en un schéma de base de données structuré. Et même si vous faites cela, il existe cette tâche herculéenne d'analyser ces données à partir de cela. Fondamentalement, le processus conventionnel nécessite beaucoup de mouvement des données (lisez les IO physiques) qui nécessite un meilleur processus.

Si vous pensez toujours, permettez-moi de préciser que les modèles classiques d'entrepôt de données basés sur le modèle ER ou le modèle dimensionnel ne conviennent pas ici. Si vous souhaitez stocker ces données énormes dans le modèle ER, les analyses seront terribles en raison d'un grand nombre de jointures que vous devez traverser pour récupérer les enregistrements. Si vous souhaitez répartir la partie de récupération de données en effectuant une modélisation dimensionnelle, les données seront inutilement volumineuses en raison de la redondance des données.
Grandes données sur la réactivité - Réduction de la carte

Jusqu'à présent, nous avons établi la nécessité de grandes données pour une meilleure intelligence d'affaires et nous comprenons également la douleur associée à beaucoup de données. Beaucoup se référent à cela comme 3-Vs de Big Data, à savoir: Volume, Variety et Velocity (voir ci-dessous) qui augmente finalement la complexité associée au Big Data Processing.

Heureusement, les grandes données comprennent des méthodes et des technologies pour résoudre ce problème. L'une de ces méthodes est appelée - "Map Reduce". Vous pouvez utiliser le cadre Map Reduce pour analyser les données non structurées via le streaming. Le streaming est une excellente chose: parce que lorsque vous diffusez des données, vous évitez de stocker les données et, pendant la diffusion, vous pouvez analyser les données sur la route pour trouver les réponses à vos questions. "Map Reduce" est un sujet distinct et définitivement hors de la portée de cet essai, mais j'ai l'intention d'écrire sur ce sujet quand j'ai un certain temps.

Le point important à noter est que les grandes données nous permettent de surmonter le problème qui, autrement, n'était pas résolu en utilisant la technique conventionnelle. La bonne chose est, une fois que vous commencez à exploiter le potentiel des grandes données, la portée et la possibilité d'une analyse axée sur les données augmentent largement. Tout comme nous l'avons vu dans l'exemple de notre chaîne de restaurants, en tirant parti des grandes analyses de données sur les données sur les réseaux sociaux, vous pouvez étendre la portée de votre analyse beaucoup plus largement et l'effectuer en moins de temps comparativement.
Exemples de grandes analyses de données

Tout cela n'est pas seulement une théorie. Il existe divers cas d'utilisation de grandes données en ce moment dans ce monde. Amazon.com gère chaque année des millions d'opérations de back-end, ainsi que des requêtes de plus d'un demi-million de vendeurs tiers. Et pour chaque utilisateur, ils peuvent effectuer une analyse de panier de marché pour vous montrer la liste des produits que vous êtes le plus susceptibles d'acheter, compte tenu de vos habitudes d'achat et habitudes d'achat de millions de clients comme vous.

Il ne fait aucun doute que Big Data est certainement la prochaine grande chose. Cependant, comme tout le reste, il y a beaucoup d'hypes. En fait, selon un analyste de Gartner, Big Data se plonge dans un "creux de désillusion" qui peut dissuader de nombreuses entreprises de poursuivre la technologie d'analyse. Mais comme tout le reste dans ce monde, en tant que technologue, nous devons apprendre à discerner la réalité du battage médiatique.

Maintenant que vous savez quelles sont les grandes données, je terminerai cet article ici. Dans mon prochain article, nous discuterons de la mise en œuvre.

Gestion des accès serveur dans SQL Server 2008

Installation et configuration du cluster Hadoop 2.7 sur CentOS 7 part1

Commenter cet article

Retour à l'accueil