Flume et Hive pour l’analyse de données twitter

Publié le 17 Décembre 2019 par Marius LOWE

Catégories : #Big Data

Dans cet article de blog, nous apprendrons comment diffuser des données Twitter à l'aide de Flume.

Pour télécharger des tweets depuis Twitter, nous devons d'abord configurer l'application Twitter.

Cliquer sur ce lien pour plus d’infos : https://docs.inboundnow.com/guide/create-twitter-application/

Une fois que l’application a été créée, nous allons configurer l’agent de canal.

1. Créez un nouveau dossier pour conserver votre fichier de configuration du canal

Flume et Hive pour l’analyse de données twitter

2. Modifiez les fichiers de configuration en fonction de vos informations d'identification.

TwitterAgent.sources.Twitter.consumerKey = CONSUMER KEY

TwitterAgent.sources.Twitter.consumerSecret = CONSUMER SECRET

TwitterAgent.sources.Twitter.accessToken = ACCESS TOKEN

TwitterAgent.sources.Twitter.accessTokenSecret = TOKEN SECRET

TwitterAgent.sinks.HDFS.hdfs.path= hdfs://cloudlabns/user/USERNAME/twitter/

3. Créez un nouveau dossier dans HDFS pour obtenir le journal d'accès Twitter

4. Exécutez l'agent flume

5. Vérifiez les fichiers générés dans HDFS depuis l’application HUE.

Analyser les données avec Hive

Twitter fournit des données au format JSON. Or Hive ne sait pas les traiter nativement. Il faut donc récupérer une librairie java qui va permettre à l’outil Hive de travailler avec ce format spécifique.

Sur ce site http://www.congiu.net/hive-json-serde/1.3/cdh5/ vous pouvez télécharger le jar json-serde-1.3-jar-with-dependencies.jar

On va ensuite créer une table Hive. Une table externe car nous n’avons pas besoin de déplacer physiquement les données. Celles-ci resteront toujours sur HDFS et ne seront pas dupliquées.

QlikView intégré à Hortonworks Data Platform (HDP).

Une brève introduction sur la plateforme Oracle Analytics Cloud et Oracle Day By Day.

Commenter cet article

Retour à l'accueil