Overblog
Editer l'article Suivre ce blog Administration + Créer mon blog

Flume et Hive pour l’analyse de données twitter

Publié le par Marius LOWE

Dans cet article de blog, nous apprendrons comment diffuser des données Twitter à l'aide de Flume.

 

Pour télécharger des tweets depuis Twitter, nous devons d'abord configurer l'application Twitter.

Cliquer sur ce lien pour plus d’infos : https://docs.inboundnow.com/guide/create-twitter-application/

Une fois que l’application a été créée, nous allons configurer l’agent de canal.

1. Créez un nouveau dossier pour conserver votre fichier de configuration du canal

Flume et Hive pour l’analyse de données twitter

2. Modifiez les fichiers de configuration en fonction de vos informations d'identification.

TwitterAgent.sources.Twitter.consumerKey = CONSUMER KEY

TwitterAgent.sources.Twitter.consumerSecret = CONSUMER SECRET

TwitterAgent.sources.Twitter.accessToken = ACCESS TOKEN

TwitterAgent.sources.Twitter.accessTokenSecret = TOKEN SECRET

TwitterAgent.sinks.HDFS.hdfs.path= hdfs://cloudlabns/user/USERNAME/twitter/

Flume et Hive pour l’analyse de données twitter

3. Créez un nouveau dossier dans HDFS pour obtenir le journal d'accès Twitter

 

Flume et Hive pour l’analyse de données twitter

4. Exécutez l'agent flume

 

Flume et Hive pour l’analyse de données twitter
Flume et Hive pour l’analyse de données twitter

5. Vérifiez les fichiers générés dans  HDFS depuis l’application HUE.

Flume et Hive pour l’analyse de données twitter

Analyser les données avec Hive

Twitter fournit des données au format JSON. Or Hive ne sait pas les traiter nativement. Il faut donc récupérer une librairie java qui va permettre à l’outil Hive de travailler avec ce format spécifique.

 Sur ce site http://www.congiu.net/hive-json-serde/1.3/cdh5/  vous pouvez télécharger le jar json-serde-1.3-jar-with-dependencies.jar

On va ensuite créer une table Hive. Une table externe car nous n’avons pas besoin de déplacer physiquement les données. Celles-ci resteront toujours sur HDFS et ne seront pas dupliquées.

Flume et Hive pour l’analyse de données twitter
Flume et Hive pour l’analyse de données twitter

Commenter cet article