Flume et Hive pour l’analyse de données twitter
Dans cet article de blog, nous apprendrons comment diffuser des données Twitter à l'aide de Flume.
Pour télécharger des tweets depuis Twitter, nous devons d'abord configurer l'application Twitter.
Cliquer sur ce lien pour plus d’infos : https://docs.inboundnow.com/guide/create-twitter-application/
Une fois que l’application a été créée, nous allons configurer l’agent de canal.
1. Créez un nouveau dossier pour conserver votre fichier de configuration du canal
2. Modifiez les fichiers de configuration en fonction de vos informations d'identification.
TwitterAgent.sources.Twitter.consumerKey = CONSUMER KEY
TwitterAgent.sources.Twitter.consumerSecret = CONSUMER SECRET
TwitterAgent.sources.Twitter.accessToken = ACCESS TOKEN
TwitterAgent.sources.Twitter.accessTokenSecret = TOKEN SECRET
TwitterAgent.sinks.HDFS.hdfs.path= hdfs://cloudlabns/user/USERNAME/twitter/
3. Créez un nouveau dossier dans HDFS pour obtenir le journal d'accès Twitter
4. Exécutez l'agent flume
5. Vérifiez les fichiers générés dans HDFS depuis l’application HUE.
Analyser les données avec Hive
Twitter fournit des données au format JSON. Or Hive ne sait pas les traiter nativement. Il faut donc récupérer une librairie java qui va permettre à l’outil Hive de travailler avec ce format spécifique.
Sur ce site http://www.congiu.net/hive-json-serde/1.3/cdh5/ vous pouvez télécharger le jar json-serde-1.3-jar-with-dependencies.jar
On va ensuite créer une table Hive. Une table externe car nous n’avons pas besoin de déplacer physiquement les données. Celles-ci resteront toujours sur HDFS et ne seront pas dupliquées.