Bash Shell pour le traitement de données

Durée : 2 jour(s)
Public : à destination de publics analystes de données ou développeurs
Pré-requis : compétences minimales d'utilisation de GNU/Linux et ligne de commande

À l’ère des données ouvertes et volumineuses (big data et open data), les outils de traitements les plus efficaces sont issus de l’informatique des années 1970 ! (Re)découvrez la ligne de commande GNU/Linux et ses outils capables de manipuler et transformer de gros fichiers textes. Cette formation vous apprendra à mettre en place des routines efficaces de conversion de données afin de disposer de données propres et optimales à intégrer dans vos outils d’analyses métiers.

Objectifs

Savoir manipuler efficacement des jeux de données basés sur du texte et volumineux en ligne de commande.

Programme

Traitement de données en Bash Shell
– Découvrir l’histoire du Bash
– Écrire et lancer ses propres scripts

Gestion des entrées/sortie
– Savoir lire et écrire dans des fichiers textes
– Utiliser les outils de compression de données (gzip, tar)
– Comprendre le mécanisme de « pipe » pour enchaîner les commandes

Expressions régulières
– Découvrir ce langage puissant pour rechercher et remplacer du texte
– Savoir écrire ses propres expressions régulières

Outils d’édition en Bash
– Savoir rechercher et éditer en interactif avec Vim
– Savoir rechercher, nettoyer et filtrer en ligne de commande (sed, awk, grep, cut, sort, uniq)
– Mettre en pratique ces outils avec des données ouvertes volumineuses (base SIRENE)

Formats et usages avancés
– Manipuler du JSON avec l’outil Jq
– Transformer des données XML avec XSLT
– Savoir lancer des traitements en parallèle avec parallel