Le traitement de fichiers texte avec AWK

Premiers pas avec awk

Présente l’outil awk et montre sa philosophie à travers quelques exemples basiques.

AWK est un outil puissant de traitement de fichier texte qui comporte son propre langage. Encore faut-ll en connaitre la philosophie. Cet article vous propose de démarrer en douceur avec quelques manipulations de bases. Il vous montrera également que cet outil est particulièrement adapté aux fichiers organisés en lignes et colonnes.

Sommaire

Installation

Installation sur des systèmes de types UNIX/LINUX

Si vous êtes sous Linux ou un système basé sur UNIX comme MacOS, cet outil devrait être déjà installé et si ce n’était pas les cas vous devriez le trouver dans dans votre gestionnaire de paquet.

Installation sous Windows

Sous Windows , il existe un programme d’installation que vous pourrez trouver :

ici

Le programme sera installé par défaut dans :

C:\Program Files (x86)\GnuWin32\bin

Des scripts d’exemples se trouvent dans :

C:\Program Files (x86)\GnuWin32\share\awk

Vous aurez également une documentation en anglais dans le dossier :

C:\Program Files (x86)\GnuWin32\doc\gawk\3.1.6\gawk-3.1.6

ainsi que le fichier correspondant à la commande man unix dans ce dossier :

C:\Program Files (x86)\GnuWin32\man\pdf

Pour utiliser simplement gwak sous Windows, vous devrez ajouter le chemin des bin à votre variable d’environnement PATH.

Les différentes versions

Il y a eue plusieurs évolutions de cet outil. Du AWK de départ est venue NAWK (New AWK) puis GWAK (GNU WAK).

Pour connaître votre version installée tapez simplement :

$>awk –version

Ce qui donne sous Ubuntu 14.4 ...

GNU Awk 4.0.1 
Copyright © 1998, 1991-2012 Free Software Foundation. 

Ce programme est un logiciel libre ; vous pouvez le redistribuer et le 
modifier selon les termes de la licence publique générale GNU (GNU 
General Public License), telle que publiée par la Free Software 
Foundation ; soit selon la version 3 de cette licence, soit selon une 
version ultérieure de votre choix. 

Ce logiciel est distribué en espérant qu'il sera utile, mais SANS AUCUNE 
GARANTIE, y compris les garanties implicites D'ADAPTATION À UN BUT 
SPÉCIFIQUE et de COMMERCIALISATION. Pour plus d'informations à ce 
sujet, consultez le texte de la licence publique générale GNU (GNU 
General Public License). 

Vous devriez avoir reçu copie de la licence publique générale GNU 
(GNU General Public License) avec ce programme. Sinon, consultez 
http://www.gnu.org/licenses/.

Nous pouvons constater, qu’en tapant awk, c’est en fait GAWK qui est exécuté.

Ce qui donne sous Windows...

C:\Users\christophe>gawk --version
GNU Awk 3.1.6
Copyright (C) 1989, 1991-2007 Free Software Foundation.

This program is free software; you can redistribute it and/or modify
it under the terms of the GNU General Public License as published by
the Free Software Foundation; either version 3 of the License, or
(at your option) any later version.

This program is distributed in the hope that it will be useful,
but WITHOUT ANY WARRANTY; without even the implied warranty of
MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
GNU General Public License for more details.

You should have received a copy of the GNU General Public License
along with this program. If not, see http://www.gnu.org/licenses/.

Sous MaCOS X,

Awk est bien installé par défaut. Par contre, MacOS étant basé sur un noyau UNIX, ce n’est pas une version GNU et il se peut que certaines options ne soient pas supportées.

Le modèle de programmation

Le principe de AWK est de définir un filtre de sélection, généralement sous la forme d’une RegEx et une ou plusieurs actions. L’outil appliquera, sur chaque ligne du fichier texte à traiter, ce filtre et en fonction du résultat, appliquera ou pas la ou les actions spécifiées. AWK est idéal pour manipuler des fichiers textes organisés en lignes et colonnes, chaque ligne pouvant correspondre à un enregistrement et chaque colonne à un champ de cet enregistrement. Il est pratique également, pour formater des lignes qui seraient mal agencées.

Awk peut être appelé selon 2 modes. On peut l’utiliser en une seule ligne de commande avec la syntaxe suivante :

awk [-Fc] 'motif {action}' fichier

-F permet de définir le caractère de séparation des colonnes. Entre cote, le motif et l’action qui devra être effectuée. L’action doit se trouver entre accolades. Pour définir plusieurs actions, il faudra les séparer par un point-virgule. On peut également initialiser des variables puis indiquer le nom du fichier à traiter. Si aucun fichier n’est spécifié, c’est l’entrée standard qui sera traitée. Cela permet d’utiliser awk dans un tube en sortie d’une autre commande. Le résultat sera dirigée vers la sortie standard par défaut, en l’occurrence l’écran.

La seconde manière va être d’appeler awk en spécifiant un fichier script qui contiendra le traitement à effectuer :

awk -f fichier_script fichier

-f indique que l’on va spécifier un fichier contenant les instructions de traitements avant le nom du fichier à traiter.

La première syntaxe sera utilisée lorsque le traitement sera simple mais si celui-ci est plus complexe, il vaudra mieux le définir dans un fichier script et utiliser la seconde syntaxe.

Nous verrons par la suite que l’on peut définir une section BEGIN et une END pour réaliser des opérations avant et après traitement du fichier.

Première utilisation de awk

Exécuter awk sans aucun paramètres vous permettra d’avoir un résumé de toutes les options de la commande :

awk

Ce qui donne...

Utilisation : awk [options GNU ou POSIX] -f fichier_prog [--] fichier ...
Utilisation : awk [options GNU ou POSIX] [--] 'programme' fichier ...
Options POSIX :		Options longues GNU :
	-f fichier_prog		--file=fichier_prog
	-F fs			--field-separator=fs
	-v var=valeur		--assign=var=valeur
	-m[fr] valeur
	-O			--optimize
	-W compat		--compat
	-W copyleft		--copyleft
	-W copyright		--copyright
	-W dump-variables[=fichier]	--dump-variables[=fichier]
	-W exec=fichier		--exec=fichier
	-W gen-po		--gen-po
	-W help			--help
	-W lint[=fatal]		--lint[=fatal]
	-W lint-old		--lint-old
	-W non-decimal-data	--non-decimal-data
	-W profile[=fichier]	--profile[=fichier]
	-W posix		--posix
	-W re-interval		--re-interval
	-W source='programme'	--source='programme'
	-W traditional		--traditional
	-W usage		--usage
	-W use-lc-numeric	--use-lc-numeric
	-W version		--version

Pour signaler une anomalie, consultez la section « Bugs » du fichier
« gawk.info », qui est dans la section « Reporting Problems and Bugs »
de la version imprimée.
Pour signaler une erreur de traduction, envoyez un message à la liste
<traduc CHEZ traduc POINT org>.

gawk est un langage de recherche et de traitement des motifs.
Par défaut, il lit l'entrée standard et écrit sur la sortie standard.

Exemples :
	gawk '{ somme += $1 }; END { print somme }' fichier
	gawk -F: '{ print $1 }' /etc/passwd

Bonjour Monde en AWK

Création du fichier test

Comme awk est fait pour manipuler les lignes d’un fichier, nous allons d’abord créer un fichier texte contenant une simple ligne.

$>echo "Proust Marcel" > fichier01

Vérifions le contenu du fichier :

1$>cat fichier01
Proust Marcel

Définition d’une action

Maintenant, nous allons créer notre premier script awk. Nous utiliserons la commande print pour écrire notre chaîne de caractère. Ce qui va donner :

$>awk '{print "Bonjour le Monde"}' fichier01
Bonjour le Monde

Nous allons maintenant ajouter quelques lignes à notre fichier texte :

$>echo "Hugo Victor" >> fichier01
$>echo "Balsac Honoré" >> fichier01
$>echo "Gide André" >> fichier01
$>echo "Riplay Jack" >> fichier01

Vérifions le contenu du fichier :

$>cat fichier01
Proust Marcel
Hugo Victor
Balsac Honoré
Gide André
Riplay Jack

Lançon de nouveau notre commande awk :

$>awk '{print "Bonjour le monde"}' fichier01
Bonjour le monde
Bonjour le monde
Bonjour le monde
Bonjour le monde
Bonjour le monde

Nous voyons que le message est affiché 5 fois, ce qui correspond au nombre de lignes de notre fichier et nous permet de vérifier que l’action, afficher un message, est exécutée pour chaque ligne du fichier à traiter.

Voilà, nous avons vu le principe de fonctionnement de awk.

Définition d’un filtre et d’une action dans un fichier script

Nous allons maintenant utiliser un fichier script indépendant pour définir notre filtre et notre action.

Dans un éditeur de texte nous allons écrire le script qui se trouvait entre le cote de la commande précédente :

Avec vi par exemple :

$>vi script01.awk

Et entrez le code suivant :

/Proust/ {
print "Bonjour le Monde";
}

Télécharger

Exécutons awk en utilisant le script :

$>awk -f script01.awk fichier01
Bonjour le Monde

Le script que nous avons défini indiquait d’exécuter la commande print que pour les lignes contenant le mot Proust. Comme une seule ligne contenait le mot "Proust", la commande c’est bien exécuté une fois.

Les bloc BEGIN et END

Nous allons maintenant voir comment définir une action avant et après traitement du fichier. On pourrait le faire directement en ligne de commande mais il est plus clair d’utiliser un fichier script.

Nous allons donc modifier notre script pour ajouter un bloc BEGIN et END.

BEGIN {
print "Exemple de script";
print "=================";
}
/Proust/ {
print "Bonjour le Monde";
}
END {
print "=================";
print "Fin de traitement";
}

Télécharger

Exécutons-le :

$>awk -f script01.awk fichier01

Ce qui donne le résultat suivant :

Exemple de script
=================
Bonjour le Monde
=================
Fin de traitement

Nous allons pouvoir commencer à voir comment manipuler le contenu des fichiers.

Manipuler le contenu du fichier

Par défaut awk considère que le fichier est composé de lignes séparées par un code de retour à la ligne ’\n’ et que chaque champs ou colonne est séparé par une tabulation ou des espaces. Nous disposons aussi d’un certain nombre de variables qui permettent de récupérer le contenu d’une ligne.

$0 pour l’ensemble de la ligne puis $1,$2,... pour des colonnes spécifiques.

Voyons comment récupérer les lignes du fichier :

$>awk ' { print $0 } ' fichier01

ce qui donne bien l’ensemble des lignes du fichier :

Proust Marcel
Hugo Victor
Balsac Honoré
Gide André
Riplay Jack

Si nous ne désirons afficher que la seconde colonne :

$>awk ' { print $2 } ' fichier01

ce qui donne :

Marcel
Victor
Honoré
André
Jack

Nous pouvons également utiliser des chaînes et des variables dans une même instruction print.

$>awk ' { print "nom: ", $1, "prénom: ", $2 } ' fichier01

Cequi donne :

nom:  Proust prénom:  Marcel
nom:  Hugo prénom:  Victor
nom:  Balsac prénom:  Honoré
nom:  Gide prénom:  André
nom:  Riplay prénom:  Jack

Nous pourrions vouloir que les colonnes soient alignée en insérant une tabulation :

$>awk ' { print $1, "\t", $2 } ' fichier01

Ce qui donne :

Proust 	 Marcel
Hugo 	 Victor
Balsac 	 Honoré
Gide 	 André
Riplay 	 Jack

Pour l’instant, nous n’avons réalisé que des traitements basiques. Pour aller plus loin, la première chose à faire va être de connaître un certain nombre de variables que nous propose awk. Vous trouverez un détail de ces variables en consultant l’article Les variables systèmes de awk

Utilisation des variables prédéfinies de awk

Nous avons souvent besoin de manipuler des fichier .csv dont le séparateur est le ;.

Nous prendrons comme exemple, le fichier dont voici un extrait :

$>cat compositeurs.csv
Nom;Prénom;naissance;décé
Bach;Johann Sebastian;1685;1750
Beethoven;Ludwig van;1770;1827
Berg;Alban;1885;1935
...

Si vous utilisez awk directement en ligne de commande, vous pourrez utiliserer la commande suivante :

1$>awk -F";" '{print $1, $2}' compositeurs.csv

Ce qui donnera :

Nom Prénom
Bach Johann Sebastian
Beethoven Ludwig van
Berg Alban
...

Dans un script vous pourrez initialiser la variable FS. Dans l’exemple suivant, nous utiliserons également la variable OFS pour définir un caractère spécifique en sortie. En entrés nous avons un ; et en sortie nous définirons un \.

BEGIN {
FS=";";
OFS="\\";
}
{
print $1,$2;
}

Télécharger

Remarque : Comme le caractère \ est un caractère spécial, nous devons le préfixer par un autre \ sur le même principe que \t par exemple.

Le résultat donne bien ce que nous voulions.

$>awk -f script02.awk compositeurs.csv
Nom\Prénom
Bach\Johann Sebastian
Beethoven\Ludwig van
Berg\Alban
...

Pour aller plus loin : variables et regex

awk dispose d’un véritable langage de programmation qui vous permet de définir des variables simples, des tableaux, de gérer les conditions et des structures de boucles avec tous les types d’opérateurs que l’on peut trouver dans les autres langages avec une syntaxe proche du C. Comme le sujet est vaste, je me contenterais de vous fournir un dernier exemple qui utilise une variable et une expression. J’en profiterais également pour vous montrer l’utilisation d’une autre fonction d’affichage printf()

L’exemple suivant va utiliser un fichier .csv contenant l’ensemble des codes postaux dont voici un extrait :

1000;BOURG EN BRESSE
1000;BROU
1000;SAINT DENIS LES BOURG
1090;AMAREINS
1090;AMAREINS FRANCHELEINS CESSEINS
1090;CESSEINS
1090;GENOUILLEUX
1090;GUEREINS
1090;LURCY
...

Le but du script suivant va être de lister les communes des Hauts de Seines et d’en indiquer le nombre.

BEGIN {
FS=";";
nb = 0;
print "Liste des communes:";
print "-------------------";
}
$1 ~ /^92/ {
print $2;
nb++;
}
END {
print "---------------------------------------------------------";
printf( "Les Hauts de Seines sont composées de %d communes\n", nb );
}

Télécharger

On l’exécute avec la commande suivante :

awk -f script01.awk cp02.csv

Ce qui donne :

iste des communes:
-------------------
ALOS
AUDINAC LES BAINS
...
RUEIL MALMAISON
ASNIERES SUR SEINE
COLOMBES
PUTEAUX
---------------------------------------------------------
Les Hauts de Seines sont composées de 101 communes

Voyons maintenant quelques explications

Dans la partie BEGIN nous utilisons à la fois la variable système vue précédemment. Nous créons également une variable nb. Nous voyons que en awk nous n’avons pas besoin de la déclarer ni de lui spécifier le type.

Dans la section de traitement des lignes nous effectuons un test sur la première colonne $1 avec une expression régulière /^92/ qui veut dire que l’on recherche tout ce qui commence par "92". Ce qui est important de noter est l’opérateur utilisé entre la variable et l’expression régulière qui est le symbole ~. Il existe un autre symbole pour dire que l’on prend tout sauf ce qui correspond au motif. Il s’agit de !~.

Dans la section END, j’utilise la fonction printf() qui s’utilise comme en langage C. Le premier paramètre est la chaîne de formatage avec "%d" qui sera remplacé par le contenu du paramètre suivant. Vous remarquerez que je termine par un "\n" pour aller à la ligne car par défaut et contrairment à print, la fonction printf() ne génère pas de retour à la ligne.

Conclusion

Voila, nous en avons terminé avec ce petit article qui ne se voulait qu’une présentation de la philisophie de awk et de comprendre à quoi ce langage pouvait servir. On voit par exemple, que contrairement à des langages plus classiques, nous n’avons pas besoin de se préoccuper de l’ouverture et de la fermeture du fichier à traiter ni à gérer le changement de ligne ni de tester si nous étions arrivé en fin de fichier.

Développement

Article n° 38

Crée par: chris

Créé le: 4 novembre 2015

Modifié le: 4 novembre 2015

Nombre de visites: 1735

Popularité: 14 %

Popularité absolue: 1

AWK/GAWK

Les variables systèmes de awk

Mots clés de cet article

awk2