Bonjour,
Avis aux spécialistes du script et de la recherche. Voici mon problème :
J'ai environ 50 000 fichiers HTML. Dans le header de ces fichiers, j'ai leur ID. Je souhaite récupérer l'ID de tous les fichiers qui contiennent une chaîne de caractères donnée.
L'objectif est que je puisse récupérer la liste de tous les ID (123456 dans l'exemple) quand le fichier contient CHAINE_A_TROUVER.
Voici un exemple (désolé pour le formattage, je n'arrive pas à poster un message avec des balises <>) :
--meta http-equiv="Content-Type" content="text/html; charset=UTF-8"--
--meta name="ID" content="123456"--
...
--head--
--body--
...
blabla
CHAINE_A_TROUVER
blabla
...
Au début je pensais faire ça en 2 temps :
1. Récupérer la liste de tous les fichiers qui contiennent la chaîne CHAINE_A_TROUVER. J'ai réussi à obtenir cette liste.
2. Extraire l'ID de tous les fichiers de la liste précédente. Là je commence à bloquer...
Finalement je me dis qu'on doit pouvoir tout faire d'un coup à l'aide de find, grep ou sed...
Je suis donc ouvert à 2 solutions :
- Celle qui me permettra d'extraire un motif des fichiers qui contiennent une chaîne donnée.
- Celle qui me permettra d'extraire un motif d'une liste de fichiers donnée.
Avis aux amateurs ! Merci pour votre aide !