Bon, voici un petit script écrit en
python :
#! /usr/bin/python
# -*- coding: utf-8 -*-
import sys, re
fic_html = sys.stdin.read()
rec_head = re.compile('<head>(.*?)</head>',re.S|re.M)
rec_foot = re.compile('<div id="footer">(.*?)</div>',re.S|re.M)
rec_side = re.compile('<div id="sidebar">(.*?)</div>',re.S|re.M)
fic_html = rec_head.sub('',fic_html)
fic_html = rec_foot.sub('',fic_html)
fic_html = rec_side.sub('',fic_html)
sys.stdout.write(fic_html)
Récupérer ce fichier, l'appeler par exemple
strip_html.py, lui mettre les permissions
chmod u+x ./strip_html.py
Si les balises de
fin sont comme je le crois, respectivement :
</head>, </div>, et </div>, et qu'il n'y a pas de balises
div imbriquées, cela devrait marcher
Utilisation
./strip_html.py <fichier_html_depart >fichier_html_final
Important :
fichier_html_depart et
fichier_html_final doivent être différents
Il se peut qu'il reste des lignes vides à la place de ce qui a été enlevé, il faudra voir alors.