Ce site est optimisé pour être consulté depuis un navigateur moderne dans lequel JavaScript est activé.

[info] Aspirer un site avec wget

CyrilouGarou

J'avais vu ce lien.

Je vais rappeler précisément ce que je cherche à scripter:

Mon dossier musique est organisé comme ça:

~/musique/(1ère lettre du nom de l'artiste)/(nom de l'artiste)/(album)/(chanson.ogg)

Je voudrais que pour chacun des artistes de mon dossier musique, une recherche soit envoyée sous google-images qui me renvoie le 1er png de taille moyenne, le stocke, et le fasse utiliser par nautilus comme icône pour le dossier artiste en question.

Ce script que tu me proposes donne beaucoup trop de boulot à faire manuellement pour mes 300 artistes !

CyrilouGarou

up ????????????

CyrilouGarou

En fait ça fait un peu doublon avec ça: http://forum.ubuntu-fr.org/viewtopic.php?id=199506

pabix

Ça fait surtout doublon avec http://forum.ubuntu-fr.org/viewtopic.php?id=78954 !

Ras'

Peut être que du coup tu pourrais m'aider là dessus du coup : http://forum.ubuntu-fr.org/viewtopic.php?pid=1609327#p1609327

J'ai plus besoin de ce cours mais j'aimerais bien comprendre...

pabix

Ben... Je ne vois aucun fichier pdf lié à cette page lorsque je m'y connecte... Donne ton cookie à bouffer à wget peut-être, comme expliqué sur mon topic.

CyrilouGarou

En attendant le petit script que je cherchais à faire, je vois toujours pas.

Quand je fais une recherche sur google images avec le mot clé truc par exemple j'obtiens dans la barre d'adresse ça:

http://images.google.fr/images?hl=fr&q=truc&btnG=Recherche+d%27images&gbv=2

un wget à cette adresse donne une erreur.

Moi j'aimerais récupérer la première image png sur la page...

Ça doit pas être infaisable ...

Ras'

Il faut que tu chope le code source de la page, que tu le mette dans un fichier temporaire, et que tu fasse mumuse avec grep pour trouver le moyen de choper le premier url de l'image, ici : http://delphi.developpez.com/cours/gui/screenmate/truc.gif

bon courage :\

[supprimé]

Salut j'ai utiliser cette ligne de code

wget -r -k -np AdresseDeLaPage

tous fonctionne nikel sauf le fait est que je ne sais pas ou s'enregistre le fichier...
merci

k-boite

par défaut c'est dans le répertoire courant, non?

~ <=> dossier utilisateur
ou bien un autre répertoire si tu as changé de répertoire courant (commande cd)

(pour savoir quel est le répertoire courant, la commande est pwd... enfin je te conseille d'en apprendre plus sur la ligne de commande en lisant la doc)

Pardalis

Je confirme : c'est bien dans le répertoire courant. Wget crée un dossier au nom du site aspiré.

Pour aspirer un site en entier et le rendre entièrement consultable en local :
wget -m -p -k [url du site]

Cristian

selene10308 a écrit.En effet, ça fonctionne.

Mais au lieu d'avoir seulement les tutos que je voulais, j'ai eu tout le site - heureusement que ça ne fait que 10 MB.

Un hic tout de même : quand je veux voyager sur le site ainsi reconstitué en local, je reçois le message

"Vous envoyez trop de requêtes à notre serveur. Patientez un peu avant de réessayer."

clem87 a écritOui c'est possible de limiter la rapidité de capture.
rajouter

-w 1

et wget attendra 1s entre chaque demande

En plus de --wait=1 tu peux rajouter --random-wait tu auras ainsi un temps d'attente aléatoire à ±1s. Par exemple avec la commande --wait=1 --random-wait le temps d'attente sera compris entre 0,5s et 1,5s. Wget aura plus de chances de passer inaperçu.

Extrait de la doc (http://www.gnu.org/software/wget/manual/wget.html)

‘--random-wait’

Some web sites may perform log analysis to identify retrieval programs such as Wget by looking for statistically significant similarities in the time between requests. This option causes the time between requests to vary between 0.5 and 1.5 * wait seconds, where wait was specified using the ‘--wait’ option, in order to mask Wget's presence from such analysis.
A 2001 article in a publication devoted to development on a popular consumer platform provided code to perform this analysis on the fly. Its author suggested blocking at the class C address level to ensure automated retrieval programs were blocked despite changing DHCP-supplied addresses.

The ‘--random-wait’ option was inspired by this ill-advised recommendation to block many unrelated users from a web site due to the actions of one.

Je te conseil également d'augmenter --wait à plus de 4s si tu as toute la nuit devant toi pour être sûr que wget ne se fasse pas bloquer en cours d'exécution.

cherif1969

Salut
comment peut-on savoir la capacité du site à télécharger avant ?

Merci

cherif1969

Salut
je voudrais aspirer ce site
http://www.booksshouldbefree.com/

comment faut-il procèder ?

merci

cherif1969

Salut
est-ce qu'on peut affiner l'aspiration ?
je voudrais d'un site que les couvertures et les audio en mp3 et zip
un genre précis de livre comme classic
c'est un site audio livre gratuit ... je précise
comme
www.audiocite.net

merci

Valentin2105

Pour ceux qui ne sont pas au courant, quand on lance une commande pour un site et on voit que cela devient long, si on ferme la fenêtre de terminal, la téléchargement continu, donc il faut ouvrir une autre console et faire un petit killall wget !
Juste une précision pour les débutant (cela m'aurais fais chier que wget télécharge pendant des heures si je ne savais comment l'arrêter !!)

wido

on fait un ctrl+c pour tuer l'application dans la même console.

robinfredericf

Travaillant dans une imprimerie, je reçois tous les jours des commandes de calendriers avec des logos fournis par les clients en jpeg à 72 dpi alors qu'il les faudrait en vectoriel (ai, pdf ou eps, ou à la rigueur svg ou cdr) pour imprimer en Pantone ou plus rarement en quadri. Pourtant les graphistes qui leur ont créé leur logo ont dû leur fournir à coup sûr leur logo en ai ou en eps accompagné d'une vignette de prévisualisation en jpeg mais quand le responsable dans la société cliente n'y connaissant rien reçoit ça (par mail ou sur cd), il ne peut visualiser sur son pc windows que la vignette jpeg, en conclut que les ai ou eps sont des déchets du genre comme les fichiers thumbs qu'on trouve toujours partout dans les dossiers d'images et envoie la vignette à l'imprimerie. Dans d'autres cas, il envoient des logos jpeg ou png voire gif qu'ils ont simplement copiés sur le site web de leur société, le fait qu'un logo de 200x100 pixels par exemple ne convient pas à un imprimeur leur passant totalement au-dessus.

Donc pour éviter de contrarier le client j'essaie souvent de dégoter son logo en vectoriel sur le site web de sa société. Si le format svg avait été assez popularisé pour qu'on trouve le logo en svg au lieu de jpeg sur la page d'accueil, ça serait l'amérique (le seul petit défaut de ce format étant que c'est en RVB), seulement c'est un format assez rare sur les pages web. Sans ça si le logo a été incorporé en vectoriel dans une animation flash j'arrive aussi à le récupérer ouvrant l'animation .swf (et non la page html ou elle est incorporée) dans firefox et en imprimant vers un serveur d'impression qui crée des pdf. Mais le plus souvent mon seul espoir de trouver le logo vectoriel est qu'il apparaisse dans les fiches techniques, brochures et autres catalogues pdf à télécharger (s'ils ont été créés par un studio graphique compétent et pas par une secrétaire dans word ou excel). Mais ouvrir un par un tous les pdf depuis les innombrables pages jusqu'à en trouver un valable ou m'apercevoir qu'il n'y en a aucun d'utilisable prend trop longtemps.

J'ai donc fait pour gagner du temps des essais au travail sur Mac Os 10.5 et chez moi sur Ubuntu 9.04 pour aspirer tout les pdf d'un site avec wget et l'option -A mais ça marche pas trop

exemple de commande qui a marché
wget -r -l16 -A.pdf -e robots=off http://www.henkel.fr/
arrêté au bout de 4 h 1/2, récupéré 149 pdf (287.1 Mio) et rien d'autre (à part des dossiers vides)

mếme commande avec juste un autre site, marche pas
wget -r -l16 -A.pdf -e robots=off http://www.cga13.fr/
va savoir pourquoi, aucun pdf récupéré alors qu'il y en a 24 dans le répertoire http://www.cga13.fr/images/upload/upl/ comme on peut le constater si on aspire tout le site en supprimant "-A.pdf"

marche pas non plus
wget -r -l16 -A.pdf -e robots=off http://www2.hima.com/
aucun pdf récupéré alors qu'il y en a dans les sous répertoires "Actualites", "Contact" et "Meta", qu'on trouve si on aspire tout le site

systemex2

salut les amis
je veux savoir si on peut filtrer les fichiers telecharger avec wget
par exemple je ne veux telecharger que les pages qui commencent par tutoreil*
c'est fesable non??

wido

exemple:

wget -r -l5 -k -nc -E -A .jpg -R thumbbig-*.jpg thumb-*.jpg

cette commande télécharge uniquement les .jpg et exclus les fichiers commencant par thumbbig-*-.jpg

tout est expliqué dans:

man wget

« Page précédente Page suivante »