Ce site est optimisé pour être consulté depuis un navigateur moderne dans lequel JavaScript est activé.

TVDownloader: télécharger les médias du net ! [2]

bibichouchou

A k3c
j'ai fait les mêmes constats quand à l'utilisation du script de KSV.
le flux rtmp était bien utile car les séries n'étaient pas chiffrées. avec la version fragmentée, ce n'est pas le cas 🙁

ci-dessous une version corrigée de ton script pour tf1 et compagnie. je n'avais pas eu le temps de regarder avant. le problème pour les vidéos via http est que tu ne conserves pas l'agent utilisateur entre le début et la fin du script. donc j'ai corrigé cela. il arrive que les vidéos via http soient en plusieurs parties. j'ai donc fait une boucle pour trouver tous les chapitres et générer la commande correspondante à chaque fois. je regarde aussi si la vidéo est dispo en hd et si c'est le cas, sélectionne cette qualité automatiquement. bon, j'ai essayé de coller à ton code et ta façon de coder pour que ça ne fasse pas trop patchwork, mais je crois que mes habitudes de codage ont pris le dessus 😃 je te laisse faire les modifs que tu juges nécessaires

Attention, la version du script ci-dessous se contente de générer les lignes de commandes et de les afficher. Il faut les lancer manuellement par la suite.

#!/usr/bin/python
#-*- coding:utf-8 -*-

import subprocess, optparse, re, sys, shlex
import socket
from urllib2 import urlopen
import time, md5, random, urllib2, json
import bs4 as BeautifulSoup

listeUserAgents = [ 'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_5_5; fr-fr) AppleWebKit/525.18 (KHTML, like Gecko) Version/3.1.2 Safari/525.20.1',
                                                'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.186 Safari/535.1',
                                                'Mozilla/5.0 (Windows; U; Windows NT 6.0; en-US) AppleWebKit/525.13 (KHTML, like Gecko) Chrome/0.2.149.27 Safari/525.',
                                                'Mozilla/5.0 (X11; U; Linux x86_64; en-us) AppleWebKit/528.5+ (KHTML, like Gecko, Safari/528.5+) midori',
                                                'Mozilla/5.0 (Windows NT 6.0) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/13.0.782.107 Safari/535.1',
                                                'Mozilla/5.0 (Macintosh; U; PPC Mac OS X; en-us) AppleWebKit/312.1 (KHTML, like Gecko) Safari/312',
                                                'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.12 Safari/535.11',
                                                'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.8 (KHTML, like Gecko) Chrome/17.0.940.0 Safari/535.8' ]

WEBROOTWAT          = "http://www.wat.tv"
wat_url      = "/web/"
jsonVideosInfos    = ""
ua = random.choice(listeUserAgents)

def get_soup(url, referer, ua):
    """ on récupère la soupe """
    req  = urllib2.Request(url)
    req.add_header('User-Agent', ua)
    req.add_header('Referer', referer)
    soup = urllib2.urlopen(req).read()
    return soup

def get_wat(id, HDFlag):
    """la fonction qui permet de retrouver une video sur wat"""
    def base36encode(number):
        if not isinstance(number, (int, long)):
            raise TypeError('number must be an integer')
        if number < 0:
            raise ValueError('number must be positive')
        alphabet = '0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZ'
        base36 = ''
        while number:
            number, i = divmod(number, 36)
            base36 = alphabet[i] + base36
        return base36 or alphabet[0]

    if HDFlag:
        wat_url = "/webhd/"
    else:
        wat_url = "/web/"

    ts = base36encode(int(time.time())-60)
    timesec = hex(int(ts, 36))[2:]
    while(len(timesec)<8):
        timesec = "0"+timesec
    token = md5.new("9b673b13fa4682ed14c3cfa5af5310274b514c4133e9b3a81e6e3aba00912564"+wat_url+str(id)+""+timesec).hexdigest()
    id_url1 = WEBROOTWAT+"/get"+wat_url+str(id)+"?token="+token+"/"+str(timesec)+"&country=FR&getURL=1"
    return id_url1

def main():
    """ recuperation de vidéos sur TF1/TMC/NT1/HD1 (donc WAT)"""
    # timeout en secondes
    socket.setdefaulttimeout(90)
    usage   = "usage: python tmc_tf1.py     [options] <url de l'emission>"
    parser  = optparse.OptionParser( usage = usage )
    parser.add_option( "--nocolor",         action = 'store_true', default = False, help = 'desactive la couleur dans le terminal' )
    parser.add_option( "-v", "--verbose",   action = "store_true", default = False, help = 'affiche les informations de debugage' )
    ( options, args ) = parser.parse_args()
    if( len( args ) > 2 or args[ 0 ] == "" ):
        parser.print_help()
        parser.exit( 1 )
    debut_id = ''
    html = urllib2.urlopen(sys.argv[1]).read()
    nom = sys.argv[1].split('/')[-1:][0]
    no = nom.split('.')[-2:][0]
    soup = BeautifulSoup.BeautifulSoup(html)
    if 'tmc.tv' in str(soup) or 'tf1.fr' in str(soup):
        debut_id = str(soup.find('div', attrs={'class' : 'unique' }))
    if 'nt1.tv' in str(soup) or 'hd1.tv' in str(soup):
        debut_id = str(soup.find('section', attrs={'class' : 'player-unique' }))
    id = [x.strip() for x in re.findall("mediaId :([^,]*)", debut_id)][0]
    referer = [x.strip() for x in re.findall('url : "(.*?)"', debut_id)][0]
    jsonVideoInfos = get_soup(WEBROOTWAT+'/interface/contentv3/'+id, referer, ua)
    videoInfos     = json.loads(jsonVideoInfos)

    try:
        HD = videoInfos["media"]["files"][0]["hasHD"]
    except:
        HD = False

    NumberOfParts = len(videoInfos["media"]["files"])
    ListOfIds = []
    for iPart in range(NumberOfParts):
        ListOfIds.append(videoInfos["media"]["files"][iPart]["id"])

    for PartId in ListOfIds:
        id_url1 = get_wat(PartId, HD)
        req  = urllib2.Request(id_url1)
        req.add_header('User-Agent', ua)
        req.add_header('Referer', referer)
        data = urllib2.urlopen(req).read()

        if data[0:4] == 'http':
            arguments = 'curl "%s" -C - -L -g -A "%s" -o "%s.mp4"' % (data, ua, no + "-" + str(PartId))
            print arguments

        if data[0:4] == 'rtmp':
            data0 = re.search('rtmpte://(.*)hd', data).group(0)
            data0 = data0.replace('rtmpte','rtmpe')
            cmds = 'rtmpdump -e -r "%s" -c 443 -m 10 -w b23434cbed89c9eaf520373c4c6f26e1f7326896dee4b1719e8d9acda0c19e99 -x 343427 -o "%s.mp4"' % (data0, str(no) + "-" + str(PartId))
            print cmds

if __name__ == "__main__":
    main()

exemple

./script_tf1_k3c.py "http://videos.tf1.fr/la-croisiere/la-guerre-des-classes-7880211.html"

donne qch comme ça (deux commandes curl pour chacune des parties)

curl "http://4med.wat.tv/................" -C - -L -g -A "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_5_5; fr-fr) AppleWebKit/525.18 (KHTML, like Gecko) Version/3.1.2 Safari/525.20.1" -o "la-guerre-des-classes-7880211-9872393.mp4"

curl "http://3med.wat.tv/................" -C - -L -g -A "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_5_5; fr-fr) AppleWebKit/525.18 (KHTML, like Gecko) Version/3.1.2 Safari/525.20.1" -o "la-guerre-des-classes-7880211-9872395.mp4"

ynad

... en fait j'ai presque trouvé il faut mettre .f4m dans le filter, cliquer sur l'url qui se termine par .f4m copier l'url dans la fenetre qui s'ouvre, sauf que là il y a "DRM" c'est cuit...

bibichouchou

k3c,

es-tu sur que le module xbmc pour m6 fonctionne ? je n'ai pas la possibilité de le tester.

k3c

ynad a écrit@ k3c

bonjour,
je viens d'essayer pour "66 minutes" avec la ligne de commande que tu donnes et ça marche parfaitement.
je n'ai pas bien compris comment trouver l'adresse; pour l'appliquer à l'emission d'hier soir "http://www.m6replay.fr/#/scenes-de-menages/11280864-ils-en-font-tout-un-prime-1ere-partie"

merci

j'ai chercher le manifest avec "tools-->web developer-->web console filter manifest" la liste s'efface, j' ai essayer aussi avec 66 minutes pareil...

Il faut lancer Firefox et y installer le HDS link detector de KSV, qui t'affiche la commande

php AdobeHDS.php --manifest "http://lb.cdn.m6web.fr/s/cgd/5/df25e3a58002e6531925112db501601a/514a223e/RlI%3D/hds/b/b/1/Scenes-de-menages_c11280864_Ils-en-font-tout-u/Scenes-de-menages_c11280864_Ils-en-font-tout-u.f4m" --delete

                            KSV Adobe HDS Downloader

Processing manifest info....                                                   
Quality Selection:                                                             
 Available: 800 600 400
 Selected : 800                                                                
Unknown packet type 41 encountered! Encrypted fragments can't be recovered.

hélas ce flux est chiffré

Lis
https://github.com/K-S-V/Scripts/wiki

k3c

bibichouchou a écritk3c,

es-tu sur que le module xbmc pour m6 fonctionne ? je n'ai pas la possibilité de le tester.

Oui, il fonctionne, je viens de jouer avec sur mon Raspberry, je suppose qu'il utilise les flux pour Ipad/téléphone mobile
Attention tout ne marche pas, de temps en temps, une vidéo dans un groupe ne marche plus, puis remarche plus tard
Mais les sites du groupe M6 (W9, 6ter) ont toujours été une plaie

k3c

bibichouchou a écritci-dessous une version corrigée de ton script pour tf1 et compagnie. je n'avais pas eu le temps de regarder avant. le problème pour les vidéos via http est que tu ne conserves pas l'agent utilisateur entre le début et la fin du script. donc j'ai corrigé cela. il arrive que les vidéos via http soient en plusieurs parties. j'ai donc fait une boucle pour trouver tous les chapitres et générer la commande correspondante à chaque fois. je regarde aussi si la vidéo est dispo en hd et si c'est le cas, sélectionne cette qualité automatiquement

Merci pour ces explications. Tu vas rire, je regardais ma commande en ignorant le user agent, en me disant que ça n'avait aucune importance.
Tout s'éclaircit :-)

bibichouchou

k3c,
je pense que le module m6 que tu indiques est obsolète. il repose sur le catalogueW3.xml qui n'est plus mis à jour depuis belle lurette.
je pense que tu utilises le module appelé m6groupe voir les liens :

forum de discussion
téléchargement

est-ce que tu accèdes aux épisodes body of proof par exemple ?

k3c

@ bibichouchou

Le problème avec les plugins pour xbmc, c'est qu'il y en a plein, par exemple au moins 3 pour Pluzz, et un seul marche.
Je prends tout sur passion-xbmc.

Honnêtement j'ai vu que je pouvais voir quelques vidéos sur M6, je n'ai pas testé plus que ça pour M6. Je vais essayer de trouver un instant.

inbox

Je pointe pour suivre la suite du sujet.

11gjm

Bonjour ,

Pour apporter ma pierre à la recherche . Sous Win xp .

Certaines émissions de M6 , sans DRM , passent .
Dans mon cas , je laisse la vidéo (intiale) continuer ou en pause .
Et , je lance le batch (ksv) , qui récupère les fragments .

Concernant celles ayant un DRM , captvty les récupèrent .
Associé à VLC , on peut enregistrer la vidéo .

Elle est en anglais , sous-titrée en français .

Il faudrait rechercher des flux du genre .m3u8 .

A+ .

k3c

>>>Concernant celles ayant un DRM , captvty les récupèrent .
Associé à VLC , on peut enregistrer la vidéo .

Je suis dubitatif.
Tu peux poster un
mediainfo
sur ces vidéos ?

11gjm

Bonjour ,

@k3c : je fais des tests , et reviendrai avec les infos .

A+ .

ADDITIF

J'ai fait une erreur d'interprétation .
Seules les vidéos SANS drm , sont enregistrables .
En DL ; directement ou en utilisant VLC .

Mes excuses !!!

k3c

@ 11gjm
Merci pour ton temps

@ bibichouchou
J'ai ajouté l'exécution de la commande générée, ce qui marche parfaitement pour tf1, mais pas pour TMC
Je regarde pour faire un script qui marche pour tout Wat (TF1, TMC, NT1, HD1)

mulder29

Ah on a changé de topic... bon, ben, juste pour dire que chez moi, ça marche enfin. Merci pour tout.

😉

11gjm

Bonjour ,

@bibichouchou :

Dans le post #1 , tu indiques avoir récupéré les 2 adresses :
"http://4med.wat.tv/................"
"http://3med.wat.tv/................"

( Je suis sous Win xp )
Mon problème est , que je vois bien , ces adresses , à l'écran (fenêtre dos).
Mais comment faire pour les récupérer dans un fichier .txt ou autre , afin de les exploiter .

Merci , pour ta réponse .

A+ .

bibichouchou

Bonjour,

A 11gjm
le problème est que je ne connais plus grand chose de windows et sa tentative de console 😃
ne peux-tu pas rediriger la sortie vers un fichier texte ? (solution la plus simple)
sinon il faut modifier le code python pour écrire dans un fichier du genre (non testé) :

logfile = open("commandes.txt", 'w')
logfile.write(arguments)
logfile.close()

à mettre dans le bloc if après

print arguments

11gjm

Bonjour ,

@bibichouchou : Merci , pour ta réponse .
Je vais essayer .

A+ .

11gjm

Bonjour ,

@bibichouchou : Constats .

1) Le script du post #1 fonctionne ( téléchargements en cours ) .
2) Il manque une indication "équivalente" à '--resume' en fin d'instruction du curl .
Sinon vidéo illisible en cas ce coupure du DL .
3) Le port , dans la partie rtmp , est indiqué à 443 .
Si , il doit être à 1935 , il n'y aura pas de lien récupéré (?) .
( à condition , aussi , que le flux soit du rtmp , bien entendu ) .

4) Concernant ma demande spécifique . Il me faudrait une boucle .
En effet , le deuxième passage écrase le 1er ; je n'ai que le curl , pour l'épisode 2.
---
print arguments
logfile = open("Cdes_curl_1.txt", 'w')
logfile.write(arguments)
logfile.close()
---
J'ai tenté plusieurs choses , mais ne connaissant pas le python . Je bloque .
Merci pour la réponse .

Cordialement .

bibichouchou

a 11gjm
désolé je suis un vrai béta. tu as parfaitement raison la boucle écrase le fichier à chaque fois.
essaye ceci. c'est pas très joli car ça fait autant de fichier que de parties mais c'est rapide et simple (les modifs se font à un seul endroit). sinon il faudrait ouvrir le fichier avant le bloc for et le fermer après. tu peux essayer de le faire toi-même...

il me semble que la commande curl a déjà l'option de reprise intégrée. je l'ai testé mercredi et le téléchargement continuait.

a k3c pourras tu penser à faire une sortie propre des commandes dans un fichier texte lors de la refonte de ton script. on sait que ça servira au moins à une personne 😃

logfile = open("commandes" + str(PartId) + ".txt", 'w')
logfile.write(arguments)
logfile.close()

pour récupérer la commande rtmp, tu peux écrire

logfile = open("commandes" + str(PartId) + ".txt", 'w')
logfile.write(cmds)
logfile.close()

dans le bloc if correspondant et après la ligne :

print cmds

11gjm

Re-... ,

@bibichouchou : Merci pour ton aide .

> il me semble que la commande curl a déjà l'option de reprise intégrée
Je ne le pense pas . Au bout de 80% de la 1ère partie : arrêt et pas de reprise .

ÉDIT
La commande existe concernant la reprise : " -C "

> ça fait autant de fichier que de parties
Ce n'est pas un problème , cela évite les erreurs de recopie : écran => traitement de texte

Cordialement .

Page suivante »