il te manque principalement la partie 1
0/ audio file
1/ Speech-To-Text (stt) from audio file; vocal anglais -> texte anglais
2/ traduction; c'est translate-shell ; texte anglais --> texte français
3/ Text-To-Speech (tts); espeak ou équivalent; texte français -> vocal français
0/ audio file
example: Le discours de Greta Thunberg à l'ONU ,
https:...
www.youtube.com/watch?v=W4e5l-XUmfI
L'avantage est que son discours est complètement sous-titré. Pas de voix parasites type interview.
youtube-dl -f bestaudio -x --audio-format flac https://www.youtube.com/watch?v=W4e5l-XUmfI
conversion en 16000 Hz
ffmpeg -i Le\ discours\ de\ Greta\ Thunberg\ à\ l\'ONU-W4e5l-XUmfI.flac -ar 16000 -ac 1 target.wav"
durée
duree=$(ffmpeg -i target.wav 2>&1 | awk 'BEGIN{FS=":"; FPAT="[0-9:]+"}; /Duration/{nf=split($2,p,/:/); print p[1]*3600+p[2]*60+p[3] }')
echo "$duree"
255
1/ transcription (Speech-To-Text) vocal anglais -> texte anglais
trans=$(python3 ~/scripts/audio_transcribe.py ~/tmps/target.wav)
NB: pour les gros fichiers wav, il faut les segmenter en plusieurs petits fichiers (split) . Normalement, l'api google fonctionne pour des fichiers de qq minutes de paroles (synchrone)
audio_transcribe.py ( ref
SpeechRecognition / Transcribe an audio file )
#!/usr/bin/env python3
import os, sys
import speech_recognition as sr
# obtain path to "english.wav" in the same folder as this script
from os import path
# AUDIO_FILE = path.join(path.dirname(path.realpath(__file__)), "english.wav")
# AUDIO_FILE = path.join(path.dirname(path.realpath(__file__)), "french.aiff")
# AUDIO_FILE = path.join(path.dirname(path.realpath(__file__)), "chinese.flac")
#AUDIO_FILE = path.join(path.dirname(path.realpath(__file__)), sys.argv[1])
AUDIO_FILE = os.path.realpath(sys.argv[1])
# use the audio file as the audio source
r = sr.Recognizer()
with sr.AudioFile(AUDIO_FILE) as source:
audio = r.record(source) # read the entire audio file
# recognize speech using Google Speech Recognition
try:
# for testing purposes, we're just using the default API key
# to use another API key, use `r.recognize_google(audio, key="GOOGLE_SPEECH_RECOGNITION_API_KEY")`
# instead of `r.recognize_google(audio)`
print(r.recognize_google(audio))
except sr.UnknownValueError:
print("Google Speech Recognition could not understand audio")
except sr.RequestError as e:
print("Could not request results from Google Speech Recognition service; {0}".format(e))
dépendances
sudo apt/aptitude install python3-pip python3-pyaudio
sudo -H pip3 install SpeechRecognition
2/ traduction via translate-shell : texte anglais -> texte français
trad=$(trans -t fr -b "$trans")
3/Text-To-Speech (tts); espeak ou équivalent; texte français -> vocal français
killall espeak; nohup espeak -v mb/mb-fr1 -s 100 --punct="." "$trad" 2>/dev/null & yad --title "traduction" --timeout="$duree" --autoclose --text "$trans\n\n$trad" || killall espeak