Ce site est optimisé pour être consulté depuis un navigateur moderne dans lequel JavaScript est activé.

[Script/bash] [Tutoriel] Reconnaissance vocale et de la parole -p1

kholo

Reconnaissance vocale et de la parole
Partie 1 : les bases
je vais coller à la doc et tenter d'aller un peu plus loin
Cela n'est qu'une partie car le travail supplémentaire consiste à adapter les fichiers de dictionnaires et de grammaires pour améliorer PocketSphinx... mais c'est pas gagné !

synopsis
on va utiliser PocketSphinx pour la première partie. L'idée est d'arriver à quelque chose de fonctionnel (comme la doc) et d'aller un petit peu plus loin (programmation de la première couche de compréhension).
Il reste encore des améliorations à faire car, par exemple, si on lance un processus, la reconnaissance est accaparée et, donc, impossible de fermer ce processus avec une commande vocale... mais cela viendra.

Installations
Créez un dossier bin dans votre dossier personnel pour y mettre les scripts suivants :

mkdir $HOME/bin

maintenant ouvrez un terminal (ctrl + alt + t)
copiez d'un bloc ces lignes
pour faire l'installation des logiciels, des dictionnaires et fichiers accessoires.
ou passer par un fichier script :

#!/bin/bash
# installation de pocketsphinx
# Depuis la doc Ubuntu
# https://doc.ubuntu-fr.org/pocketsphinx

sudo apt-get install python-pocketsphinx libpocketsphinx1 gstreamer0.10-pocketsphinx python-pyaudio

wget -O lium_french_f0.tar.gz http://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/Archive/French%20F0%20Broadcast%20News%20Acoustic%20Model/lium_french_f0.tar.gz/download
tar -xvzf lium_french_f0.tar.gz
cd lium_french_f0/
sudo mkdir -p $(pkg-config --variable=modeldir pocketsphinx)/hmm/fr_FR/french_f0
sudo mv * $(pkg-config --variable=modeldir pocketsphinx)/hmm/fr_FR/french_f0

wget -O french3g62K.lm.dmp http://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/French%20Language%20Model/french3g62K.lm.dmp/download
sudo mkdir -p $(pkg-config --variable=modeldir pocketsphinx)/lm/fr_FR/
sudo mv french3g62K.lm.dmp $(pkg-config --variable=modeldir pocketsphinx)/lm/fr_FR/

wget -O frenchWords62K.dic http://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/French%20Language%20Model/frenchWords62K.dic/download
sudo mv frenchWords62K.dic $(pkg-config --variable=modeldir pocketsphinx)/lm/fr_FR/

wget -O lium_french_f2.tar.gz http://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/Archive/French%20F2%20Telephone%20Acoustic%20Model/lium_french_f2.tar.gz/download

echo "# Pour tester exécuter cette ligne dans une console
pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/FR/frenchWords62K.dic -hmm /usr/share/pocketsphinx/model/FR/ -lm /usr/share/pocketsphinx/model/FR/french3g62K.lm.dmp
"

Les Modules
1. Ecoute
2. Parser-ecoute
3. Traite-parseur
4. Parse_dico

On va créer des fichiers et les rendre exécutable puis utiliser un script pour lancer "ecoute" dans un terminal et "parser-ecoute" dans un autre.

1. Ecoute
c'est pocketsphinx et sa configuration de base (dictionnaire plein… trop même !)
il en ressort un fichier texte que l'on va lire au fur et à mesure qu'il sera écrit

2. Parser-ecoute
On lit ligne par ligne et en continu le fichier issu de la reconnaissance de Ecoute

3. Traite-parseur
le premier traitement des instructions
ici seront les commandes communes et les changements de mode à ajouter plus tard.

4. Parse_dico
deuxième niveau du traitement si le mot ou la phrase n’appartiennent pas à traite-parseur, on va chercher plus loin en fonction du mode de recherche

Les scripts en bash
1. Ecoute
créez le fichier : ecoute
(pas de majuscule ni d'accent ni d'espace ou d’extension)

> $HOME/bin/ecoute
chmod +x $HOME/bin/ecoute