Ce site est optimisé pour être consulté depuis un navigateur moderne dans lequel JavaScript est activé.

[projet] raccourcis sonores: exécuter des commandes grâce à des sons

kenjiu2002

La page du forum ubuntu consacrée à sphinx:
http://doc.ubuntu-fr.org/cmu_sphinx
.
La page du forum ubuntu consacrée à la reconnaissance vocale:
http://doc.ubuntu-fr.org/reconnaissance_vocale
.
Le topic sur sphinx initié par temps:
http://forum.ubuntu-fr.org/viewtopic.php?id=411915
.
Le topic sur la reconnaissance vocale initié par seb24:
http://forum.ubuntu-fr.org/viewtopic.php?pid=3532304

sharkgua

Ne serais t-il pas plus facile de modifier directement des logiciels existants ? (tel que gnome voice control ) ?

YannUbuntu

effectivement si ca existe deja ... 😃 http://live.gnome.org/GnomeVoiceControl

l@in

c'est vrai ^^ il faut dire que je vien de window alor les logiciel livré avec le code source je connaisais pas ! XD

kenjiu2002

La petite vidéo en anglais sur gnome-voice-control n'est pas du tout convaincante. On peut sans doute faire beaucoup mieux. A priori on a le choix entre se servir d'une solution existante (sphinx), ce qui présente un gain de temps d'un côté, mais aussi des contraintes, ou bien concevoir nous-même nos propres outils de reconnaissance.

kenjiu2002

sharkgua a écritNe serais t-il pas plus facile de modifier directement des logiciels existants ? (tel que gnome voice control ) ?

Il est parfois plus simple de recommencer à zéro notre propre programme que de tenter de le modifier. Alors le programme d'un autre... À mon sens la première étape est de recenser toutes les techniques existant afin de pouvoir faire les meilleurs choix techniques en toute connaissance de cause. Une fois ces choix techniques effectués, il s'agira de faire des choix logiques, concernant le programme même. Une fois le "logigramme" établi, il sera temps de s'attaquer aux fonctions et au code principal. C'est la partie la plus amusante. Mais pour l'instant, nous en sommes à la partie la plus rébarbative mais qui va nous permettre d'apprendre beaucoup de choses: la documentation.

kenjiu2002

Une question qui me vient à l'esprit: j'ai cru lire dans la doc de sphinx qu'il utilise tout un faisceau de paramètres pour la reconnaissance vocale. Ne pourrions-nous pas envisager un paramètre unique de reconnaissance de son quel qu'il soit ? Ce module ne pourrait-il pas ensuite servir de base à n'importe quel logiciel de reconnaissance vocale (1) soucieux d'économiser du temps et du CPU ? Les sons fréquemment entendus ne pourraient-ils pas être nommés et répertoriés dans une liste allant des sons comme le claquement de doigts à des sons "linguistiques" de n'importe quelle langue qu'ils soient ?
.
(1) c'est la question: y a t-il un module de reconnaissance de son de base pour sphinx que nous pourrions récupérer pour nous amuser un peu avec ?

sharkgua

kenjiu2002 a écritLa petite vidéo en anglais sur gnome-voice-control n'est pas du tout convaincante. On peut sans doute faire beaucoup mieux. A priori on a le choix entre se servir d'une solution existante (sphinx), ce qui présente un gain de temps d'un côté, mais aussi des contraintes, ou bien concevoir nous-même nos propres outils de reconnaissance.

Bonne idée mais il faut être vachement bon en prog pour reussir cette exploit !
créer des algorythmes pour que tel son soit le même que tel autre son il faut être (je pense) vachement doué Oo

kenjiu2002

sharkgua a écritBonne idée mais il faut être vachement bon en prog pour reussir cette exploit !
créer des algorythmes pour que tel son soit le même que tel autre son il faut être (je pense) vachement doué Oo

Oui c'est sur... bon nous, on est peut-être pas doués à ce point, mais on est nombreux et bénévoles, c'est un avantage. Et puis je me dis une chose simple, mais qui n'est pas facile à expliquer: c'est que les logiciels de reconnaissance vocale ont pour but premier de retranscrire des mots-audio en mots-texte, alors que notre objectif premier à nous est plutôt de controler le PC avec un minimum d'efforts, un minimum d'énervement et un maximum d'efficacité (cf la vidéo de gnome-voice-control). La reconnaissance de mots est bien plus lourde et plus complexe que la simple comparaison de deux échantillons sonores (dans le but d'établir un taux de correspondance) même si c'est un peu plus compliqué que cela.
.
J'ajouterais que finalement, la partie la plus intéressante est précisément le fonctionnement de cet "algorythme". J'ai quelques vagues idées sur le sujet. Je pars de la courbe sonore telle qu'on peut la contempler dans un logiciel de son, et je me pose des questions. Car ce qui n'apparaît pas au premier abord sur cette courbe, c'est sa profondeur. En zoomant, on se rend compte que des ondes plus courtes se superposent aux ondes plus longues. Et plus on zoome, plus les détails apparaissent. Cette profondeur du son m'intrigue un peu. Si on voulait créer un algorythme de reconnaissance, et si on décidait par exemple de ne retenir que les maxima et les minima de l'onde sonore, à quelle échelle devrait-on se situer ? Et sur quelle durée devrions nous agir ? Où sont les timbres des sons ? Où est l'environnement acoustique de la pièce ou du lieu ? Où se trouve la différence entre le même mot prononcé par deux personnes différentes physiquement sur la courbe ? Ce ne sont que de simples interrogations pour l'instant, mais j'ai bon espoir qu'il existe une méthode simple de détection. Peut-être est-ce déja le cas dans le programme de sphinx. Je ne sais pas, je suis encore dans la phase de documentation.
.
A propos des courbes sonores, je voudrais ajouter une dernière réflexion. Étant audiophile et donc concerné par la certaine perte de qualité liée au passage de l'analogique au numérique, j'ai été ravi d'apprendre que le mp3 - laissons à part la problématique des formats propriétaires - encode les sons sous forme d'équations. Au lieu de retenir un ensemble de points de coordonnées X et Y, on retient une courbe de telle amplitude et telle fréquence dont l'intensité varie dans un laps de temps déterminé. Je trouve ça très bien, parce que à l'instar des images vectorielles-vs-bitmap, on peut toujours recalculer les points en fonction de la définition disponible. J'ai donc un autre rêve tout aussi fou que celui-ci qui serait la conversion directe depuis l'analogique vers un format numérique mais sans passer par une numérisation classique en forme d'escalier. On devrait pouvoir, avec le matériel adéquat, encoder directement un vinyl dans un format numérique entièrement constitué d'équations, avec une qualité qui devrait friser avec la qualité de profondeur "infinie" de l'analogique, chose que le numérique de type "bitmap" n'arrivera jamais à faire aussi bien, et fera toujours de façon beaucoup plus lourde et beaucoup moins naturelle. Un son est une onde. Une onde est une courbe. Une courbe est une équation. Il est donc plus logique d'enregistrer une équation qu'un ensemble de points. La qualité du vinyl dans nos PC, et peut-être même au delà... les équations complexes de Miles Davis dans nos diffuseurs... Mais laissons là ces rêveries et revenons à nos moutons. Cette réflexion servait juste à introduire l'idée des équations correspondant aux sons.
.
Une théorie veut que tout signal complexe comme celui d'une onde sonore puisse être décomposé en une somme de sinusoïdes simples (cf les transformées de Fourier). Ce qu'il nous faudrait, toujours dans l'idée d'un système simple pour commander le PC par la voix, c'est trouver la façon de faire qui demande le moins de ressources possibles, mais qui garantit bien entendu le minimum de résultats attendus. Je pense qu'il faut "filtrer directement la source". Le son doit couler à travers notre programme et en coulant, il doit modifier des variables au passage. Variables qui dans certaines conditions déclencherons le passage à 1 d'autres variables, en conséquence de quoi les commandes correspondantes seront exécutées. Pas compliqué, si ? Et bien sur ça n'empêche pas d'expérimenter aussi du côté de sphinx. En jouant sur les deux côtés (à plusieurs) on devrait obtenir des résultats plus ou moins rapides, en fonction du taux de participation au projet. Venez nombreux.
.

l@in

je crois que tu a mal compris la différence entre gnome voice controleur ^^

sphinx est une librairie gnome voice controleur est un logiciel quiutilise la librairie sphinx mais ne l'exloite pas a fond

une librairie c'est un peu comme des commande predefinie en programation il y a different languague est pour eviter de tout ecrire en chifre binaire il y a des commande et ses commande sont regrouper en librairie
comme "stdio.h" et "stdlib.h" qui te permet d'ecrire les principale fonction printf scanf etc..

l@in

Les sons fréquemment entendus ne pourraient-ils pas être nommés et répertoriés dans une liste allant des sons comme le claquement de doigts à des sons "linguistiques" de n'importe quelle langue qu'ils soient ?
.

si j'ai bien compri c'est a sa que sert le modeldir (repertoire de model) comme l'exemple dans cette page :
http://cmusphinx.sourceforge.net/wiki/tuturialpocketsphinx
d'ailleur sur internet j'avais vue un site repertoriant plein de model de sons je en sais plus ou

par exemple ici on a aparement le model tortue (turtle.DMP

#include <pocketsphinx.h>


int
main(int argc, char *argv[])
{
        ps_decoder_t *ps;
        cmd_ln_t *config;

        config = cmd_ln_init(NULL, ps_args(), TRUE,
                             "-hmm", MODELDIR "/hmm/en_US/hub4wsj_sc_8k",
                             "-lm", MODELDIR "/lm/en/turtle.DMP",
                             "-dict", MODELDIR "/lm/en/turtle.dic",
                             NULL);
        if (config == NULL)
                return 1;

        return 0;
}

kenjiu2002

Tu as tout à fait raison. J'ignorais que gnome-voice-control était basé sur sphinx. Ce qui est logique finalement puisque des librairies pour la reconnaissance vocale, il n'y en a pas 50 sur ubuntu.
.
Ok donc apparemment, ce code fait appel au fichier hub4wsj_sc_8k qui est surement un fichier son enregistré en 8k/sec. Sphinx ferait-il systématiquement appel à des fichiers son pour les comparer au son du micro ? Je suis un peu étonné. Et en même temps pas du tout. Parce que si gnome-voice-control est basé sur sphinx, et si il semble tellement lent sur la petite video, c'est peut-être à cause de sphinx. C'est peut-être sphinx qui est lent. Si il doit comparer pleins d'échantillons sonores au moindre bruit capté par le micro, ça ne m'étonne pas que c'est lent. Les tests de sphinx nous le diront.
.
Je suis étonné car pourquoi ne pas utiliser une signature du signal plutôt que le signal lui-même ? Par "signature" j'entends une réécriture des modèles de sons dans un format qui serait certes inécoutable mais qui permettrait de déterminer rapidement le taux de correspondance. Pour expliquer l'idée j'avais pris l'exemple de ne retenir que les minima et les maxima de la courbe sonore, mais ce n'est que la première idée qui m'est venue. On pourrait préférer enregistrer le son sous forme d'équations, par exemple. En tout cas 8k c'est trop, et en même temps pas assez. C'est trop lourd à traiter et la qualité de correspondance n'est pas suffisante. On le voit dans la vidéo, le gars doit souvent répéter. Bon, je parle beaucoup mais je ne lis pas beaucoup et je ne teste pas beaucoup. Heureusement que tu es là, l@in. N'hésite pas à coller les infos que tu trouves interressantes, et merci !
.
[édit] si je comprends bien sphinx agit en trois temps. D'abord il repère les sons dans sa base de modèles, et ensuite peut-être qu'il met bout à bout les retranscriptions phonétiques correspondant aux sons pour enfin retrouver les mots correspondants dans son dictionnaire. Simple supposition. Si ça se passe comme ça, alors peut-être que nous pourrions envisager d'enregistrer nos propres modèles de sons (voir même effacer tous ceux de sphinx). Resterait alors à déclencher à partir de là l'exécution des commandes souhaitées, car nous n'avons pas besoin de retranscrire quoi que ce soit donc pas besoin de phonétique ni de dictionnaire. Lecture.
.

sharkgua

Sphinx a énormément de fichiers de "voix" (230mo pour la VF) (lien) donc en n'en utilisant que tres peut (10mo max) le logiciel serais beaucoup plus rapide. Pour cela il faudras mettre les mains dans le code source de Sphinx.
Le mieux (ce que ne fais pas, je crois, gnome voice controler (que j'ai tester et qui n'es pas si nul que cela)) serais d'avoir qu'un seul logiciel qui reunisse basse de donnée ET reconnaisance vocal :
Gnome-voice-controler : Mots de l'utilisateur ---> analyse GVC ---> comparation avec sphinx ---> resultat
Logiciel x : Mots de l'utilisateur ---> analyse logiciel ---> resultat
Il serais beaucoup plus rapide et consommerais moins de resources (normalement) car un seul logiciel tournerais et non pas deux.

kenjiu2002

Intéressant. Il faudrait que j'en apprenne d'avantage sur la détection de sphinx. À quoi correspondent les modèles au juste ? à des phonèmes ? à des syllabes ? En fonction des réponses, on pourra choisir d'agir au niveau de la détection des modèles comme évoqué précédemment, au niveau des retranscriptions phonétiques (ou de ce qui doit y ressembler), ou au niveau du dictionnaire, ce qui à priori serait le plus simple (et le plus lourd comme souvent). Qu'en est-il de la license de sphinx ? C'est du pur open ou pas ? J'avoue que je m'y perd un peu. Avons-nous le droit de le modifier et de l'utiliser librement (et à vie) ?

sharkgua

kenjiu2002 a écritQu'en est-il de la license de sphinx ? C'est du pur open ou pas ? J'avoue que je m'y perd un peu. Avons-nous le droit de le modifier et de l'utiliser librement (et à vie) ?

D'apres le fichier d'installation de sphinx :
Installation Instructions
*************************

Copyright (C) 1994, 1995, 1996, 1999, 2000, 2001, 2002, 2004, 2005,
2006, 2007, 2008, 2009 Free Software Foundation, Inc.

Copying and distribution of this file, with or without modification,
are permitted in any medium without royalty provided the copyright
notice and this notice are preserved. This file is offered as-is,
without warranty of any kind.

Donc en gros : modifiez, on vous en encourage =D

kenjiu2002

Super, bonne nouvelle.
Bon, le mieux finalement, c'est peut-être encore d'écrire un nouveau code source en se servant de la librairie sphinx, et en a la modifiant si nécessaire (en redécoupant certaines fonctions). Il faudrait s'interresser aux fonctions disponibles et voir comment on peut les utiliser au mieux dans notre contexte.

winniemiel05

Il y a pas mal d'idées sur le brainstrom à ce propos. C'est vrai que je jusque là Canonical et les devs Ubuntu ne semblent pas avoir porter grand interet au brainstrom, mais ils ont promis de regarder chaque moi l'idée la plus populaire (je crois ). reste à réussir à en rendre une populaire..... telle que http://brainstorm.ubuntu.com/idea/19064/

kenjiu2002

Merci pour l'info. Je viens de soumettre notre idée là-bas avec un lien vers ici et vis versa:
.

.
N'hésitez pas à vous créer un compte pour pouvoir voter, c'est vite fait. 😃
.

kenjiu2002

Sur le Brainstorm, il est fait mention de simon, un programme allemand pour controler tout par la voix. C'est au départ prévu pour les personnes handicapées. Une solution de plus à tester:
.
http://simon-listens.org/index.php?id=128&L=1
http://sourceforge.net/projects/speech2text/
http://kde-apps.org/content/show.php/simon+%28Speech+Interaction+Daemon%29?content=73815
.

kenjiu2002

Une chose qui serait sympa et qui sera probablement envisagée tôt ou tard (j'en parle tant que j'y pense) c'est un système permettant d'utiliser les raccourcis sonores et la reconnaissance vocale dans un environnement bruyant. Il s'agira dans le cas du bruit ambiant (TV, conversations, voitures, etc) d'isoler la voix de l'utilisateur de ce bruit ambiant, et dans le cas du son produit par le PC lui-même, de soustraire directement le signal de sortie du serveur de son au signal d'entrée du micro, à l'instar du système de réduction de bruit développé si je ne m'abuse par Sennheiser.
.
Ce système repose sur le principe qui veut que deux ondes identiques en opposition de phase s'annulent. Dans le cas des casques Sennheiser, il suffit dés lors de capter le son ambiant grâce a des micros, de l'inverser, et de l'ajouter au son envoyé dans les écouteurs. Autrement dit, vous êtes dans le train où dans n'importe quel lieu bruyant et vous n'entendez que votre musique grâce à votre casque, qui en plus d'être insonorisé, annule le bruit ambiant.
.
Dans notre cas c'est pareil, sauf que c'est différent. On prend le signal de sortie de notre serveur de son, on le pondère au passage en fonction du rapport entre le volume de sortie et le "volume" de la voix de l'utilisateur, on l'égalise éventuellement en fonction du types de diffuseurs (portables, enceintes de bureau, home cinéma, etc) pour ensuite l'inverser, puis l'ajouter au signal capté par le microphone, et enfin analyser le signal résultant à l'aide de notre programme de reconnaissance de sons. Ceci devrait faciliter grandement la reconnaissance en milieu hostile (je voulais dire bruyant) et augmenter l'efficacité globale du système. La différence avec le système Sennheiser, c'est que nous, il faut quand même que l'ordinateur entende ce qu'on lui dit. C'est même le but...
.
Concernant le bruit ambiant (cf les discussions potentielles dans la pièce, avec potentiellement tous les mots de la langue française, dont ceux que nous n'aurons pas manqué d'utiliser dans nos "raccourcis sonores") l'isolement de la voix de l'utilisateur peut se révéler très utile. La technique devrait selon moi rester la même, à savoir: la comparaison de deux empreintes sonores avec plus ou moins de précision. Peut-être peut-on arriver à isoler le timbre de la voix, c'est une des questions que j'ai soulevé précédemment. À creuser. Mais on peut aussi envisager un autre système encore, dérivé lui aussi de celui de Sennheiser, explications:
.
On prend les bruits ambiants à caractère répétitif ou durable (bruit du ventilateur de l'ordinateur portable qui se répercute dans le micro par vibrations, bruits de travaux dans la rue, bruit métallique du compresseur d'un vieux frigo, bruit d'un téléphone qui sonne, etc) et on les "prolonge", après quoi on les inverse et en on les ajoute au signal du microphone comme précédemment, ceci afin d'améliorer encore la détection et de pouvoir plus facilement se servir du microphone intégré aux portables ou de tout autre microphone omnidirectionnel (c'est comme ça qu'on dit ?) et de ne pas avoir à porter de microphone sur soi. Mais tout ceci est un peu prématuré. C'est juste une note pour plus tard.
.
Maintenant que j'y pense: un paquet qui fonctionnerait comme le système de Sennheiser, et dont les vertus seraient les mêmes, ça aussi ça serait pas mal. Ça serait valable à l'aéroport avec le casque sur les oreilles... mais ça serait aussi valable quand on travaille à un bureau avec le casque sur les oreilles... L'idéal restant quand même les casques intégrant nativement ce système, dans la mesure où les micros sont - je suppose - situés idéalement au niveau des oreilles... logique. Mais ça vaudrait peut-être la peine de tester ça avec le simple micro intégré d'un ordinateur portable et bien sur avec celui d'un casque-micro. Il y a fort à parier que l'utilisation d'un serveur de son rapide comme par exemple jack associé à un noyau en temps réel (configuration de type studio) soient des conditions nécessaires au bon fonctionnement du système. Elles sont en tout cas profitables.
.
Ce qui me paraît souhaitable, dans la mesure où les programmes sont faits par des humains et pour des humains, c'est que ces programmes "calquent" le fonctionnement des humains. Dans le contexte qui est le notre, il s'agirait (j'ai "presque" envie de dire "il suffirait") de calquer la mécanique humaine d'écoute et de reconnaissance de sons. A fortiori pour la reconnaissance vocale, domaine dans lequel viennent s'ajouter des problématiques d'ordre linguistique que nous n'avons pas nous, dans le cadre de la reconnaissance de sons. Mais je laisse de côté la reconnaissance vocale pour l'instant sinon on ne va pas s'en sortir. Revenons à nos fonctions.
.
[édit] il est naturellement possible et même relativement probable que sphinx utilise des techniques similaires afin d'améliorer la qualité de la reconnaissance. Je l'ignore.
.
😛

« Page précédente Page suivante »