Aplicación de reconocimiento de voz para convertir MP3 a texto?

21

¿Alguien sabe de una aplicación que puede convertir audio en texto? Estoy ejecutando Ubuntu 12.04 LTS.

    
pregunta Kopano 09.07.2012 - 11:33

4 respuestas

16

El software que puede usar es CMUSphinx. A diferencia de lo sugerido en otra respuesta, Julius no es adecuado porque requiere modelos. Los modelos para reconocimiento de voz de gran vocabulario no están disponibles para Julius.

Puedes usar pocketsphinx para convertir archivos de audio. Esos dos comandos deben hacer el trabajo. Primero convierte el archivo al formato requerido y luego lo reconoce:

ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav

The run pocketsphinx

pocketsphinx_continuous -infile file.wav 2> pocketsphinx.log > result.txt

El resultado se almacenará en result.txt.

    
respondido por el Nikolay Shmyrev 20.02.2014 - 20:24
9

Si desea convertir voz en texto, podría intentar abrir su Centro de software de Ubuntu y buscar Julius

Descripción

  

"Julius" es un software decodificador de reconocimiento de voz continuo de alto rendimiento y dos pasos de vocabulario largo (LVCSR) para investigadores y desarrolladores relacionados con el habla.

u otra opción que no está en el Centro de software es Simon

  

... es un programa de reconocimiento de voz de código abierto y reemplaza el mouse y el teclado.

Enlaces de referencia

enlace

enlace

enlace

    
respondido por el CoalaWeb 09.07.2012 - 11:54
9

Sé que esto es antiguo, pero para ampliar la respuesta de Nikolay y, con suerte, para salvar a alguien en el futuro, para obtener una versión actualizada de Pocketsphinx, debe compilarla desde el repositorio github o sourceforge. (no estoy seguro de que esté más actualizado). Tenga en cuenta que -j8 significa ejecutar 8 trabajos separados en paralelo si es posible; si tiene más núcleos de CPU, puede aumentar el número.

git clone https://github.com/cmusphinx/sphinxbase.git
cd sphinxbase
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..
git clone https://github.com/cmusphinx/pocketsphinx.git
cd pocketsphinx
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..

Luego, desde: enlace descargue las versiones más recientes de cmusphinx-en-us-....tar.gz y en-70k-....lm.gz

tar -xzf cmusphinx-en-us-....tar.gz
gunzip en-70k-....lm.gz

Luego, finalmente puede continuar con los pasos de la respuesta de Nikolay:

ffmpeg -i book.mp3 -ar 16000 -ac 1 book.wav
pocketsphinx_continuous -infile book.wav \
    -hmm cmusphinx-en-us-8khz-5.2 -lm en-70k-0.2.lm \
    2>pocketsphinx.log >book.txt

Sphinx funciona bien. No confiaría en él para hacer una versión legible del texto, pero es lo suficientemente bueno como para que pueda buscarlo si está buscando una cita en particular. Eso funciona especialmente bien si usas un algoritmo de búsqueda como Xapian ( enlace ) que acepta comodines y no requiere expresiones de búsqueda exactas.

Espero que esto ayude.

    
respondido por el Jonathan Perry-Houts 25.04.2017 - 05:01
1

Puede usar speechpad.pw panel de transcripción

Ver video sobre el uso de la transcripción

    
respondido por el alexei 10.07.2016 - 20:37

Lea otras preguntas en las etiquetas