Las 10 mejores herramientas de reconocimiento de voz para Linux

El habla es un método popular e inteligente en los tiempos modernos para interactuar con los dispositivos electrónicos. Como sabemos, hay muchas herramientas de reconocimiento de voz de código abierto disponibles en diferentes plataformas. Desde el principio de esta tecnología, se ha mejorado simultáneamente en la comprensión de la voz humana. Esta es la razón; ahora ha contratado a muchos profesionales que antes. El avance técnico es lo suficientemente fuerte como para hacerlo más claro para la gente común.

 

Herramientas de reconocimiento de voz de código abierto


La herramienta de reconocimiento de voz de código abierto no está muy disponible como el típico software que usamos en nuestra vida diaria en la plataforma Linux. Después de un largo camino de investigación, hemos encontrado algunas aplicaciones bien presentadas para usted con una breve descripción. Echemos un vistazo a los siguientes puntos!

1. Kaldi


Kaldi es un tipo especial de software de reconocimiento de voz, iniciado como parte de un proyecto de la Universidad John Hopkins. Este kit de herramientas viene con un diseño extensible y escrito en el lenguaje de programación C++. Proporciona un entorno flexible y cómodo a sus usuarios con muchas extensiones para mejorar la potencia de Kaldi.

kaldi-Open Source Speech Recognition

 

Características notables de Kaldi

  • Una aplicación de reconocimiento de voz de código abierto, libre y flexible, bajo la licencia Apache.
  • Funciona en múltiples plataformas, incluyendo GNU/Linux, BSD y Microsoft Windows.
  • Proporciona soporte para instalar y configurar la aplicación en su sistema.
  • Además del sistema de reconocimiento de voz, también soporta redes neuronales profundas y transformaciones lineales.

 

Obtener Kaldi

2. CMUSphinx


CMUS Sphinx viene con un grupo de sistemas enriquecidos con varias funciones con varios paquetes prediseñados relacionados con el reconocimiento de voz. Es un programa de código abierto, desarrollado en la Universidad Carnegie Mellon. Usted recibirá esta herramienta de reconocimiento independiente de hablantes en varios idiomas, incluyendo francés, inglés, alemán, holandés, y más.

cmusphinx- open source voice recognition

 

Características destacadas de CMUSphinx

  • Es un sistema de reconocimiento de voz rápido y fácil de usar con una interfaz fácil de usar.
  • Viene con un diseño flexible y un sistema eficiente, incluso en plataformas de bajos recursos.
  • Proporciona herramientas de entrenamiento de modelos acústicos a través de su paquete Sphinxtrain.
  • Ayuda a realizar diferentes tipos de tareas a través de sus útiles paquetes, incluyendo la detección de palabras clave, la evaluación de la pronunciación, la alineación, y más.
  • Es una herramienta multiplataforma que soporta tanto sistemas Windows como Linux.

 

Obtener CMUSphinx

 

3. DeepSpeech


DeepSpeech es un motor de reconocimiento de voz de código abierto para convertir su voz en texto. Es una aplicación gratuita de Mozilla. Para ejecutar el proyecto DeepSearch en tu dispositivo, necesitarás Python 3.r o superior. Además, necesita un archivo con la extensión Git, a saber, Git Large File Storage. Se utiliza para versionar archivos grandes mientras se ejecuta en el sistema.

deepspeech

 

Características destacadas de DeepSpeech

  • DeepSpeech utiliza el marco de trabajo TensorFlow para hacer que la transformación de voz sea más cómoda.
  • Es compatible con la GPU NVIDIA, lo que ayuda a realizar inferencias más rápidas.
  • Puede utilizar la inferencia de DeepSearch de tres maneras diferentes: El paquete Python, el paquete Node.JS o el cliente de línea de comandos.
  • Cada vez que desee ejecutar este software en su sistema, deberá activar el entorno virtual mediante el comando Python.
  • Necesita un entorno Linux o Mac para ejecutar esta aplicación.
Obtener DeepSpeech

 

4. Wav2Letter++


WavLetter++ es una herramienta de reconocimiento de voz moderna y popular, desarrollada por el equipo de investigación de AI de Facebook. Es otro programa de código abierto bajo la licencia BCD. Este software de reconocimiento de voz superrápido fue construido en C++ y presentado con muchas características. Ofrece a sus usuarios la posibilidad de modelar el lenguaje, la traducción automática, la síntesis de voz y mucho más en un entorno flexible.

Resultado de imagen de Wav2Letter++

 

Características destacadas de Wav2Letter++

  • Contiene una comunidad activa en plataformas populares como Facebook y el grupo Google para ayudar a sus usuarios en todo el mundo.
  • WavLetter++ es un kit de herramientas rápido y flexible que utiliza la librería de tensores ArrayFire para lograr la máxima eficiencia.
  • Le permite trabajar con un marco de trabajo de alto rendimiento como wav2letter++, que le ayuda a realizar una investigación y ajuste de modelos con éxito.
  • Además, proporciona una documentación completa a través de las secciones del tutorial.
  • En la carpeta de recetas, obtendrá las recetas detalladas para WSJ, Timit y Librispeech.

 

Obtener Wav2Letter++

5. Julius


Julius es comparativamente un software de reconocimiento de voz de código abierto más antiguo desarrollado por Lee Akinobu. Esta herramienta está escrita en el lenguaje de programación C por los desarrolladores de Kawahara Lab, Universidad de Kyoto. Es una aplicación de reconocimiento de voz de alto rendimiento con un amplio vocabulario. Puede utilizarlo tanto en inglés como en japonés. Puede ser una gran opción si desea utilizarlo para fines académicos y de investigación.

julius

 

Características destacadas de Julius

  • Julius es una aplicación altamente configurable que puede establecer diferentes parámetros de búsqueda para ajustar su rendimiento.
  • Esta herramienta se basa en una estrategia de 2 pasadas que le proporciona un rendimiento en tiempo real y de alta calidad.
  • Es un proyecto multiplataforma que se ejecuta en sistemas Linux, BSD, Windows y Android.
  • Integrado con Julian, un analizador de reconocimiento gramatical.
  • Además de soportar gramática basada en reglas, también proporciona salida de gráficos de Word, puntuación de confianza, rechazo de entrada basada en GMM, y muchas más facilidades.

 

Obtener Julius 

6. Simon


Simon viene con un software de reconocimiento de voz moderno y fácil de usar, desarrollado por Peter Grasch. Es otro programa de código abierto bajo la Licencia Pública General de GNU. Usted es libre de usar Simon en ambos sistemas Linux y Windows. Además, proporciona la flexibilidad para trabajar con cualquier idioma que desee.

simon-Open Source Speech Recognition

 

Características notables de Simon

  • Utilizando su calculadora controlada por voz, Simon ofrece la posibilidad de realizar diversas operaciones aritméticas.
  • Compatible con Skype y otros programas VOIP populares para establecer un sistema de comunicación fácil con amigos y familiares.
  • Permite a los usuarios ver presentaciones de diapositivas y vídeos, escuchar música y mucho más con unos sencillos comandos de voz.
  • Además, es una herramienta esencial para leer periódicos y navegar por Internet.

 

Obtener Simon

7. Mycroft


Mycroft viene con un asistente de voz de código abierto fácil de usar para convertir la voz en texto. Está considerado como una de las herramientas de reconocimiento de voz de Linux más populares en la era moderna, escrita en Python. Permite a los usuarios hacer el mejor uso de esta herramienta en un proyecto científico o en una aplicación de software empresarial. Además, puede ser utilizado como un asistente práctico, que puede decirle la hora, la fecha, el tiempo, y más como estos.

 

Resultado de imagen de Mycroft linux

 

Características destacadas de Mycroft

  • Integrado con los medios sociales y plataformas profesionales más populares, incluyendo Facebook, Github, LinkedIn, y más.
  • Puede ejecutar esta aplicación en diferentes plataformas de software y hardware. Puede ser un escritorio o un frambuesa Pi.
  • Además de ser un asistente de voz inteligente, proporciona la facilidad de la grabación de audio, aprendizaje automático, biblioteca de software, y más.
  • Permite a los usuarios convertir el lenguaje natural en datos legibles por máquina a través de Adapt, un analizador de intenciones de Mycroft.

 

Obtener Mycroft 

8. OpenMindSpeech


Open Mind Speech es una de las herramientas esenciales de reconocimiento de voz de Linux que tiene como objetivo convertir su voz en texto de forma gratuita. Es parte de la Open Mind Initiative, lleva a cabo su funcionamiento, especialmente para los desarrolladores. Este programa fue introducido con diferentes nombres como VoiceControl, SpeechInput y FreeSpeech antes de obtener el nombre actual.

Resultado de imagen de OpenMindSpeech

 

Características destacadas de OpenMindSpeech

  • Utiliza el entorno Overflow en la operación de reconocimiento de voz para flexibilizar las aplicaciones complejas.
  • Open Mind Speech es mayormente compatible con plataformas basadas en Linux y UNIX.
  • A través de Internet, puede recopilar datos de voz de los ciudadanos electrónicos, que son los contribuyentes de los datos brutos.

 

Obtener OpenMindSpeech 

9. SpeechControl


Speech Control es una aplicación de reconocimiento de voz libre, adecuada para cualquier distribución de Ubuntu. Viene con una interfaz gráfica de usuario basada en Qt. Aunque todavía se encuentra en su fase inicial de desarrollo, puede utilizarlo para su proyecto simple.

speechcontrol-open source voice recognition

 

Características destacadas de SpeechControl

  • Speech Control es un programa de código abierto bajo la Licencia Pública General (GPL).
  • Su objetivo es trabajar como un asistente virtual que proporciona una guía de tareas repetitivas para ejecutar el proceso sin problemas.
  • Es principalmente adecuado para plataformas basadas en Linux.
  • Además, proporciona documentación de usuario fácil de entender con detalles del proyecto.

 

Obtener SpeechControl

10. Deepspeech.pytorch


Deepspeech.pytorch es otra aplicación de reconocimiento de voz de código abierto mencionable que es, en última instancia, la implementación de DeepSpeech2 para PyTorch. Contiene un conjunto de potentes redes basadas en la arquitectura DeepSpeech2. Con muchos recursos útiles, puede ser utilizado como una de las herramientas esenciales de reconocimiento de voz de Linux para la investigación y el desarrollo de proyectos.

Resultado de imagen de Deepspeech.pytorch

 

Características notables de Deepspeech.pytorch

  • Soporta el aumento de ruido que ayuda a aumentar la robustez en el momento de cargar el audio.
  • Para enviar la petición de publicación al servidor, proporciona un script básico del servidor.
  • Soporta varios conjuntos de datos para descargar, incluyendo TEDLIUM, AN4, Voxforge y LibriSpeech.
  • Le permite añadir ruido a los datos de entrenamiento a través de la inyección de ruido.
  • Soporta Visdom y Tensorboard para visualizar el entrenamiento en experimentación científica.

 

Obtener Deepspeech.pytorch

 

Reflexión Final 


Por lo tanto, hemos alcanzado el punto final en las herramientas de reconocimiento de voz de código abierto para Linux. Hope, tienes información completa sobre este tema. Las aplicaciones mencionadas anteriormente son gratuitas, fáciles de usar y están listas para formar parte de su proyecto académico o personal.

¿Cuál prefieres más? Si tiene otras opciones, no dude en hacérnoslo saber. Saluditos!!