Definición de

Reconocimiento de voz

El reconocimiento de voz es el procesamiento del habla por parte de un sistema. El concepto alude a un área de la inteligencia artificial y al servicio o aplicación que facilita la comunicación oral entre un ser humano y una máquina.

Antes de avanzar es importante mencionar que el reconocimiento es el acto y el resultado de reconocer: determinar una identidad; inspeccionar algo para tener conocimiento de sus propiedades o su naturaleza; o llevar a cabo un análisis para hallar información. La voz, por otro lado, es el sonido que se produce cuando vibran las cuerdas vocales.

A través del reconocimiento de voz, un sistema puede identificar, autenticar y procesar lo que dice una persona. Esta tecnología, que ha crecido mucho en la última década, tiene múltiples aplicaciones.

Internet de las Cosas

Gracias a la IoT (Internet de las cosas) y el reconocimiento de voz, hoy es posible diseñar hogares inteligentes.

Si tienes poco tiempo, revisa el índice o el resumen con los puntos clave.

Historia del reconocimiento de voz

La historia del reconocimiento de voz se remonta a la década de 1950. Se suele mencionar como pionero a un sistema de Bell Laboratories conocido como AUDREY (nombre derivado de la expresión automatic digit recognizer), que era capaz de reconocer los digitos hablados (de 0 al 9) con una precisión superior al 90%. Sin embargo, esa precisión estaba asociada a la voz del desarrollador: cuando hablaba otra persona, el sistema no lograba dicha precisión.

A partir de entonces, los avances en el reconocimiento de voz fueron progresivos y constantes. IBM dio a conocer en 1962 una computadora bautizada Shoebox que podía comprender dieciséis palabras. También en los ´60, científicos de la Unión Soviética idearon un algoritmo capaz del reconocimiento de unos doscientos términos.

La evolución continuó con Harpy, un emprendimiento con financiamiento del Departamento de Defensa estadounidense cuya capacidad de reconocimiento superó las mil palabras e incluso incluyó frases completas. Tangora de IBM en los ´80 y Dragon Dictate y Dragon NaturallySpeaking de Dragon Systems en los ´90 siguieron en la línea evolutiva del reconocimiento de voz, que se expandió enormemente y se hizo más accesible para el público en general a partir del siglo XXI.

Google, Amazon, Apple y Microsoft son algunas de las compañías que, en la actualidad, incluyen el reconocimiento de voz en numerosos programas, aplicaciones y dispositivos.

Tecnología del habla

La corrección de errores de reconocimiento de voz se logra a través del entrenamiento del sistema.

Sus aplicaciones

La tecnología de reconocimiento de voz tiene múltiples usos. Algunas de estas aplicaciones son tan cotidianas en la actualidad que el usuario ya casi no se percata de la inteligencia artificial involucrada en las operaciones con dispositivos inteligentes.

Los asistentes virtuales como Alexa, Siri, Google Assistant, Bixby y Cortana, por ejemplo, funcionan a través del reconocimiento de voz. Es posible dictarles distintas instrucciones para que ofrezcan respuestas o realicen determinadas acciones. Así, cualquier persona que le habla a su smartphone, su smart TV u otros aparatos con capacidad de reconocimiento de voz para buscar información o detallar un comando, está aprovechando está tecnología de habla.

El software de dictado y de voz también hace posible pasar de voz a texto (STT) y de texto a voz (TTS). La transcripción automática requiere del procesamiento de lenguaje natural (PLN) para brindar resultados adecuados.

La búsqueda por voz, asimismo, se emplea con chatbots. Estos teleoperadores virtuales están preparados para brindar una contestación según las palabras o frases que registran.

No se puede dejar de mencionar que la comunicación manos libres que implica el uso del habla supuso un gran avance en los vehículos. Los automóviles con control por voz pueden actuar según ciertas indicaciones del conductor.

La autenticación de voz, por otro lado, se convirtió en un mecanismo de seguridad de gran importancia. En este caso, se apela a la biometría para permitir el acceso a un sistema, una información o incluso un lugar. El sistema debe reconocer la voz en cuestión para levantar las restricciones; de lo contrario, no concede el permiso.

Futuro tecnológico

Las tendencias futuras en el reconocimiento de voz están asociadas al avance de la inteligencia artificial.

Entrenamiento del reconocimiento de voz

El entrenamiento de los sistemas de reconocimiento de voz es imprescindible para el incremento de la precisión y la efectividad. Dicho entrenamiento consiste en la introducción de cantidades elevadas de datos para que el sistema vaya aprendiendo cómo funcionar de manera correcta y así ir mejorando.

Lo que se intenta es que el software perfeccione el reconocimiento de patrones. Para esto se apela a redes neuronales, un método que apunta al procesamiento de la información de un modo similar al que lleva a cabo el cerebro del ser humano. En esta red, existen nodos interconectados que envían y reciben señales.

El entrenamiento de reconocimiento de voz tiene como base el aprendizaje automático (machine learning): se configuran ciertos parámetros elementales y se programa a la computadora para que aprenda de forma independiente a reconocer patrones a través de diferentes capas de procesamiento. En el caso específico del reconocimiento de voz, se recurre al aprendizaje profundo (deep learning), por el cual el sistema desarrolla tareas de forma análoga a las personas gracias a las mencionadas redes neuronales.

A medida que la tecnología de reconocimiento de voz registra y procesa datos, aprende a funcionar mejor. Los datos posibilitan que el sistema distinga entre las palabras, teniendo en cuenta el sonido, la pronunciación, el contexto y otras variables.

Cómo citar este artículo Julián Pérez PortoPublicado por Julián Pérez Porto, el 19 de marzo de 2024. Reconocimiento de voz - Qué es, definición, historia y aplicaciones. Disponible en https://definicion.de/reconocimiento-de-voz/
Buscar otra definición
x