Imagen de avatar anacareaga
Ana Lilia Careaga

“Siri y Dragon Dictation: concierto virtual de voz a “manos libres””

Ana Lilia Careaga Mercadillo, Noviembre de  2013

Abstract

Speech processing is the process by which speech signals are interpreted, understood, and acted upon. It specifically refers to the processing of human speech by computerized systems, as in voice recognition software or voice-to-text programs. Speech processing is important to many fields for both theoretical and practical uses, ranging from voice activation and control in phones to development of functional artificial intelligence in computer science. One commonly used application of speech recognition is simple speech-to-text conversion, which is used in many word processing programs and Apps like Siri and Dragon Dictation. Many applications require much higher precision than is needed for speech-to-text conversion software, though, but technology is still improving. While speech recognition refers specifically to understanding what is said, speaker recognition is only concerned with who does the speaking. Validating the identity of the speaker can be an important security feature to prevent unauthorized access to or use of a computer system.

———————————————————————————————————

Introducción

Nuestro mundo es un océano hirviente de causas y efectos. En un minuto, en un segundo puede cambiar una vida completamente. En un instante, la imprudencia y el azar pueden conducirnos a algún tipo de accidente cuyos efectos pudieran ser o no ser reversibles. Aún personas que han sido consideradas como prudentes toda su vida, pueden estar pasando por periodos de preocupación o simplemente períodos de distracción donde la mente está ocupada en otros asuntos y las llevan a cruzar  una luz roja, tras haber acelerado furiosamente sin inspeccionar la intersección que están a punto de  cruzar…

A mí me acaba de suceder, y el cruce de esa intersección trajo como consecuencia una fractura de húmero. Con dolor y el brazo derecho completamente inmovilizado, comencé, de pronto, a vivir de una manera diferente  sintiendo la impotencia y ansiedad que conlleva el sentimiento de dependencia. Tengo recuerdos turbios de mi estancia en el hospital pero cuando quedé sola en casa, inmóvil durante un buen rato me sentí como cuando alguien queda solo en el universo. Me concentré en eso “distinto” de mi repentina soledad; prendí la radio, me recosté en el sofá y comencé a observar las paredes grises de mi casa. Arriba del sofá donde me encontraba, alcancé a observar una reproducción de un cuadro del pintor español Murillo de un par de niños regordetes, desnudos y envueltos en ligeros velos que me lanzaban risas en el momento en que la radio transmitía un maravilloso coral de Handel. La bella melodía parecía escapar de los labios infantiles de la pintura como si el artista hubiera plasmado el instante del nacimiento de la voz, grabando en materia sólida el enigmático momento en que la melodía y armonía abandonan las fibras del cuerpo humano para difundirse por el mundo. Volví a contemplar la pintura que representaba “La Gloria” de la armonía musical emergente de esos cuerpos infantiles y, de manera casi instantánea, como si de repente comprendiera la causa de todos los asuntos humanos, una profunda serenidad me embargó. Todo ocurre con una maravillosa sencillez, de una forma muy distinta de lo que puede imaginarse en los momentos de angustia y de temor.

Murillo.” Los niños de la concha”

Quizá, ese sentimiento de confianza y serenidad, me hizo buscar, casi de una manera inconsciente, el Concierto para piano para la mano izquierda en Re Mayor de Maurice Ravel[1]. Aunque me causó gran asombro el día que lo escuché en la Sala Nezahualcóyotl,  nunca  lo consideré agregar a mi playlist y tuve que buscarlo en YouTube, pero con la ventaja de tener la posibilidad de apreciar la interpretación a través del video.

Lo primero que llama la atención de este concierto para piano es la extraordinaria originalidad de la apertura, baja y tranquila, casi lúgubre. Se percibe un sonido diferente que no se escucha en ninguna otra obra de este compositor, y creo que de ningún compositor. Los violonchelos y la mitad de los bajos sostienen un acorde bajo mientras el contrafagot se prepara para anunciarnos con gran elegancia y facilidad, la entrada del instrumento de la mano izquierda. Pero no sin antes hacer crecer la sonoridad de la orquesta que se va haciendo más fresca e imaginativa, por lo que, de forma casi instantánea, pude apreciar  un cambio notorio en mi estado anímico que se hizo evidente justo en el clímax del primer crescendo cuando entra el piano con su intérprete manco. Jamás podríamos imaginarnos la sonoridad que puede transferir una sola mano sobre el suave teclado del piano. El pianista se las arregla mediante el uso pertinente del pedal para sostener los acordes al mismo tiempo que va construyendo las notas de la melodía. Es increíble cómo podría ser engañada la audiencia, la cual con solo escuchar difícilmente podría adivinar lo zurdo del concierto. Es casi obvio pensar que la interpretación de esta obra requiere un pianista excepcional para dar vida a esta música desafiante. Pero si trasladamos esta experiencia fuera del ámbito musical, podemos llegar a la conclusión que lo que se requiere es un espíritu grande y desafiante como el que poseen innumerables personas con capacidades diferentes para salir adelante.

Este concierto fue escrito para el pianista austriaco Paul Wittgestein (1887-1961), hermano del filósofo Ludwig Wittgenstein[2], quien se alistó en el ejército austríaco durante la Primera Guerra Mundial y  fue herido y capturado en el frente ruso. Desgraciadamente, debido a sus heridas, su brazo derecho debió ser amputado mientras estaba en cautiverio y con ello hubiera acabado la carrera de un gran pianista. Sin embargo, lo que pudo haber sido trágico para  muchos otros pianistas, fue sólo un reto y desafío para el emprendedor Wittgenstein. Después de un período de recuperación al final de la guerra, empezó a encargar a diferentes compositores que escribieran obras que él pudiera tocar con una sola mano. Entre los que le respondieron estaban Britten, Strauss, Hindemith, Prokofíev y Ravel. Si bien todos ellos compusieron un concierto para Wittgenstein[3], Ravel aceptó inmediatamente el reto, a pesar de que  había empezado a componer su concierto para piano  en Sol Mayor. Pero para poder componerle al pianista de una sola mano, primero debió recurrir a los Seis Estudios para la Mano Izquierda de Saint-Saéns, los Ejercicios para la Mano Izquierda y los 24 Estudios para la Mano Izquierda de Czerny, para así aprender a lograr un sonido completo con una sola mano. Una vez que se sintió listo, abandonó el Concierto en Sol Mayor y se dedicó de lleno al Concierto para la mano izquierda. Cuando éste estuvo terminado, él y Wittgenstein estrenaron la obra en una reunión privada. A Wittgenstein no le agradó en ese momento  . Para él, Ravel “no era un pianista sobresaliente y yo no estaba cautivado  con la composición. Siempre me lleva un tiempo avanzar en un trabajo difícil. Supongo que Ravel quedó desilusionado y yo lo sentía, pero nunca aprendí a simular. Mucho tiempo después, luego de haber estudiado el concierto durante meses, quedé fascinado con él y me di cuenta de la gran obra que era”.[4]

Ravel es uno de los grandes orquestadores de todos los tiempos. Su capacidad puede percibirse no solo en su famoso Bolero, sino a lo largo de toda su obra, y en particular de este  concierto, especialmente en los pasajes más orquestados y plenos Antes de la segunda sección de este Concierto en Re Mayor de un solo movimiento, justo antes del scherzo, la orquesta desarrolla la melodía tocada originalmente por el contrafagot y a continuación la toca el piano solo con un ligero acompañamiento orquestal, pero en esta ocasión la música es lírica. Nuevamente el pedal ayuda a crear la ilusión de dos manos, aunque esta vez el desafío es mayor, porque el pianista debe proyectar lirismo sostenido mientras  su mano está constantemente saltando de una parte a otra del teclado. En este momento, Ravel nos hace sentir la luz de la esperanza a través del piano, reafirmando con un final que nos trae de vuelta la elegancia de la apertura con una cadenza [5]final   espectacular no solo porque el pianista debe mover su única mano de un extremo a otro del teclado con una rápida sucesión de complicados arpegios que resaltan una superposición melódica difícil de crear aún con ambas manos, sino porque es un punto en crescendo donde quedamos  inmersos en una ola, o más bien una especie de tsunami donde no hay manera de escapar . Terminando la cadenza , regresa una breve reminiscencia del scherzo que culmina con la última nota.

Si quieres escuchar la cadenza final, da clic aquí:

http://www.youtube.com/watch?v=f7lsDbuy-MU

Quizá, desde mi punto de vista, lo más atractivo de este Concierto en Re Mayor es apreciarlo como complemento que es de su concierto gemelo a dos manos en Sol Mayor. Tan gemelos como disímiles, ambos nos proponen luces y sombras; angustia y serenidad…. No es por lo tanto tan sorprendente que ambas partituras hayan sido compuestas simultáneamente, sirviendo la una de contraposición a la otra .Sentimientos que contrastan y complementan pero al final, al igual que a Wittgenstein y a Ravel nos hacen darle a la vida un sentido coherente en el contraste con la muerte.

….Fue así como inspirada en la música  que les acabo de describir, que me decidí a escribir este artículo que en principio me había negado a hacer por lo complicado que supone escribir con una sola mano en el teclado. Comprendí que el concierto para mano izquierda nos invita a ser valientes y buscar un espíritu desafiante para encontrar diferentes caminos ante las eventualidades de la vida, ante lo no planeado e imaginado.

Sigo inmóvil y lo que he hasta ahora han leído, ha fluido en mi conciencia de la misma manera como cuando se sienta un pianista ante un piano y toca escalas sin propósito alguno, cuando no desea interpretar melodías reconocibles y sus dedos se limitan a pulsar las teclas según van viniendo. Lo que están leyendo, no son más que letras que desean entretejer un concierto del espíritu, un concierto a manos libres, gracias a mi mano izquierda y a la ayuda de mi mis dos asistentes virtuales instalados como software en mi computadora y en el iPhone, Dragon y Siri, que van captando mis palabras para escribirlas en un texto.

¿Qué maravillosa es la tecnología, no?

¿Quieres saber más de los asistentes virtuales Siri y Dragon Dictation?

Continúa leyendo…

—————————————————————————————–

Comenzando con lo básico: qué es el procesamiento digital de la voz

La voz es una señal que lleva información consciente, inteligente, producida por los humanos para que las personas que la escuchen obtengan información directa, sin la necesidad de otra fuente adicional como imágenes o texto. El lenguaje es la frontera que limita el captar la información que se emite. Es la forma universal de comunicación entre las personas.

El reconocimiento de voz es la capacidad de una computadora, de convertir, las palabras de la voz humana a un código binario comprensible por la computadora. La mayoría de las personas tienen la idea de que el reconocimiento de voz, se basa en que una computadora tiene una especie de oídos electrónicos, pero en realidad este sirve más como un traductor, el cual convierte nuestro lenguaje, en uno comprensible por la máquina. Es importante aclarar primero que el reconocimiento de voz funciona en muchos niveles, como:[6]

  • Dictado automático: El dictado automático es, hasta hoy, el uso más común de las tecnologías de reconocimiento de voz. En algunos casos, como en el dictado de recetas médicas y diagnósticos o el dictado de textos legales, se usan corpus (grabaciones de voz con transcripciones de texto) especiales para incrementar la precisión del sistema.
  • Control por comandos: Los sistemas de reconocimiento de habla diseñados para dar órdenes a una computadora (p.e. “Abrir Firefox”, “cerrar ventana”) se llaman Control por comandos. Estos sistemas reconocen un vocabulario muy reducido, lo que incrementa su rendimiento.
  • Telefonía: Algunos sistemas PBX permiten a los usuarios ejecutar comandos mediante el habla, en lugar de pulsar tonos. En muchos casos se pide al usuario que diga un número para navegar un menú.
  • Sistemas portátiles: Los sistemas portátiles de tamaño reducido, como los relojes o los teléfonos móviles, tienen unas restricciones muy concretas de tamaño y forma, así que el habla es una solución natural para introducir datos en estos dispositivos.
  • Sistemas diseñados para discapacitados: Los sistemas de reconocimiento de voz pueden ser útiles para personas con habilidades diferentes que les impidan teclear con fluidez, así como para personas con problemas auditivos, que pueden usarlos para obtener texto escrito a partir de habla. Esto permitiría, por ejemplo, que los aquejados de sordera pudieran recibir llamadas telefónicas.

Por último, y como una derivación del concepto, el reconocimiento de voz, es el intento del equipo para identificar a la persona que le habla, basándose en el tono único de su voz. Por lo tanto, podemos decir que el reconocimiento de voz es una de las nuevas tecnologías que nos permiten la entrada de comandos y datos a la computadora, al igual que otras interfaces de entrada como el teclado, el mouse o la pantalla táctil, entre otros.

Asistente virtual

Un asistente virtual es un personaje conversacional, generado como programa informático capaz de reconocer, al menos de forma básica, un  lenguaje natural que simula una conversación para lograr un fin específico. El Asistente Virtual es una aplicación de la Inteligencia Artificial y de Reconocimiento de Voz con los que es posible simular el funcionamiento de un chat, con capacidad de reconocer gramaticalmente y semánticamente las expresiones escritas, contestando en tiempo real con voz y texto. Entabla conversaciones y ofrece respuestas de acuerdo al perfil del usuario gracias a su pro actividad, además permite acceder a Bases de Datos (no transaccionales), extraer información a través de servicios web, uso de Google Maps para búsqueda de direcciones, Wikipedia, motores de búsqueda internos y externos, escalar a chat real, hablar diferentes idiomas,etc. También es capaz de extraer contenido de otras páginas para incrementar su conocimiento, siendo su límite, la imaginación. Un ejemplo de asistente virtual, es el famoso Siri de Apple.

¿Quién es Siri?

Siri Begley es una aplicación con funciones de asistente personal para dispositivos Apple con sistema operativo iOS. Esta aplicación utiliza procesamiento de lenguaje natural para responder preguntas, hacer recomendaciones y realizar acciones mediante la delegación de solicitudes hacia un conjunto de  servicios web que ha ido aumentando con el tiempo. Siri fue creada en diciembre de 2007 por Dag Kittlaus (CEO), Adam Cheyer (VP Engineering) y Tom Gruber (CTO/VP Design) junto a Norman Winarsky del grupo SRI Venture Group y  fue adquirida por Apple en abril de 2010. El origen del nombre de Siri se debe al gran significado que tenía este nombre para su creador Dag Kittlaus, aunque en un principio no fue del agrado de Steve Jobs. Siri es un nombre femenino muy común en Noruega que por cierto, curiosamente significa hermosa mujer que te guía a la victoria“. Al no tener Dag una hija, sino un hijo, decidió dar este nombre a esta novedosa aplicación en honor a una mujer con la que había trabajado en Noruega. Luego de la compra de Siri, Kittlaus pasó a ser jefe del equipo de reconocimiento de voz de Apple hasta que, poco después del lanzamiento del iPhone 4S (y de la muerte de Steve Jobs), en octubre de 2011, renunció.

Siri puede realizar búsquedas dentro de nuestra agenda de contactos y ver la información que aparece, incluyendo fechas de cumpleaños de nuestros amigos. Dispone las funciones típicas de una secretaria, como confirmar, modificar o cancelar citas. También puede crear notas y recordatorios. Siri es capaz de enviar de un dictado por voz SMS o correos electrónicos. Por supuesto que también te puede leer los últimos 25 mails que recibiste y responderlos. Asimismo, si lo que quieres es entretenimiento, Siri te da sugerencias de acuerdo a tus gustos y localización geográfica. Además, te sugiere actividades de acuerdo a las condiciones meteorológicas.

Para instalar Siri en el iOS 6 o iOS7[7], requieres tener jailbreak para así tener privacidad en tu información. A reserva de que consultes un tutorial, los pasos de instalación son los siguientes:

Paso 1: Instala Cydia.

Paso 2: Abre Cydia>Gestionar>Fuentes/Repositorios>Editar>añadir> y escribe la siguiente repo: http://repo.siriport.ru > Da clic en añadir fuente/repositorio

Paso 3 : Abre SiriPort.Ru y localiza SiriPort de iOS6/7 e instálalo.

Paso 4: una vez se haya completado y hayas vuelto a la pantalla de inicio, ve  a ajustes y busca SiriPort.Ru Original. Da clic en esa opción y después en Install Certificate. Entonces se abrirá Safari. Da clic en Install Certificate, y después en OK.

Paso 5: te aparecerá que un  perfil desea ser instalado, da clic en instalar y después aparecerá de nuevo la página de Safari en la que verás “Trusted” en letras verdes. Da clic en “Done” y listo.

Paso 6 : Por último, ve a Ajustes>General y selecciona español. Haz tu primera prueba con Siri y di “Hola”, quizá tarde en responder porque primero tiene que establecer conexión con el servidor.

Dragon Dictation

Dragon es el software de reconocimiento de voz más vendido del mundo. Convierte tus palabras en texto y puede realizar cualquier tarea desde tu PC, Mac o smartphone,  de forma más rápida y fácil. Desde capturar ideas y crear documentos hasta enviar correos electrónicos, realizar búsquedas en Internet y usar sencillos comandos de voz para controlar muchos de los programas que utilizas cada día en casa, en el trabajo o en cualquier otro sitio. Dragon se utiliza en muchas empresas para agilizar el flujo de trabajo, automatizar los procesos y mejorar la productividad. Las organizaciones administran perfiles de voz, vocabularios personalizados y varias instalaciones de forma centralizada.[8]

La app de Dragon Dictation está disponible para el iPhone, iPad y iPodTouch pero Nuance (el fabricante) también lo ofrecen para Blackberry y Android.  La app de Dragon Dictation está disponible en varios idiomas, incluyendo inglés de Estados Unidos, inglés de Reino Unido, español de España, español latinoamericano, versiones europeas y canadienses de francés, alemán, italiano, chino, japonés y coreano. Una vez que se haya descargado la aplicación, simplemente pulsa en el icono de Configuración, el cual aparece en la esquina inferior derecha de la primera pantalla, y elije tu idioma favorito.

La primera pantalla que aparece es la de Pulsar y Dictar. Pulsa el botón rojo para empezar a grabar tu voz. Puedes también dar órdenes para la puntuación, expresando verbalmente los puntos, comas, etc.

Para enviar correos electrónicos, mensajes SMS, de Facebook o Twitter, solo deberás pulsar la barra de herramientas y seleccionar la opción.


Si bien la App de Dragon es gratuita, se tienen otras versiones para PC que tienen costo: Home, Premium y otras para profesiones específicas.

Conclusiones

El reconocimiento de voz ha recorrido un largo camino desde que era una tecnología utilizada únicamente en las complejas maquinas industriales, para convertirse en una herramienta encontrada en muchos elementos de nuestra vida cotidiana. Los adelantos en el reconocimiento de voz están relacionados con la evolución de las computadoras más rápidas, lo que demuestra que la aparición de un sistema avanzado de reconocimiento de voz solo es sólo una cuestión de tiempo.

Cada día nos encontramos más con infinidad de aplicaciones de los sistemas de cómputo con capacidad de interactuar con los usuarios mediante el reconocimiento y síntesis de voz. Estos van desde aplicaciones simples en el reconocimiento de comandos (palabras) aislados, hasta el reconocimiento de frases para ejecutar acciones a manos libres: teléfonos celulares, control por voz de instrumental de ayuda en la cirugía, acceso a servicios de compra por teléfonos, llenado de solicitudes, reservaciones de pasaje, entre otros; la búsqueda en Internet es una de las muestras más impactantes de estas aplicaciones.

El uso de las computadoras, con las manos libres, implica el uso del procesamiento digital de la voz y es parte de una nueva tecnología llamada, tecnología de asistencia, ya que éstas aumentan el rendimiento de las computadoras y hacen más productivas las tareas y transacciones cotidianas. La tecnología de asistencia, impulsada por el software de reconocimiento de voz, le da al usuario, la libertad de utilizar sus manos para otras funciones, lo que eleva su nivel de productividad. Es importante mencionar también que esta tecnología tiene un gran impacto como herramienta de apoyo para personas con habilidades diferentes.


[1] Maurice Ravel fue un compositor francés del siglo XX. Su obra, frecuentemente vinculada al  impresionismo, muestra además un audaz estilo  neoclásico y, a veces, rasgos del  expresionismo, y es el fruto de una compleja herencia y de hallazgos musicales que revolucionaron la música para  piano y para orquesta

[2] Ludwig Josef Johann Wittgenstein fue un filósofo, matemático, lingüista y lógico austriaco nacionalizado británico. .

[3] Paul Hindemith – Klaviermusik mit Orchester, Op. 29, Sergei Prokofiev – Concierto para piano para mano izquierda opus 53 Benjamin Britten – Diversions for left hand Piano and Orchestra

[4] Citado en http://www.hagaselamusica.com/clasica-y-opera/obras-maestras/concierto-para-piano-para-la-mano-izquierda-de-maurice-ravel/

[5] Una cadenza es el momento dentro del concierto en el que la orquesta interrumpe el toque de los instrumentos, dejando al solista un tiempo libre que puede ser improvisado, aunque normalmente ya están escritas de antemano

[6] Citado en http://es.wikipedia.org/wiki/Reconocimiento_del_habla

[7] Ver  http://www.apple.com/mx/ios/siri/

[8]Citado en http://www.nuance.es/dragon/index.htm

Tags: , ,

2 respuetas para ““Siri y Dragon Dictation: concierto virtual de voz a “manos libres”””

  1. Hola, he encontrado tu blog a través de google, mientras buscaba un tema de paginas web relacionado, su sitio web me gustó mucho!. Lo he marcado entre mis favoritos de google.

  2. Wong dice:

    Muito bom Beto. Sem vocea jamais tariemos estes momentos registrados. Espero que a ABES tenha como armazenar este acervo para no futuro relembramos o nosso passado. As coisas boas que estamos fazendo Uma abrae7o, Vitorio.

Deja un comentario