La revolución de los asistentes de voz

Por

· 23/05/2018

Hacer una reserva o pedir hora para el médico ya es cosa del pasado, ahora gracias a la tecnología desarrollada por Google un asistente personal por voz lo hará por ti. ¡Bienvenidos al presente de la inteligencia artificial!

El pasado martes 8 de mayo, el gigante de las tecnologías reunió a desarrolladores de todo el mundo con motivo de la conferencia anual Google IO 2018, centrada en explorar el futuro de la tecnología. Este año el punto de mira ha estado puesto en el desarrollo de las inteligencias artificiales. Entre los lanzamientos más importantes de IA que se han presentado, uno de los más destacados ha sido Google Duplex, una inteligencia artificial que tiene la capacidad de entablar conversaciones reales con los usuarios. ¿Cómo funciona y cómo podría revolucionar la industria?

Desde el anfiteatro Shoreline de Mountain View (California), el director general Sundar Pichai se mostró claro ante su apuesta por la IA y la investigación, presentando en primicia "Google Duplex". Esta nueva tecnología reforzará las funciones del asistente de Google hasta ahora existentes y aportará naturalidad a la forma de hablar gracias a la implementación de seis nuevas voces incluida la de John Legend. ¿No es genial?

Un secretario personal en la palma de tu mano

Entre las posibilidades que ofrece esta IA, destaca la de pedir al asistente por voz que reserve en un restaurante o coja cita para la peluquería. Google está tomando claramente la delantera en la industria de servicios de voz e inteligencia artificial. Esta nueva tecnología espera ser probada este mismo verano en los altavoces inteligentes de su propia marca.

¿Cómo podría mejorar nuestra calidad de vida? La idea detrás del Duplex de Google es hacer una IA realista que hable como nosotros, reaccione como nosotros y nos haga incluso llegar a sentir que estamos hablando con una persona real. En el vídeo de la conferencia, la IA no suena en absoluto como un robot o una voz como la que estamos acostumbrados a oír de Siri, Alexa o Cortana. ¡Parece que el futuro de los asistentes de voz ha llegado!

Según Nick Fox (VP de diseño para Google Assistant): "No queremos forzar a otros a implementar estos cambios, pero así es como debe sonar un asistente".

¿Cómo vamos a diferenciar la IA de un humano en una conversación si son iguales?

Puede que esta pregunta te haya venido a la mente, planteándote algunas cuestiones éticas. Los desarrolladores y diseñadores que construyen la IA "tienen la obligación de revelar a cualquiera que interactúe con ella que están hablando con una máquina", dijo Paul Saffo (de la Universidad de Stanford). A través de las redes sociales, muchos usuarios han mostrado su preocupación por el uso de esos robots: "Esas máquinas podrían ser utilizadas con fines políticos y para dar instrucciones de voto", comenta Kay Firth-Butterfield en Twitter).

Durante la Google IO se mostró una demo de una conversación entre la IA y un empleado de una peluquería. El asistente de Google sonaba asombrosamente realista e incluso murmuraba "hemm..." mientras el otro interlocutor estaba comprobando su agenda. La voz era tan natural que el empleado ni siquiera se dio cuenta de que estaba hablando con una máquina. Según Google, este sistema puede resultar muy útil para los clientes y te preguntarás ¿por qué? Sin duda una de las principales ventajas es el ahorro de tiempo que supone para los usuarios, así como para las pequeñas empresas que no tienen sistema de reservas en línea. El objetivo es servir de ayuda para gestionar y realizar tareas.

¿Qué guarda en su interior la tecnología IA de Duplex?

En el corazón de Google Duplex, encontramos una red neuronal artificial que ha sido entrenada para intercambiar, a través del teléfono, big data. Las llamadas se dividen en múltiples tareas: gestionar las pausas, interrupciones, dar información detallada o sincronizar con el altavoz. La IA también se adapta a las respuestas dependiendo de la importancia percibida. ¿El resultado? Impresionante.

A pesar de la complejidad de comprender el lenguaje humano y extraer conclusiones, Google Duplex es un sistema que es capaz de entender los matices de la conversación. Reúne la comprensión del lenguaje natural, el aprendizaje profundo y el habla textual:

El Entendimiento del Lenguaje Natural (NLU) también es utilizado por IBM para procesar análisis avanzados de texto. Extrae muchos datos del contenido (palabras clave, conceptos, relaciones, etc.) y entiende el sentimiento y la emoción. Es posible averiguar si el sentimiento de un artículo es positivo o negativo y obtener información sobre la emoción con la que el autor está escribiendo. Además, se puede determinar en qué parte del artículo el escritor está expresando enfado, tristeza, miedo o alegría.

El aprendizaje profundo es parte de los métodos de aprendizaje automático basados en las representaciones de datos. Hoy en día, el poder de la IA ayuda a los ordenadores a desarrollar capacidades sobrehumanas y al reconocimiento de imágenes. Así, este tipo de aprendizaje permite a los científicos utilizar de una forma eficaz nuestros recursos, analizando en un mes lo que solía llevar 10 años. Los dispositivos que utilizamos a diario traducen incluso los lenguajes más complejos de la voz al texto y de las imágenes a las palabras. En 2015, DeepMind de Google creó el programa AlphaGo que utiliza el autoaprendizaje para vencer a los jugadores reales del juego de mesa Go.

La tecnología Text-to-Speech (TTS) es un motor de voz utilizado para emitir palabras desde cualquier dispositivo. Por ejemplo, si viajas a algún lugar utilizando Google Maps, TTS te habla para decirte a dónde ir. Funciona con todos tipo de dispositivos digitales (ordenadores, tablets, smartphones). La voz es generada por ordenador y no sólo lee textos sino también imágenes a través del proceso de escaneo y reconocimiento óptico de caracteres (OCR) en tiempo real. Esta tecnología se utiliza para ayudar a los niños en el desarrollo de sus habilidades de lectura.

¡Parece que el futuro ya está aquí!

tendencias