Transcripción y TTS
La inteligencia artificial aplicaciones utilizada en CXone Mpower trabaja con texto de interacciones con contactos
La persona que interactúa con un agente, IVR o bot en su centro de contacto.. El audio de las interacciones en los canales de voz debe convertirse a texto para que la IA aplicaciones pueda trabajar con él. Después de analizar el texto, la IAaplicaciones puede proporcionar las respuestas que está diseñada para dar. Esto se hace utilizando servicios de transcripción
Forma escrita de toda o parte de una interacción de voz o digital., también conocidos como conversión de voz a texto (STT).
Las respuestas de las aplicaciones de IA se proporcionan en formato de texto. Sin embargo, los agentes virtuales necesitan convertir este texto en audio que pueda reproducirse para el contacto. Esto permite que los agentes virtuales "hablen" con los contactos. Esta conversión se realiza mediante servicios de texto a voz
Permite a los usuarios ingresar indicaciones grabadas como texto y usar una voz generada por computadora para decir el contenido. (TTS).
Trabajar con transcripción y TTS en CXone Mpower requiere secuencias de comandos Studio personalizadas. El script gestiona la captura del audio de la interacción y lo envía al servicio de transcripción y al destino aplicación. El script también administra las respuestas de la aplicación, incluido su envío al servicio STT, si es necesario. Los scripts necesarios varían según el caso de uso. Se describe en la ayuda en línea para configurar cada agente virtual o integración de asistencia de agente.
Transcripción
Los servicios de transcripción convierten audio en texto, creando versiones escritas del lenguaje hablado. Utilizan IA para interpretar con precisión el audio como lenguaje humano. La IA ayuda con la precisión de la transcripción cuando los patrones de habla, los acentos y el ruido de fondo crean diferencias en la forma en que suena el audio. También ayuda aplicar la comprensión del lenguaje natural
Este proceso se expande en el procesamiento del lenguaje natural (NLP) para tomar decisiones o actuar en función de lo que entiende. (NLU) para mejorar la toma de decisiones sobre qué palabra utilizó el hablante en casos en que el audio es indistinto o cuando las palabras suenan igual.
En CXone Mpower, la transcripción se utiliza para menús ASR
Reconocimiento automático de voz. Permite a los contactos responder a las indicaciones hablando, presionando las teclas del teléfono o ambos. e integraciones con aplicaciones de asistencia de agentes y agentes virtuales para convertir el habla del contacto en texto para que un motor de IA lo analice. Las transcripciones resultantes son utilizadas por varios aplicaciones en el Plataforma.
CXone Mpower admite dos opciones para la transcripción:
- El primero es Turn-by-Turn Transcription. Esta opción proporciona la transcripción enunciado
Lo que dice o escribe un contacto. por enunciado durante una interacción. El audio se transcribe a texto y luego se envía a la aplicación basada en inteligencia artificial. Las integraciones de agentes virtuales utilizan este tipo de transcripción. Además, algunos proveedores de agentes virtuales ofrecen servicios de transcripción que puedes utilizar en su lugar. Cuando utiliza el servicio de transcripción de un proveedor, el audio de la interacción se envía al proveedor y luego se convierte a texto. - La segunda opción de transcripción es Continuous Stream Transcription. Esta opción envía un flujo continuo de transcripción en pequeños segmentos. La aplicación de IA recibe el texto transcrito en tiempo real y es capaz de proporcionar respuestas apropiadas que sean relevantes para la conversación actual. Las aplicaciones de asistencia del agente utilizan este tipo de servicio de transcripción.
Ambas opciones admiten servicios de transcripción de terceros. CXone Mpower también ofrece un servicio nativo de transcripción de transmisión continua llamado CXone Mpower Transcription.
A la transcripción a veces se la denomina conversión de voz a texto (STT).
TTS
La conversión de texto a voz convierte palabras escritas en audio en forma de voces generadas por computadora. La inteligencia artificial ayuda a que el sonido generado por computadora suene más humano al reproducir la entonación, el acento, el ritmo y la pronunciación naturales. En CXone Mpower, TTS se utiliza en menús IVR
Respuesta de voz interactiva. El menú telefónico automatizado que los contactos utilizan mediante entradas de voz o teclado para obtener información, enrutar una llamada de voz entrante o ambos. e integraciones de agentes virtuales
Una aplicación de software que maneja las interacciones del cliente en lugar de un agente humano en vivo..
Para TTS, puede utilizar servicios TTS de terceros o el servicio TTS nativo.