Transcription et TTS

Les outils Applications basés sur l'IA utilisés dans CXone Mpower fonctionnent avec du texte provenant d'interactions avec des contacts La personne interagissant avec un agent, un serveur vocal interactif (SVI), ou robot dans votre centre de contact.. L'audio des interactions sur les canaux vocaux doit être converti en texte pour que l'IA Applications puisse travailler avec. Après avoir analysé le texte, l'IAApplications peut fournir les réponses qu'elle est censée donner. Cela se fait à l'aide de services de transcription Forme écrite d’une partie ou de la totalité d’une interaction vocale ou numérique., également appelés speech-to-text (STT).

Les réponses des applications d’IA sont fournies au format texte. Cependant, les agents virtuels doivent convertir ce texte en audio qui peut être lu pour le contact. Cela permet aux agents virtuels de « parler » avec les contacts. Cette conversion est effectuée à l'aide de services de synthèse vocale Permet aux utilisateurs de saisir des invites enregistrées sous forme de texte et d'utiliser une voix générée par ordinateur pour lire le contenu. (TTS).

Travailler avec la transcription et la synthèse vocale dans CXone Mpower nécessite un script Studio personnalisé. Le script gère la capture de l'audio d'interaction et l'envoie au service de transcription et à la destination application. Le script gère également les réponses de l'application, y compris leur envoi au service STT, si nécessaire. Les scripts requis varient selon le cas d'utilisation. Cela est décrit dans l'aide en ligne pour la configuration de chaque agent virtuel ou intégration d'assistance d'agent.

Transcript

Les services de transcription convertissent l'audio en texte, créant ainsi des versions écrites du langage parlé. Ils utilisent l’IA pour interpréter avec précision l’audio comme un langage humain. L’IA contribue à la précision de la transcription lorsque les schémas de parole, les accents et le bruit de fond créent des différences dans la façon dont le son audio. Cela aide également en appliquant la compréhension du langage naturel Ce processus étend le traitement du langage naturel (NLP) pour prendre des décisions ou agir en fonction de ce qu'il comprend. (NLU) pour améliorer la prise de décision sur le mot utilisé par l'orateur dans les cas où l'audio est indistinct ou lorsque les mots se ressemblent.

Dans CXone Mpower, la transcription est utilisée pour les menus ASR Reconnaissance vocale automatique. Permet aux contacts de répondre à des invites en parlant, en appuyant sur les touches du téléphone ou les deux. et les intégrations avec les applications d'assistance aux agents et les agents virtuels pour convertir la parole du contact en texte pour qu'un moteur d'IA puisse l'analyser. Les transcriptions résultantes sont utilisées par divers Applications dans le plateforme.

CXone Mpower prend en charge deux options de transcription :

Le premier est Turn-by-Turn Transcription. Cette option permet une transcription énoncé Ce qu'un contact dit ou tape. par énoncé lors d'une interaction. L'audio est transcrit en texte, puis envoyé à l'application basée sur l'IA. Les intégrations d’agents virtuels utilisent ce type de transcription. De plus, certains fournisseurs d’agents virtuels proposent des services de transcription que vous pouvez utiliser à la place. Lorsque vous utilisez le service de transcription d’un fournisseur, l’audio de l’interaction est envoyé au fournisseur, puis converti en texte.
La deuxième option de transcription est Continuous Stream Transcription. Cette option envoie un flux continu de transcription en petits segments. L'application d'IA reçoit le texte transcrit en temps réel et est capable de fournir des réponses appropriées et pertinentes à la conversation en cours. Les applications d’assistance aux agents utilisent ce type de service de transcription.

Les deux options prennent en charge les services de transcription tiers. CXone Mpowerpropose également un service de transcription en flux continu natif appelé CXone Mpower Transcription.

La transcription est parfois appelée transcription vocale (STT).

Synthèse vocale (TTS)

La synthèse vocale convertit les mots écrits en audio sous forme de voix générées par ordinateur. L’IA permet de rendre le son généré par ordinateur plus humain en reproduisant une intonation, un accent, un rythme et une prononciation naturels. Dans CXone Mpower, TTS est utilisé dans les menus SVI Serveur vocal interactif. Menu téléphonique automatisé que les contacts utilisent par entrée vocale ou tactile afin d’obtenir des informations, d’acheminer un appel vocal entrant ou les deux. et les intégrations d’agents virtuels Une application logicielle qui gère les interactions avec les clients à la place d'un agent humain en direct..

Pour la synthèse vocale, vous pouvez utiliser des services TTS tiers ou le service TTS natif.