Transcription et TTS
Les outils applications basés sur l'IA utilisés dans CXone Mpower fonctionnent avec du texte provenant d'interactions avec des contacts
La personne qui interagit avec un agent, un IVR ou un robot dans votre centre d’appels.. L'audio des interactions sur les canaux vocaux doit être converti en texte pour que l'IA applications puisse travailler avec. Après avoir analysé le texte, l'IAapplications peut fournir les réponses qu'elle est censée donner. Cela se fait à l'aide de services de transcription
Forme écrite de tout ou partie d’une interaction vocale ou numérique., aussi appelés speech-to-text (STT).
Les réponses des applications d'IA sont fournies en format texte. Cependant, les agents virtuels doivent convertir ce texte en audio qui peut être lu pour le contact. Cela permet aux agents virtuels de « parler » avec les contacts. Cette conversion est effectuée à l'aide de services de synthèse vocale
Permet aux utilisateurs de saisir des invites enregistrées sous forme de texte et d’utiliser une voix générée par ordinateur pour prononcer le contenu. (TTS).
Travailler avec la transcription et la synthèse vocale dans CXone Mpower nécessite un script Studio personnalisé. Le script gère la capture de l'audio d'interaction et l'envoie au service de transcription et à la destination application. Le script gère aussi les réponses de l'application, y compris leur envoi au service STT, si nécessaire. Les scripts requis varient selon le cas d'utilisation. Ceci est décrit dans l'aide en ligne pour la configuration de chaque agent virtuel ou intégration d'assistance d'agent.
Transcription
Les services de transcription convertissent l'audio en texte, créant ainsi des versions écrites du langage parlé. Ils utilisent l'IA pour interpréter avec précision l'audio comme un langage humain. L’IA contribue à la précision de la transcription lorsque les schémas de parole, les accents et le bruit de fond créent des différences dans la façon dont le son audio. Cela aide également en appliquant la compréhension du langage naturel
Ce processus étend le traitement du langage naturel (TLN) pour prendre des décisions ou agir en fonction de ce qu’il comprend. (NLU) pour améliorer la prise de décision sur le mot utilisé par l'orateur dans les cas où l'audio est indistinct ou lorsque les mots se ressemblent.
Dans CXone Mpower, la transcription est utilisée pour les menus ASR
Reconnaissance automatique de la parole. Permet aux contacts de répondre aux invites en parlant, en appuyant sur les touches du téléphone ou les deux. et les intégrations avec les applications d'assistance aux agents et les agents virtuels pour convertir la parole du contact en texte pour qu'un moteur d'IA puisse l'analyser. Les transcriptions résultantes sont utilisées par divers applications dans le plateforme.
CXone Mpower prend en charge deux options de transcription :
- Le premier est Turn-by-Turn Transcription. Cette option permet une transcription énoncé
Ce qu’un contact dit ou tape. par énoncé lors d'une interaction. L'audio est transcrit en texte, puis envoyé à l'application basée sur l'IA. Les intégrations d'agents virtuels utilisent ce type de transcription. De plus, certains fournisseurs d'agents virtuels offrent des services de transcription que vous pouvez utiliser à la place. Lorsque vous utilisez le service de transcription d'un fournisseur, l'audio de l'interaction est envoyé au fournisseur, puis converti en texte. - La deuxième option de transcription est Continuous Stream Transcription. Cette option envoie un flux continu de transcription en petits segments. L'application d'IA reçoit le texte transcrit en temps réel et est capable de fournir des réponses appropriées et pertinentes à la conversation en cours. Les applications de soutien aux agents utilisent ce type de service de transcription.
Les deux options prennent en charge les services de transcription tiers. CXone Mpoweroffre aussi un service de transcription en flux continu natif appelé CXone Mpower Transcription.
La transcription est parfois appelée transcription vocale (STT).
TTS
La synthèse vocale convertit les mots écrits en audio sous forme de voix générées par ordinateur. L’IA permet de rendre le son généré par ordinateur plus humain en reproduisant une intonation, un accent, un rythme et une prononciation naturels. Dans CXone Mpower, TTS est utilisé dans les menus IVR
Interactive Voice Response (système de réponse vocale interactif). Les contacts du menu téléphonique automatisé sont utilisés via des entrées vocales ou des touches pour obtenir des informations, acheminer un appel vocal entrant, ou les deux. et les intégrations d'agents virtuels
Une application logicielle qui traite les interactions avec les clients à la place d’un agent en chair et en os..
Pour la synthèse vocale, vous pouvez utiliser des services TTS tiers ou le service TTS natif.