Transkription und TTS

Die KI-basierten Anwendungen, die in CXone Mpower verwendet werden, arbeiten mit Text aus Interaktionen mit KontaktenGeschlossen Die Person, die mit einem Agenten, IVR oder Bot in Ihrem Contact Center interagiert.. Der Ton von Interaktionen auf Sprachkanälen muss in Text umgewandelt werden, damit die KI Anwendungen damit arbeiten kann. Nach der Analyse des Textes kann die KIAnwendungen die Antworten liefern, die sie geben soll. Dies geschieht mithilfe von TranskriptionsdienstenGeschlossen Schriftliche Darstellung einer sprachlichen oder digitalen Interaktion bzw. eines Teils davon., auch bekannt als Speech-to-Text (STT).

Die Antworten der KI-Anwendungen werden im Textformat bereitgestellt. Virtuelle Agenten müssen diesen Text jedoch in Audio umwandeln, das dem Kontakt vorgespielt werden kann. Dadurch können die virtuellen Agenten mit Kontakten „sprechen“. Diese Konvertierung erfolgt mithilfe von Text-to-SpeechGeschlossen Ermöglicht den Benutzern die Eingabe von Ansagen als Text und die Verwendung einer computergenerierten Sprache für die Aussprache des Inhalts.-Diensten (TTS).

Die Arbeit mit Transkription und TTS in CXone Mpower erfordert benutzerdefiniertes Studio Skripting. Das Skript verwaltet die Erfassung des Interaktionsaudios und sendet es an den Transkriptionsdienst und das Ziel Anwendung. Das Skript verwaltet auch die Antworten der Anwendung und sendet sie bei Bedarf an den STT-Dienst. Die erforderlichen Skripts variieren je nach Anwendungsfall. Es wird in der Online-Hilfe zum Einrichten der einzelnen virtuellen Agenten- oder Agent-Assist-Integrationen beschrieben.

Transkription

Transkriptionsdienste wandeln Audio in Text um und erstellen so schriftliche Versionen der gesprochenen Sprache. Sie verwenden KI, um Audio genau als menschliche Sprache zu interpretieren. KI verbessert die Genauigkeit der Transkription, wenn Sprachmuster, Akzente und Hintergrundgeräusche zu Unterschieden in der Klangqualität des Audiomaterials führen. Durch die Anwendung von Natural Language UnderstandingGeschlossen Dieser Prozess baut auf der natürlichen Sprachverarbeitung (NLP) auf, um Entscheidungen zu treffen oder Maßnahmen zu ergreifen, die auf dem basieren, was er versteht. (NLU) kann außerdem die Entscheidungsfindung hinsichtlich des vom Sprecher verwendeten Wortes verbessert werden, wenn die Tonaufnahme undeutlich ist oder Wörter ähnlich klingen.

In CXone Mpower wird die Transkription für ASRGeschlossen Automatic Speech Recognition (automatische Spracherkennung). Ermöglicht es Kontakten, auf Aufforderungen durch Sprechen zu reagieren, Telefontasten zu drücken oder beides.-Menüs und Integrationen mit Agentenassistenzanwendungen und virtuellen Agenten verwendet, um die Sprache des Kontakts in Text umzuwandeln, den eine KI-Engine analysieren kann. Die resultierenden Transkripte werden von verschiedenen Anwendungen in den Plattform verwendet.

CXone Mpower unterstützt zwei Transkriptionsoptionen:

  • Der erste ist Turn-by-Turn Transcription. Diese Option ermöglicht die Transkription ÄußerungGeschlossen Was ein Kontakt sagt oder tippt. für Äußerung während einer Interaktion. Audio wird in Text transkribiert und dann an die KI-basierte Anwendung gesendet. Virtuelle Agentenintegrationen verwenden diese Art der Transkription. Darüber hinaus bieten einige Anbieter virtueller Agenten Transkriptionsdienste an, die Sie stattdessen nutzen können. Wenn Sie den Transkriptionsdienst eines Anbieters verwenden, wird das Interaktionsaudio an den Anbieter gesendet und dann in Text umgewandelt.
  • Die zweite Transkriptionsoption ist Continuous Stream Transcription. Diese Option sendet einen kontinuierlichen Transkriptionsstrom in kleinen Segmenten. Die KI-Anwendung empfängt den transkribierten Text in Echtzeit und kann entsprechende Antworten geben, die für das aktuelle Gespräch relevant sind. Agentenassistenzanwendungen verwenden diese Art von Transkriptionsdienst.

Beide Optionen unterstützen Transkriptionsdienste von Drittanbietern. CXone Mpower bietet außerdem einen nativen kontinuierlichen Transkriptionsdienst namens CXone Mpower Transcription an.

Transkription wird manchmal auch als Sprach-zu-Text-Umwandlung (STT) bezeichnet.

TTS

Text-to-Speech wandelt geschriebene Wörter in Audio in Form von computergenerierten Stimmen um. KI trägt dazu bei, dass die computergenerierte Ausgabe menschlicher klingt, indem sie Intonation, Betonung, Tempo und Aussprache natürlich klingen lässt.  In CXone Mpower wird TTS in IVR-Geschlossen Interactive Voice Response (Interaktive Sprachausgabe). Automatisiertes Telefonmenü, mit dem Anrufer durch Sprachbefehle oder Tasteneingaben interagieren, um Informationen zu erhalten, einen eingehenden Sprachanruf zu routen oder beides.-Menüs und virtuellen AgentenGeschlossen Eine Softwareanwendung, die Kundeninteraktionen anstelle eines Live-Mitarbeiters abwickelt.-Integrationen verwendet.

Für TTS können Sie TTS-Dienste von Drittanbietern oder den nativen TTS-Dienst verwenden.