...
| Sv translation | ||||||||||
|---|---|---|---|---|---|---|---|---|---|---|
| ||||||||||
EinführungWenn Sie eine Routing-Anwendung erstellen möchten, mit der Ihre Anrufer mithilfe der Spracherkennung verschiedene Aufgaben ausführen können – beispielsweise dem System mitteilen, was sie möchten oder mit wem sie verbunden werden möchten. Mit dem jtel-System gibt es drei Möglichkeiten, dies zu tun.
Einfaches Erkennen von Wörtern oder Phrasen (Wordspotting)In diesem Modus kann der Anrufer einen Satz sagen, und das System versucht, Wörter/Ausdrücke zu extrahieren, die einer bestimmten Aktion im Anrufablauf entsprechen. Angenommen, der Anrufer sagt: „Ich habe ein Problem mit meinem System und möchte mit jemandem vom technischen Support sprechen“, dann könnten Sie die Wörter „Problem, Support“ als Schlüsselwörter definieren, die den Anrufer zu dieser Aktion führen. Anrufabläufe wie dieser können mit dem Objekt „Input Menu DTMF ASR” erstellt werden.
EntitätsextraktionUm einen automatisierten Prozess abzuschließen, benötigen Sie möglicherweise mehrere Informationen vom Anrufer. Nehmen wir zum Beispiel eine Beschwerde über die Zeitungszustellung: Sie benötigen möglicherweise folgende Angaben:
Wir sind sicher, Sie haben schon viele Voice-Bot-Demos gesehen, in denen der Verkäufer das oben beschriebene Szenario demonstriert, indem er etwas sagt wie: „Meine Kundennummer lautet 12345678, ich habe meine Zeitung am Montagmorgen nicht erhalten und möchte, dass sie erneut zugestellt wird.“ Schön ... und ja, mit jtel können Sie solche Anwendungen erstellen. Das entspricht jedoch bei weitem nicht der Realität, wie Menschen tatsächlich mit automatisierten Systemen interagieren. Probieren Sie es aus – lesen Sie einfach den obigen Satz. Wie wahrscheinlich ist es, dass Sie das tatsächlich sagen würden? Wahrscheinlicher ist, dass Anrufer etwas sagen wie „Ich habe meine Zeitung nicht erhalten“, und Sie müssen dann von diesem Punkt aus weitermachen. Beachten Sie außerdem, dass Ihr Prozess nur dann funktioniert, wenn Sie alle drei von Ihrer Backend-REST-API oder -Schnittstelle benötigten Informationen im richtigen Format erhalten, um sie tatsächlich an die betreffende API oder Schnittstelle weitergeben zu können. Die Verwendung von LLMs liefert Ihnen hier kein 100-prozentiges Ergebnis – seien Sie sich also bewusst, dass Sie bei einem LLM-Ansatz manchmal unvorhersehbare Ergebnisse erhalten. Manchmal ist es besser, einen schrittweisen Anrufablauf zu verwenden, sobald Sie wissen, was der Anrufer möchte, und ihn durch die erforderlichen Eingaben zu führen, bis Sie alle Informationen haben und den Vorgang im Backend ausführen können. Anrufabläufe wie dieser werden mithilfe des Input ASR-Objekts und spezifischer Extraktoren für die Art von Informationen erstellt, die Sie an einem bestimmten Punkt im Anrufablauf benötigen.
LLM-basierte AnrufabläufeDie dritte Möglichkeit zur Erstellung eines Sprachbots besteht in der Verwendung von Spracherkennung in Kombination mit einem LLM und speziell entwickelten Eingabeaufforderungen, die dem LLM mitteilen, wie es den Anrufer nach den für die Durchführung eines Vorgangs erforderlichen Informationen fragen soll. Anhand unseres obigen Beispiels könnten Sie eine LLM-Eingabeaufforderung etwa wie folgt erstellen:
Solche Anrufabläufe werden mithilfe des Input-ASR-Objekts und des Extraktors „Any Text“ erstellt. Die Ergebnisse werden zur Verarbeitung an das LLM weitergeleitet (einschließlich aller vorherigen Interaktionen aus der Konversation). Sobald Sie eine JSON-Struktur mit allen erforderlichen Informationen erkannt haben, können Sie den Prozess abschließen. Sie können aber auch jederzeit während des Prozesses aus dem LLM-basierten Ansatz ausbrechen und zur Entitätsextraktion zurückkehren, wenn Sie möchten.
|