Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.
Sv translation
languageen

The following shows an example of part of an entity extraction based call flow:

Image Modified

Here is what it is doing:

  • Introducing the process using some Realtime TTS 
  • Asks the caller to input their customer number by speech
    • If the caller speaks his customer number, then check if it is found
    • If not, we ask for the customer number again, applying the same logic

Let's look at the Input ASR Object we are using:

Image Modified

This will:

  • Say to the customer "What is your customer number" using the TTS
  • Wait for input from the customer
    • For a maximum of 5 seconds, if the customer says nothing
    • If they start to speak, then for a maximum of 20 seconds
    • Once they have started to speak, then a pause of 2 seconds will cause the ASR to deliver a "final" result containing the digits we require

The second Input ASR Object is very similar, just this time we prompt the user letting them know we didn't understand what they said:

Image Modified

Following this, we search for the customer number in the database (here we use a list, but this could be anything - a REST API, DB Call or whatever is needed.

This is generally a good pattern for such call flows:

  • Ask the caller for the data you require
  • If you do not get it, ask one more time
  • Chat the data you get for validity


Info
titleTip

Don't overdo it - you will frustrate callers if they get "caught" in any kind of loop they cannot break out of. Ask them twice, maybe in some cases three times. Then give them an exit ...

Key points:

  • You can cascade this approach, asking for several things one after the other.
  • If you are combining this approach with an LLM, simply add a check whether the appropriate entity is already filled with data, and skip that part of the call flow if you already have the data.
Sv translation
languagede

Im Folgenden finden Sie ein Beispiel für einen Teil eines auf Entitätsextraktion basierenden Anrufablaufs:

Image Added

Hier ist, was es tut:

  • Einführung des Prozesses unter Verwendung von Echtzeit-TTS
  • Der Anrufer wird aufgefordert, seine Kundennummer per Spracheingabe einzugeben.
    • Wenn der Anrufer seine Kundennummer sagt, wird überprüft, ob sie gefunden wird.
    • Ist dies nicht der Fall, wird unter Anwendung derselben Logik erneut nach der Kundennummer gefragt.

Sehen wir uns das von uns verwendete Input-ASR-Objekt an:

Image Added

Dies wird:

  • Den Kunden mithilfe der TTS-Funktion fragen: „Wie lautet Ihre Kundennummer?“
  • Auf die Eingabe des Kunden warten
    • Maximal 5 Sekunden lang, wenn der Kunde nichts sagt
    • Wenn er zu sprechen beginnt, maximal 20 Sekunden lang
    • Sobald er zu sprechen beginnt, führt eine Pause von 2 Sekunden dazu, dass die ASR ein „endgültiges“ Ergebnis liefert, das die von uns benötigten Ziffern enthält

Das zweite Eingabe-ASR-Objekt ist sehr ähnlich, nur dass wir diesmal den Benutzer darauf hinweisen, dass wir nicht verstanden haben, was er gesagt hat:

Image Added

Anschließend suchen wir die Kundennummer in der Datenbank (hier verwenden wir eine Liste, aber das könnte alles Mögliche sein – eine REST-API, ein DB-Aufruf oder was auch immer erforderlich ist).

Dies ist im Allgemeinen ein gutes Muster für solche Anrufabläufe:

  • Fragen Sie den Anrufer nach den benötigten Daten.
  • Wenn Sie diese nicht erhalten, fragen Sie noch einmal nach.
  • Überprüfen Sie die erhaltenen Daten auf ihre Gültigkeit.


Info
titleTipp

Übertreiben Sie es nicht – Sie werden Anrufer frustrieren, wenn sie in einer Schleife „gefangen“ sind, aus der sie nicht herauskommen. Fragen Sie sie zweimal, in manchen Fällen vielleicht dreimal. Geben Sie ihnen dann eine Ausstiegsmöglichkeit ...

Wichtige Punkte:

  • Sie können diesen Ansatz kaskadieren und mehrere Dinge nacheinander abfragen.
  • Wenn Sie diesen Ansatz mit einem LLM kombinieren, fügen Sie einfach eine Überprüfung hinzu, ob die entsprechende Entität bereits mit Daten gefüllt ist, und überspringen Sie diesen Teil des Anrufablaufs, wenn Sie die Daten bereits haben.