IntroductionThis document describes the possibilities of monitoring the jtel system within the framework of an operational concept and integrating it into an alarm system or telemetry. Regarding the architecture and structure of the system, reference is made to other documents and to the specific project specification sheet. GeneralThere are many tools, that can be used, to monitor systems during operation. jtel relies on the tool Nagios, although other tools can certainly be used. In individual cases, please ask us. If it is desired to set up monitoring for your system, jtel requires an additional server in the system architecture on which the Nagios server is installed. If you already have a Nagios server, it can be used. A Nagios client with corresponding plug-ins is installed on the individual servers of the jtel system. The installation is done on a service basis. Generally, no more than one day should be necessary for this. Furthermore, it is possible to carry out a so-called end-to-end test on a regular basis. This test can be used to ensure that the system's telephony paths actually work continuously by having an external system (at jtel) call the system on a test number and in turn connect to an external system at jtel. Prometheus and Grafanajtel relies on the Prometheus system to acquire telemetry data and Grafana to display it. Other monitoring systems can be implemented as a project if desired. The monitoring system is configured to monitor various points in the system. Here, measured values such as RAM and CPU utilisation are observed, and individual processes are also monitored to see whether they are actually running. It is recommended to install the monitoring system on a separate physical machine. If a threshold is exceeded or an individual part of the system does not react, an alarm is triggered. This alarm can be sent by SMS or e-mail. As a general rule, the first failed attempt to reach a system part should not immediately trigger an alarm, but the test should be repeated a short time later. Only after two failed attempts should an alarm be triggered. MonitoringDepending on the system, the services to be monitored will vary. The right services are selected on the basis of the corresponding installed roles. Also see https://wiki.jtel.de/display/JPW/Installation. https://wiki.jtel.de/display/JPW/Installation Um die eingesetzten Dienste zu überwachen, werden mehrere sogenannte „Exporter“ installiert. Diese liefern Telemetrydaten an Prometheus und werden regelmäßig abgefragt. So ist es möglich, eine Historie der Telemetrydaten in Grafana zu betrachten TelemetryBei Telemetry werden Werte gemessen. Werte können eine gewisse Warn- oder Fehler-Schwelle überschreiten, bei den eine Aktion ausgelöst wird – also eine Warnung oder Fehlermeldung generiert. Running servicesBei laufenden Diensten wird beschrieben welche Dienste laufen müssen damit eine gewisse Funktion gewährleistet ist. Diese Messung ist binär: läuft ein Dienst nicht, wird ein Fehler ausgelöst, da dann eine Funktion beeinträchtigt ist. Bitte beachten Sie, dass bei Installationen bei den gewisse Komponenten nicht laufen, manche Alarmierungen deaktiviert werden. Beispielsweise wurde der E-Mail-Dienst nicht lizenziert, so wird dieser Alarm deaktiviert. In den nachfolgenden Tabellen wird hier kein besonderer Alarm dokumentiert – wenn der Dienst nicht läuft wird stets ein Fehler per E-Mail und falls angebunden SMS ausgelöst. All RolesDiese Monitorpunkte sollten auf allen Systemen eingerichtet werden. TelemetryMonitorpunkt | Messwert | Aktion bei Fehler | Kommentar | Ping Test | Ping erfolgreich | SMS + E-Mail | Maschine ist erreichbar. | Festplatte Betriebssystem + Daten | 80% 90% | E-Mail SMS + E-Mail | Bei Erreichen der Festplattenkapazität ist damit zu rechnen, dass einzelne Komponenten nicht mehr korrekt funktionieren. | CPU | > 80% über 2 Minuten 100% über eine Minute | E-Mail SMS + E-Mail | Das System ist überlastet. Ein Prozessteil funktioniert möglicherweise nicht korrekt. | Zeitsynchronisierung
| Zeit, Vergleich mit NTP Server, Delta < 2 Sekunden | SMS + E-Mail | Zeitsynchronisierungsunterschiede zwischen den Systemen können zu Fehlern in der Berechnung der Queues und Statistik führen. |
Running servicesDienst | Messwert | Aktion bei Fehler | Kommentar | ntp Dienst (Windows) | Dienst läuft | SMS + E-Mail | Der Zeitsynchronisationsdienst läuft. | chronyd (Linux) | Dienst läuft | SMS + E-Mail | Der Zeitsynchronisationsdienst läuft. |
Role TELTelemetryMonitorpunkt | Messwert | Aktion bei Fehler | Kommentar | error.log | Wächst zu schnell (> 10kB pro Sekunde) | SMS + E-Mail | Wächst der error.log schnell, so liegt womöglich ein Systemfehler vor. | error.log | DB Verbindungsfehler (ODBC Fehler) | SMS + E-Mail | Die Datenbankkonnektivität ist gestört. |
Running servicesDienst | Programm | Kommentar | Telefonieserver | robot5.exe | Wenn dieser Prozess nicht läuft, ist die Telefonie nicht erreichbar. | SIP / RTP Dienst | giHal.exe | Wenn dieser Prozess nicht läuft, ist die Telefonie nicht erreichbar. | SIP Registrierungsdienst | giAcu.exe | Wenn dieser Prozess nicht läuft, wird der SIP Trunk zu TK-Anlage nicht registriert. Beachte: dieser Dienst ist nicht bei allen Installationen erforderlich. | Platform UDP Listener | javaw.exe (platform-UDP-listener-1.0-jar-with-dependencies.jar) | Wenn dieser Prozess nicht läuft, werden keine Nachrichten zu im Telefonie-Server laufenden Calls an den Rest der Installation übermittelt. Somit findet beispielsweise nur eine Teilweise- Aktualisierung der Daten im Agent-Home statt. |
Rolle LBTelemetryMonitorpunkt | Messwert | Aktion bei Fehler | Kommentar | Port 80 TCP | Port ist erreichbar | SMS + E-Mail | Der Load-Balancer ist über http erreichbar. | Port 443 TCP | Port ist erreichbar | SMS + E-Mail | Der Load-Balancer ist über https erreichbar. | http Aufruf auf http://(ip)/admin | 200 OK inkl Web-Inhalt | SMS + E-Mail | Die Web-Anwendung sowie SOAP Schnittstellen sind über http erreichbar. | http Aufruf auf https://(ip)/admin | 200 OK inkl Web-Inhalt | SMS + E-Mail | Die Web-Anwendung sowie SOAP Schnittstellen sind über https erreichbar. |
Running ServicesDienst | Programm | Kommentar | Load Balancer Dienst | haproxy | Wenn dieser Prozess nicht läuft, ist die Webanwendung bzw. SOAP Schnittstelle der Lösung nicht erreichbar. |
Rolle WEBTelemetryMonitorpunkt | Messwert | Aktion bei Fehler | Kommentar | Port 8080 TCP | Port ist erreichbar | SMS + E-Mail | Die Webanwendung bzw. SOAP Schnittstelle ist erreichbar. | http Aufruf auf http://(ip):8080/admin | 200 OK inkl Web-Inhalt | SMS + E-Mail | Die Web-Anwendung sowie SOAP Schnittstelle ist erreichbar. |
Running ServicesDienst | Programm | Kommentar | Web Server Dienst | wildfly | Wenn dieser Prozess nicht läuft, ist der Webserver nicht erreichbar. |
Rolle DBTelemetryMonitorpunkt | Messwert | Aktion bei Fehler | Kommentar | MySQL Master | Alarmschwelle bei 30 Sekunden für lang andauernde Queries auf der Master-Datenbank. | SMS + E-Mail | Einzelne Datenbankqueries benötigen keine überproportional lange Zeit. | MySQL Slave | Keine Fehler, Seconds behind Master ist gering (< 5 Sekunden). | SMS + E-Mail | Die Slave Datenbank repliziert korrekt. |
Running ServicesDienst | Programm | Kommentar | MySQL Datenbank Server | mysqld | Wenn dieser Prozess nicht läuft, ist die Datenbank nicht erreichbar |
Rolle RESTDienst / Wo Installiert | Programm | Kommentar | jrest REST Service /
Rolle TEL oder einer der Linux Server | javaw.exe (jtel-jrest-1.0.jar)
jrest (linux)
| Wenn dieser Prozess nicht läuft, ist der jtel REST Service nicht erreichbar. |
TK- und Presence ConnectorenDienst / Wo Installiert | Programm | Kommentar | Presence Connector (Teams, NFON, Cisco und andere) / Rolle TEL | javaw.exe (jtel-system-presence-aggregator-1.0.jar) | Wenn dieser Prozess nicht läuft, werden keine Presence-Daten mehr von Teams sowie die TK-Anlage zum jtel System übermittelt. Auch die Rückübermittlung der Daten an Teams ist gestört. | Innovaphone PBX Connector / Rolle TEL | JTELInnovaphonePBXService.exe | Wenn dieser Prozess nicht läuft, werden keine Presence-Daten mehr von der TK-Anlage zum jtel System übermittelt. Die Funktion Abheben ist gestört. Die Erkennung, ob ein Anruf weitervermittelt wurde, ist gestört. | TAPI PBX Connector / Rolle TEL | jtelTAPIMonitorService.exe | Wenn dieser Prozess nicht läuft, werden keine Presence-Daten mehr von der TK-Anlage zum jtel System übermittelt. Die Funktion Abheben ist gestört. Die Erkennung, ob ein Anruf weitervermittelt wurde, ist gestört. | STARFACE v2 Connector / Rolle TEL | jtelStarface6v2SOAPWindowsService.exe | Wenn dieser Prozess nicht läuft, werden keine Calls zum jtel System durchgestellt. Es werden auch keine Presence-Daten mehr von der TK-Anlage zum jtel System übermittelt. |
E-Mail DiensteDienst / Wo Installiert | Programm | Kommentar | E-Mail (IMAP) / Rolle TEL | jtelIMAPMailService.exe | Wenn dieser Prozess nicht läuft, werden E-Mails nicht von IMAP Postfächern abgeholt und verarbeitet. | E-Mail (Exchange) / Rolle TEL | jtelEWSMailService.exe | Wenn dieser Prozess nicht läuft, werden E-Mails nicht von Exchange-Server-Postfächern abgeholt und verarbeitet. |
|