| Sv translation | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
IntroductionThis document describes the possibilities of monitoring the jtel system within the framework of an operational concept and integrating it into an alarm system or telemetry. Regarding the architecture and structure of the system, reference is made to other documents and to the specific project specification sheet. GeneralThere are many tools that can be used to monitor systems during operation. jtel relies on the tool Nagios, although other tools can certainly be used. In individual cases, please ask us. If it is desired to set up monitoring for your system, jtel requires an additional server in the system architecture on which the Nagios server is installed. If you already have a Nagios server, it can be used. A Nagios client with corresponding plug-ins is installed on the individual servers of the jtel system. The installation is done on a service basis. Generally, no more than one day should be necessary for this. Furthermore, it is possible to carry out a so-called end-to-end test on a regular basis. This test can be used to ensure that the system's telephony paths actually work continuously by having an external system (at jtel) call the system on a test number and in turn connect to an external system at jtel. Prometheus and Grafanajtel relies on the Prometheus system to acquire telemetry data and Grafana to display it. Other monitoring systems can be implemented as a project if desired. The monitoring system is configured to monitor various points in the system. Here, measured values such as RAM and CPU utilisation are observed, and individual processes are also monitored to see whether they are actually running. It is recommended to install the monitoring system on a separate physical machine. If a threshold is exceeded or an individual part of the system does not react, an alarm is triggered. This alarm can be sent by SMS or email. As a general rule, the first failed attempt to reach a system part should not immediately trigger an alarm, but the test should be repeated a short time later. Only after two failed attempts should an alarm be triggered. MonitoringDepending on the system, the services to be monitored will vary. The right services are selected on the basis of the corresponding installed roles. Also see https://wiki.jtel.de/display/JPW/Installation. In order to monitor the services used, several so-called "exporters" are installed. These provide telemetry data to Prometheus and are queried regularly. It is thus possible to view a history of telemetry data in Grafana TelemetryIn telemetry, values are measured. Values can exceed a certain warning or error threshold at which an action is triggered - i.e. a warning or error message is generated. Running servicesIn the case of running services, a description is given of which services must be running in order to guarantee a certain function. This measurement is binary: if a service is not running, an error is triggered because a function is then impaired. Please note that in installations where certain components are not running, some alarms will be disabled. For example, if the email service has not been licensed, this alarm is deactivated. In the following tables, no special alarm is documented in this case - if the service is not running, an error is always triggered by email and, if connected, SMS. All RolesThese monitoring points should be set up on all systems. Telemetry
Running services
Role TEL - WindowsTelemetry
Running services
Role TEL - LinuxTelemetry
Running services
Role LBTelemetry
Running Services
Role WEBTelemetry
Running Services
Role DBTelemetry
Running Services
Role REST - Windows
Role REST - Linux
TK- und Presence Connectoren - Windows
TK- und Presence Connectoren - Linux
email Service - Windows
email Service - Linux
|
| Sv translation | |||
|---|---|---|---|
| |||
| Sv translation | |||
| |||
Monitorpunkt | Messwert | Aktion bei Fehler | Kommentar |
Ping Test | Ping erfolgreich | SMS + E-Mail | Maschine ist erreichbar. |
Festplatte Betriebssystem + Daten | 80% 90% | SMS + E-Mail | Bei Erreichen der Festplattenkapazität ist damit zu rechnen, dass einzelne Komponenten nicht mehr korrekt funktionieren. |
CPU | > 80% über 2 Minuten 100% über eine Minute | SMS + E-Mail | Das System ist überlastet. Ein Prozessteil funktioniert möglicherweise nicht korrekt. | Zeit, Vergleich mit NTP Server, Delta < 2 Sekunden | SMS + E-Mail | Zeitsynchronisierungsunterschiede zwischen den Systemen können zu Fehlern in der Berechnung der Queues und Statistik führen. |
Dienst | Messwert | Aktion bei Fehler | Kommentar |
ntp Dienst (Windows) | Dienst läuft | SMS + E-Mail | Der Zeitsynchronisationsdienst läuft. |
chronyd (Linux) | Dienst läuft | SMS + E-Mail | Der Zeitsynchronisationsdienst läuft. |
Monitorpunkt | Messwert | Aktion bei Fehler | Kommentar |
error.log | Wächst zu schnell (> 10kB pro Sekunde) | SMS + E-Mail | Wächst der error.log schnell, so liegt womöglich ein Systemfehler vor. |
error.log | DB Verbindungsfehler (ODBC Fehler) | SMS + E-Mail | Die Datenbankkonnektivität ist gestört. |
Dienst | Programm | Kommentar | |
Telefonieserver | robot5.exe | Wenn dieser Prozess nicht läuft, ist die Telefonie nicht erreichbar. | |
SIP / RTP Dienst | giHal.exe | Wenn dieser Prozess nicht läuft, ist die Telefonie nicht erreichbar. | |
SIP Registrierungsdienst | giAcu.exe | Wenn dieser Prozess nicht läuft, wird der SIP Trunk zu TK-Anlage nicht registriert. Beachte: dieser Dienst ist nicht bei allen Installationen erforderlich. | |
Platform UDP Listener | javaw.exe (platform-UDP-listener-1.0-jar-with-dependencies.jar) | Wenn dieser Prozess nicht läuft, werden keine Nachrichten zu im Telefonie-Server laufenden Calls an den Rest der Installation übermittelt. Somit findet beispielsweise nur eine Teilweise- Aktualisierung der Daten im Agent-Home statt. | |
Monitorpunkt | Messwert | Aktion bei Fehler | Kommentar |
Port 80 TCP | Port ist erreichbar | SMS + E-Mail | Der Load-Balancer ist über http erreichbar. |
Port 443 TCP | Port ist erreichbar | SMS + E-Mail | Der Load-Balancer ist über https erreichbar. |
http Aufruf auf http://(ip)/admin | 200 OK inkl Web-Inhalt | SMS + E-Mail | Die Web-Anwendung sowie SOAP Schnittstellen sind über http erreichbar. |
http Aufruf auf https://(ip)/admin | 200 OK inkl Web-Inhalt | SMS + E-Mail | Die Web-Anwendung sowie SOAP Schnittstellen sind über https erreichbar. |
Dienst | Programm | Kommentar | |
Load Balancer Dienst | haproxy | Wenn dieser Prozess nicht läuft, ist die Webanwendung bzw. SOAP Schnittstelle der Lösung nicht erreichbar. | |
Monitorpunkt | Messwert | Aktion bei Fehler | Kommentar |
Port 8080 TCP | Port ist erreichbar | SMS + E-Mail | Die Webanwendung bzw. SOAP Schnittstelle ist erreichbar. |
http Aufruf auf http://(ip):8080/admin | 200 OK inkl Web-Inhalt | SMS + E-Mail | Die Web-Anwendung sowie SOAP Schnittstelle ist erreichbar. |
Dienst | Programm | Kommentar | |
Web Server Dienst | wildfly | Wenn dieser Prozess nicht läuft, ist der Webserver nicht erreichbar. | |
Monitorpunkt | Messwert | Aktion bei Fehler | Kommentar |
MySQL Master | Alarmschwelle bei 30 Sekunden für lang andauernde Queries auf der Master-Datenbank. | SMS + E-Mail | Einzelne Datenbankqueries benötigen keine überproportional lange Zeit. |
MySQL Slave | Keine Fehler, Seconds behind Master ist gering (< 5 Sekunden). | SMS + E-Mail | Die Slave Datenbank repliziert korrekt. |
Dienst | Programm | Kommentar | |
MySQL Datenbank Server | mysqld | Wenn dieser Prozess nicht läuft, ist die Datenbank nicht erreichbar | |
Dienst / Wo Installiert | Programm | Kommentar | Wenn dieser Prozess nicht läuft, ist der jtel REST Service nicht erreichbar. |
Dienst / Wo Installiert | Programm | Kommentar | |
Presence Connector (Teams, NFON, Cisco und andere) / Rolle TEL | javaw.exe (jtel-system-presence-aggregator-1.0.jar) | Wenn dieser Prozess nicht läuft, werden keine Presence-Daten mehr von Teams sowie die TK-Anlage zum jtel System übermittelt. Auch die Rückübermittlung der Daten an Teams ist gestört. | |
Innovaphone PBX Connector / Rolle TEL | JTELInnovaphonePBXService.exe | Wenn dieser Prozess nicht läuft, werden keine Presence-Daten mehr von der TK-Anlage zum jtel System übermittelt. Die Funktion Abheben ist gestört. Die Erkennung, ob ein Anruf weitervermittelt wurde, ist gestört. | |
TAPI PBX Connector / Rolle TEL | jtelTAPIMonitorService.exe | Wenn dieser Prozess nicht läuft, werden keine Presence-Daten mehr von der TK-Anlage zum jtel System übermittelt. Die Funktion Abheben ist gestört. Die Erkennung, ob ein Anruf weitervermittelt wurde, ist gestört. | |
STARFACE v2 Connector / Rolle TEL | jtelStarface6v2SOAPWindowsService.exe | Wenn dieser Prozess nicht läuft, werden keine Calls zum jtel System durchgestellt. Es werden auch keine Presence-Daten mehr von der TK-Anlage zum jtel System übermittelt. | |
Dienst / Wo Installiert | Programm | Kommentar | |
E-Mail (IMAP) / Rolle TEL | jtelIMAPMailService.exe | Wenn dieser Prozess nicht läuft, werden E-Mails nicht von IMAP Postfächern abgeholt und verarbeitet. | E-Mail (Exchange) / Rolle TEL | jtelEWSMailService.exe | Wenn dieser Prozess nicht läuft, werden E-Mails nicht von Exchange-Server-Postfächern abgeholt und verarbeitet.