Sv translation | |||||
---|---|---|---|---|---|
| |||||
IntroductionThis document describes the possibilities of monitoring the jtel system within the framework of an operational concept and integrating it into an alarm system or telemetry. Regarding the architecture and structure of the system, reference is made to other documents and to the specific project specification sheet. GeneralThere are many tools, that can be used, to monitor systems during operation. jtel relies on the tool Nagios, although other tools can certainly be used. In individual cases, please ask us. If it is desired to set up monitoring for your system, jtel requires an additional server in the system architecture on which the Nagios server is installed. If you already have a Nagios server, it can be used. A Nagios client with corresponding plug-ins is installed on the individual servers of the jtel system. The installation is done on a service basis. Generally, no more than one day should be necessary for this. Furthermore, it is possible to carry out a so-called end-to-end test on a regular basis. This test can be used to ensure that the system's telephony paths actually work continuously by having an external system (at jtel) call the system on a test number and in turn connect to an external system at jtel. Prometheus and Grafanajtel relies on the Prometheus system to acquire telemetry data and Grafana to display it. Other monitoring systems can be implemented as a project if desired. The monitoring system is configured to monitor various points in the system. Here, measured values such as RAM and CPU utilisation are observed, and individual processes are also monitored to see whether they are actually running. It is recommended to install the monitoring system on a separate physical machine. If a threshold is exceeded or an individual part of the system does not react, an alarm is triggered. This alarm can be sent by SMS or e-mailemail. As a general rule, the first failed attempt to reach a system part should not immediately trigger an alarm, but the test should be repeated a short time later. Only after two failed attempts should an alarm be triggered. MonitoringDepending on the system, the services to be monitored will vary. The right services are selected on the basis of the corresponding installed roles. Also see https://wiki.jtel.de/display/JPW/Installation. Um die eingesetzten Dienste zu überwachen, werden mehrere sogenannte „Exporter“ installiert. Diese liefern Telemetrydaten an Prometheus und werden regelmäßig abgefragt. So ist es möglich, eine Historie der Telemetrydaten in Grafana zu betrachten TelemetryBei Telemetry werden Werte gemessen. Werte können eine gewisse Warn- oder Fehler-Schwelle überschreiten, bei den eine Aktion ausgelöst wird – also eine Warnung oder Fehlermeldung generiert. Running servicesBei laufenden Diensten wird beschrieben welche Dienste laufen müssen damit eine gewisse Funktion gewährleistet ist. Diese Messung ist binär: läuft ein Dienst nicht, wird ein Fehler ausgelöst, da dann eine Funktion beeinträchtigt ist. Bitte beachten Sie, dass bei Installationen bei den gewisse Komponenten nicht laufen, manche Alarmierungen deaktiviert werden. Beispielsweise wurde der E-Mail-Dienst nicht lizenziert, so wird dieser Alarm deaktiviert. In den nachfolgenden Tabellen wird hier kein besonderer Alarm dokumentiert – wenn der Dienst nicht läuft wird stets ein Fehler per E-Mail und falls angebunden SMS ausgelöst. All RolesDiese Monitorpunkte sollten auf allen Systemen eingerichtet werden. Telemetry | |||||
Monitorpunkt | Messwert | Aktion bei Fehler | Kommentar | ||
Ping Test | Ping erfolgreich | SMS + E-Mail | Maschine ist erreichbar. | ||
Festplatte Betriebssystem + Daten | 80% 90% | SMS + E-Mail | Bei Erreichen der Festplattenkapazität ist damit zu rechnen, dass einzelne Komponenten nicht mehr korrekt funktionieren. | ||
CPU | > 80% über 2 Minuten 100% über eine Minute | SMS + E-Mail | Das System ist überlastet. Ein Prozessteil funktioniert möglicherweise nicht korrekt. |
Monitor point | Measured value | Action on error | Comment |
Ping Test | Ping succesful | SMS + email | Machine is accessible. |
Harddrive Operating system + data | 80% 90% | SMS + email | When the hard disk capacity is reached, it is to be expected that individual components will no longer function correctly. |
CPU | > 80% longer than 2 minutes 100% longer than 1 minute | SMS + email | The system is overloaded. A process part may not be working correctly. |
Time synchronisation | Time, comparison with NTP server, delta < 2 seconds | SMS + email | Time synchronisation differences between the systems can lead to errors in the calculation of the queues and statistics. |
Running services
Service | Measured value | Action on error | Comment |
ntp Service (Windows) | Service running | SMS + email | The time synchronisation service is running. |
chronyd (Linux) | Service running | SMS + email | The time synchronisation service is running. |
Role TEL
Telemetry
Monitor point | Measured value | Action on error | Comment |
error.log | Growing too fast (> 10kB per second) | SMS + email | If the error.log grows quickly, there may be a system error.. |
error.log | DB Connection error (ODBC error) | SMS + email | The database connectivity is disrupted. |
Running services
Service | Program | Comment |
Telephony server | robot5.exe | If this process is not running, telephony is not accessible. |
SIP / RTP Service | giHal.exe | If this process is not running, telephony is not accessible. |
SIP Registration service | giAcu.exe | If this process is not running, the SIP Trunk to PBX will not be registered. Note: this service is not required for all installations |
Zeitsynchronisierung
Zeit, Vergleich mit
NTP Server, Delta < 2 Sekunden
SMS + E-Mail
Zeitsynchronisierungsunterschiede zwischen den Systemen können zu Fehlern in der Berechnung der Queues und Statistik führen.
Running services
Dienst
Messwert
Aktion bei Fehler
Kommentar
ntp Dienst (Windows)
Dienst läuft
SMS + E-Mail
Der Zeitsynchronisationsdienst läuft.
chronyd (Linux)
Dienst läuft
SMS + E-Mail
Der Zeitsynchronisationsdienst läuft.
Role TEL
Telemetry
Monitorpunkt
Messwert
Aktion bei Fehler
Kommentar
error.log
Wächst zu schnell (> 10kB pro Sekunde)
SMS + E-Mail
Wächst der error.log schnell, so liegt womöglich ein Systemfehler vor.
error.log
DB Verbindungsfehler (ODBC Fehler)
SMS + E-Mail
Die Datenbankkonnektivität ist gestört.
Running services
Dienst | Programm | Kommentar |
Telefonieserver | robot5.exe | Wenn dieser Prozess nicht läuft, ist die Telefonie nicht erreichbar. |
SIP / RTP Dienst | giHal.exe | Wenn dieser Prozess nicht läuft, ist die Telefonie nicht erreichbar. |
SIP Registrierungsdienst | giAcu.exe | Wenn dieser Prozess nicht läuft, wird der SIP Trunk zu TK-Anlage nicht registriert. Beachte: dieser Dienst ist nicht bei allen Installationen erforderlich. |
Platform UDP Listener | javaw.exe (platform-UDP-listener-1.0-jar-with-dependencies.jar) | If this process is not running, no messages about calls running in the telephony server are transmitted to the rest of the installation. Thus, for example, only a partial update of the update of the data in the agent home takes place Wenn dieser Prozess nicht läuft, werden keine Nachrichten zu im Telefonie-Server laufenden Calls an den Rest der Installation übermittelt. Somit findet beispielsweise nur eine Teilweise- Aktualisierung der Daten im Agent-Home statt. |
Rolle LB
Telemetry
MonitorpunktMonitor point | Messwert | Aktion bei Fehler | Measured value | Action on error | CommentKommentar |
Port 80 TCP | Port ist erreichbaris reachable | SMS + E-Mailemail | The load balancer can be reached via httpDer Load-Balancer ist über http erreichbar. | ||
Port 443 TCP | Port ist erreichbaris reachable | SMS + E-Mailemail | The load balancer can be reached via httpsDer Load-Balancer ist über https erreichbar. | ||
http Aufruf auf call to http://(ip)/admin | 200 OK inkl Web-Inhalt | SMS + E-Mail | Die Web-Anwendung sowie SOAP Schnittstellen sind über http erreichbar. | The web application and SOAP interfaces are accessible via http. | |
http call to http Aufruf auf https://(ip)/admin | 200 OK inkl Web-Inhalt | SMS + E-Mailemail | The web application and SOAP interfaces are accessible via httpsDie Web-Anwendung sowie SOAP Schnittstellen sind über https erreichbar. |
Running Services
DienstService | ProgrammProgram | KommentarComment |
Load Balancer DienstService | haproxyWenn | dieser Prozess nicht läuft, ist die Webanwendung bzw. SOAP Schnittstelle der Lösung nicht erreichbarIf this process is not running, the web application or SOAP interface of the solution is not accessible. |
Rolle WEB
Telemetry
MonitorpunktMonitor point | Messwert | Aktion bei Fehler | Measured value | Action on error | CommentKommentar |
Port 8080 TCP | Port ist erreichbaris reachable | SMS + E-Mailemail | The web application or SOAP interface is accessibleDie Webanwendung bzw. SOAP Schnittstelle ist erreichbar. | ||
http Aufruf auf call to http://(ip):8080/admin | 200 OK inkl Web-Inhaltincl web content | SMS + E-Mailemail | The web application and SOAP interface are accessibleDie Web-Anwendung sowie SOAP Schnittstelle ist erreichbar. |
Running Services
DienstService | ProgrammProgram | KommentarComment |
Web Server DienstService | wildflyWenn | dieser Prozess nicht läuft, ist der Webserver nicht erreichbarIf this process is not running, the web server is not accessible. |
Rolle DB
Telemetry
MonitorpunktMonitor point | Messwert | Aktion bei Fehler | Measured value | Action on error | CommentKommentar |
MySQL Master | Alarmschwelle bei 30 Sekunden für lang andauernde Queries auf der Master-Datenbank. | SMS + E-Mail | Alarm threshold at 30 seconds for long-lasting queries on the master database. | SMS + email | Individual database queries do not require a disproportionately long timeEinzelne Datenbankqueries benötigen keine überproportional lange Zeit. |
MySQL Slave | Keine FehlerNo errors, Seconds behind Master ist gering is low (< 5 Sekundenseconds). | SMS + E-Mailemail | The slave database replicates correctlyDie Slave Datenbank repliziert korrekt. |
Running Services
DienstService | ProgrammProgram | KommentarComment |
MySQL Datenbank Database Server | mysqldWenn dieser Prozess nicht läuft, ist die Datenbank nicht erreichbar | If this process is not running, the database is not accessible |
Rolle REST
Dienst Service / Wo InstalliertInstalled where | ProgrammProgram | KommentarComment |
jrest REST Service / Rolle TEL oder einer der Linux ServerRole TEL or one of the Linux servers | javaw.exe (jtel-jrest-1.0.jar) jrest (linux) | Wenn dieser Prozess nicht läuft, ist der jtel REST Service nicht erreichbarIf this process is not running, the jtel REST service is not accessible. |
TK- und Presence Connectoren
Dienst Service / Wo InstalliertInstalled where | ProgrammProgram | KommentarComment |
Presence Connector (Teams, NFON, Cisco und andereand others) / Rolle Role TEL | javaw.exe (jtel-system-presence-aggregator-1.0.jar)Wenn dieser Prozess nicht läuft, werden keine Presence-Daten mehr von Teams sowie die TK-Anlage zum jtel System übermittelt. Auch die Rückübermittlung der Daten an Teams ist gestört | If this process is not running, presence data is no longer transmitted from teams and the PBX to the jtel system. The transmission of data back to Teams is also disrupted. |
Innovaphone PBX Connector / Rolle Role TEL | JTELInnovaphonePBXService.exeWenn dieser Prozess nicht läuft, werden keine Presence-Daten mehr von der TK-Anlage zum jtel System übermittelt. Die Funktion Abheben ist gestört. Die Erkennung, ob ein Anruf weitervermittelt wurde, ist gestört | If this process is not running, no more presence data is transmitted from the PBX to the jtel system. The off-hook function is disturbed. The detection of whether a call has been transferred is disturbed. |
TAPI PBX Connector / Rolle Role TEL | jtelTAPIMonitorService.exeWenn dieser Prozess nicht läuft, werden keine Presence-Daten mehr von der TK-Anlage zum jtel System übermittelt. Die Funktion Abheben ist gestört. Die Erkennung, ob ein Anruf weitervermittelt wurde, ist gestört | If this process is not running, no more presence data is transmitted from the PBX to the jtel system. The off-hook function is disturbed. The detection of whether a call has been transferred is disturbed. |
STARFACE v2 Connector / Rolle Role TEL | jtelStarface6v2SOAPWindowsService.exe | Wenn dieser Prozess nicht läuft, werden keine Calls zum jtel System durchgestellt. Es werden auch keine Presence-Daten mehr von der TK-Anlage zum jtel System übermittelt. |
E-Mail Dienste
If this process is not running, no calls are put through to the jtel system. No more presence data is transmitted from the PBX to the jtel system. |
email Servicee
Service / Installed where | Program | Comment | |
email (IMAP) / Role | |||
Dienst / Wo Installiert | Programm | Kommentar | |
E-Mail (IMAP) / Rolle TEL | jtelIMAPMailService.exe | Wenn dieser Prozess nicht läuft, werden E-Mails nicht von IMAP Postfächern abgeholt und verarbeitet. | If this process is not running, emails will not be collected and processed from IMAP mailboxes. |
email E-Mail (Exchange) / Rolle Role TEL | jtelEWSMailService.exeWenn dieser Prozess nicht läuft, werden E-Mails nicht von Exchange-Server-Postfächern abgeholt und verarbeitet | If this process is not running, emails will not be fetched and processed from Exchange server mailboxes. |
Sv translation | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
EinführungDieses Dokument beschreibt die Möglichkeiten das jtel System im Rahmen eines Betriebskonzeptes zu monitoren und in eine Alarmierung einzubinden, bzw. eine Telemetrie. Betreffend Architektur sowie Aufbau des Systems wird auf andere Dokumente verwiesen sowie auf das konkrete Projekt-Pflichtenheft. GenerellEs gibt viele Tools die genutzt werden können, um Systeme im laufenden Betrieb zu monitoren. jtel setzt auf das Tool Nagios, wobei durchaus andere Tools genutzt werden können. Im Einzelfall fragen Sie bei uns nach. Sollte es gewünscht sein, dass ein Monitoring für Ihr System aufgebaut wird, benötigt jtel in der Systemarchitektur einen zusätzlichen Server, auf dem der Nagios Server installiert wird. Haben Sie bereits einen Nagios Server, so kann dieser verwendet werden. Auf den einzelnen Servern des jtel Systems wird ein Nagios Client mit entsprechenden Plug-Ins installiert. Die Einrichtung erfolgt auf Dienstleistungsbasis. Generell sollte nicht mehr als ein Tag hierfür nötig sein. Desweiteren besteht die Möglichkeit, einen sogenannten End-to-End Test regelmäßig durchzuführen. Mit diesem Test kann sichergestellt werden, dass die Telefonie-Wege des Systems auch tatsächlich durchgehend funktionieren, indem ein externes System (bei jtel) das System auf einer Testrufnummer anruft und sich wiederrum auf ein externes System bei jtel verbinden lässt. Prometheus und Grafanajtel setzt auf das Prometheus-System, um Telemetrie-Daten zu gewinnen und Grafana um diese anzuzeigen. Andere Monitoring-Systeme können auf Wunsch als Projekt implementiert werden. Das Monitoring System wird so konfiguriert, dass diverse Punkte im System überwacht werden. Hierbei werden Messewerte wie RAM und CPU-Auslastung beobachtet, außerdem werden Einzelprozesse beobachtet, ob sie auch tatsächlich laufen. Es ist zu empfehlen das Monitoring System auf eine separate physikalische Maschine zu installieren. Sollte eine Schwelle überschritten werden oder ein Einzelteil des Systems nicht reagieren, wird ein Alarm ausgelöst. Dieser Alarm kann per SMS oder E-Mail versendet werden. Generell gilt: Der erste Fehlversuch einen Systemteil zu erreichen, sollte nicht unmittelbar einen Alarm auslösen, sondern der Test sollte eine kurze Zeit später wiederholt stattfinden. Erst bei zweifachem Fehlversuch sollte alarmiert werden. ÜberwachungJe nach System werden die Dienste, die es zu überwachen gilt, unterschiedlich sein. Die Auswahl der richtigen Dienste erfolgt anhand der entsprechend installierten Rollen. Siehe auch https://wiki.jtel.de/display/JPW/Installation. Um die eingesetzten Dienste zu überwachen, werden mehrere sogenannte „Exporter“ installiert. Diese liefern Telemetriedaten an Prometheus und werden regelmäßig abgefragt. So ist es möglich, eine Historie der Telemetriedaten in Grafana zu betrachten TelemetrieBei Telemetrie werden Werte gemessen. Werte können eine gewisse Warn- oder Fehler-Schwelle überschreiten, bei den eine Aktion ausgelöst wird – also eine Warnung oder Fehlermeldung generiert. Laufdende DiensteBei laufenden Diensten wird beschrieben welche Dienste laufen müssen damit eine gewisse Funktion gewährleistet ist. Diese Messung ist binär: läuft ein Dienst nicht, wird ein Fehler ausgelöst, da dann eine Funktion beeinträchtigt ist. Bitte beachten Sie, dass bei Installationen bei den gewisse Komponenten nicht laufen, manche Alarmierungen deaktiviert werden. Beispielsweise wurde der E-Mail-Dienst nicht lizenziert, so wird dieser Alarm deaktiviert. In den nachfolgenden Tabellen wird hier kein besonderer Alarm dokumentiert – wenn der Dienst nicht läuft wird stets ein Fehler per E-Mail und falls angebunden SMS ausgelöst. Alle RollenDiese Monitorpunkte sollten auf allen Systemen eingerichtet werden. Telemetrie
Laufende Dienste
Rolle TELTelemetrie
Laufende Dienste
Rolle LBTelemetrie
Laufende Dienste
Rolle WEBTelemetrie
Laufende Dienste
Rolle DBTelemetrie
Laufende Dienste
Rolle REST
TK- und Presence Connectoren
E-Mail Dienste
|