Sv translation | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
IntroductionThis document describes the possibilities of monitoring the jtel system within the framework of an operational concept and integrating it into an alarm system or telemetry. Regarding the architecture and structure of the system, reference is made to other documents and to the specific project specification sheet. GeneralThere are many tools that can be used to monitor systems during operation. jtel relies on the tool Nagios, although other tools can certainly be used. In individual cases, please ask us. If it is desired to set up monitoring for your system, jtel requires an additional server in the system architecture on which the Nagios server is installed. If you already have a Nagios server, it can be used. A Nagios client with corresponding plug-ins is installed on the individual servers of the jtel system. The installation is done on a service basis. Generally, no more than one day should be necessary for this. Furthermore, it is possible to carry out a so-called end-to-end test on a regular basis. This test can be used to ensure that the system's telephony paths actually work continuously by having an external system (at jtel) call the system on a test number and in turn connect to an external system at jtel. Prometheus and Grafanajtel relies on the Prometheus system to acquire telemetry data and Grafana to display it. Other monitoring systems can be implemented as a project if desired. The monitoring system is configured to monitor various points in the system. Here, measured values such as RAM and CPU utilisation are observed, and individual processes are also monitored to see whether they are actually running. It is recommended to install the monitoring system on a separate physical machine. If a threshold is exceeded or an individual part of the system does not react, an alarm is triggered. This alarm can be sent by SMS or email. As a general rule, the first failed attempt to reach a system part should not immediately trigger an alarm, but the test should be repeated a short time later. Only after two failed attempts should an alarm be triggered. MonitoringDepending on the system, the services to be monitored will vary. The right services are selected on the basis of the corresponding installed roles. Also see https://wiki.jtel.de/display/JPW/Installation. In order to monitor the services used, several so-called "exporters" are installed. These provide telemetry data to Prometheus and are queried regularly. It is thus possible to view a history of telemetry data in Grafana TelemetryIn telemetry, values are measured. Values can exceed a certain warning or error threshold at which an action is triggered - i.e. a warning or error message is generated. Running servicesIn the case of running services, a description is given of which services must be running in order to guarantee a certain function. This measurement is binary: if a service is not running, an error is triggered because a function is then impaired. Please note that in installations where certain components are not running, some alarms will be disabled. For example, if the email service has not been licensed, this alarm is deactivated. In the following tables, no special alarm is documented in this case - if the service is not running, an error is always triggered by email and, if connected, SMS. All RolesThese monitoring points should be set up on all systems. Telemetry
Running services
Role TELTelemetry
Running services
Rolle LBTelemetry
Running Services
Rolle WEBTelemetry
Running Services
Rolle DBTelemetry
Running Services
Rolle REST
TK- und Presence Connectoren
email Servicee
|
Sv translation | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
EinführungDieses Dokument beschreibt die Möglichkeiten das jtel System im Rahmen eines Betriebskonzeptes zu monitoren und in eine Alarmierung einzubinden, bzw. eine Telemetrie. Betreffend Architektur sowie Aufbau des Systems wird auf andere Dokumente verwiesen sowie auf das konkrete Projekt-Pflichtenheft. GenerellEs gibt viele Tools die genutzt werden können, um Systeme im laufenden Betrieb zu monitoren. jtel setzt auf das Tool Nagios, wobei durchaus andere Tools genutzt werden können. Im Einzelfall fragen Sie bei uns nach. Sollte es gewünscht sein, dass ein Monitoring für Ihr System aufgebaut wird, benötigt jtel in der Systemarchitektur einen zusätzlichen Server, auf dem der Nagios Server installiert wird. Haben Sie bereits einen Nagios Server, so kann dieser verwendet werden. Auf den einzelnen Servern des jtel Systems wird ein Nagios Client mit entsprechenden Plug-Ins installiert. Die Einrichtung erfolgt auf Dienstleistungsbasis. Generell sollte nicht mehr als ein Tag hierfür nötig sein. Desweiteren besteht die Möglichkeit, einen sogenannten End-to-End Test regelmäßig durchzuführen. Mit diesem Test kann sichergestellt werden, dass die Telefonie-Wege des Systems auch tatsächlich durchgehend funktionieren, indem ein externes System (bei jtel) das System auf einer Testrufnummer anruft und sich wiederrum auf ein externes System bei jtel verbinden lässt. Prometheus und Grafanajtel setzt auf das Prometheus-System, um Telemetrie-Daten zu gewinnen und Grafana um diese anzuzeigen. Andere Monitoring-Systeme können auf Wunsch als Projekt implementiert werden. Das Monitoring System wird so konfiguriert, dass diverse Punkte im System überwacht werden. Hierbei werden Messewerte wie RAM und CPU-Auslastung beobachtet, außerdem werden Einzelprozesse beobachtet, ob sie auch tatsächlich laufen. Es ist zu empfehlen das Monitoring System auf eine separate physikalische Maschine zu installieren. Sollte eine Schwelle überschritten werden oder ein Einzelteil des Systems nicht reagieren, wird ein Alarm ausgelöst. Dieser Alarm kann per SMS oder E-Mail versendet werden. Generell gilt: Der erste Fehlversuch einen Systemteil zu erreichen, sollte nicht unmittelbar einen Alarm auslösen, sondern der Test sollte eine kurze Zeit später wiederholt stattfinden. Erst bei zweifachem Fehlversuch sollte alarmiert werden. ÜberwachungJe nach System werden die Dienste, die es zu überwachen gilt, unterschiedlich sein. Die Auswahl der richtigen Dienste erfolgt anhand der entsprechend installierten Rollen. Siehe auch wiki.jtel.de, abschnitt „Installation“: https://wiki.jtel.de/display/JPW/Installation. Um die eingesetzten Dienste zu überwachen, werden mehrere sogenannte „Exporter“ installiert. Diese liefern Telemetriedaten an Prometheus und werden regelmäßig abgefragt. So ist es möglich, eine Historie der Telemetriedaten in Grafana zu betrachten TelemetrieBei Telemetrie werden Werte gemessen. Werte können eine gewisse Warn- oder Fehler-Schwelle überschreiten, bei den eine Aktion ausgelöst wird – also eine Warnung oder Fehlermeldung generiert. Laufdende DiensteBei laufenden Diensten wird beschrieben welche Dienste laufen müssen damit eine gewisse Funktion gewährleistet ist. Diese Messung ist binär: läuft ein Dienst nicht, wird ein Fehler ausgelöst, da dann eine Funktion beeinträchtigt ist. Bitte beachten Sie, dass bei Installationen bei den gewisse Komponenten nicht laufen, manche Alarmierungen deaktiviert werden. Beispielsweise wurde der E-Mail-Dienst nicht lizenziert, so wird dieser Alarm deaktiviert. In den nachfolgenden Tabellen wird hier kein besonderer Alarm dokumentiert – wenn der Dienst nicht läuft wird stets ein Fehler per E-Mail und falls angebunden SMS ausgelöst. Alle RollenDiese Monitorpunkte sollten auf allen Systemen eingerichtet werden. Telemetrie
Laufende Dienste
Rolle TELTelemetrie
Laufende Dienste
Rolle LBTelemetrie
Laufende Dienste
Rolle WEBTelemetrie
Laufende Dienste
Rolle DBTelemetrie
Laufende Dienste
Rolle REST
TK- und Presence Connectoren
E-Mail Dienste
|