Service Layer hängt sich auf

  • Hallo Gemeinde,


    wir haben bei einem Kunden einen Fehler, der uns bei noch keiner anderen Installation untergekommen ist. "Freundlicherweise" tritt er auch nur sporadisch auf. Alle 3-6 Wochen einmal.


    Das Symptom ist stets identisch: Wenn man auf den Server schaut, sieht eigentlich alles gut aus. Alle David-Dienste laufen, keine Probleme im System. Startet man allerdings den David-Client, passiert nichts. Keine Fehler, keine Server-Auswahl. Wir haben daher bislang immer den Service Layer neu starten wollen.


    Der Service Layer aber bleibt beim Beenden im Status "Wird beendet" hängen. Man muss manuell den Task abschießen, dann den SL neu starten - und plötzlich rennt wieder alles wie gewohnt, ohne Probleme, ohne Fehler.


    Bisherige Untersuchungen und Erkenntnisse:

    • Keine Fehler im Windows-Eregnisprotokoll
    • Keine Fehler im David unter System -> Ereignisse
    • Es wurden kürzlich keine Updates eingespielt und der Server auch nicht neu gestartet
    • Eine Bereinigung temporärer Dateien gem. Tobit-KB haben wir jedes Mal durchgeführt, dort gab's aber keine "angesammelten" Dateien
    • Virenschutz ist unschuldig, es läuft nur der Defender, und David ist komplett ausgeklammert. Funde gab's auch keine.

    Bisher machte sich das Problem immer am Morgen bemerkbar, der Kunde konnte also an Tag X normal arbeiten, machte Feierabend, und am nächsten Morgen hing's. Da Updates und Neustart inzwischen ausgeschlossen wurden, bleiben eigentlich nur Datensicherung und Datenbereinigung als Ursache übrig. Das auszuschließen ist problematisch, wenn der Fehler so selten auftritt. Es gibt aber eine gewisse Korrelation zwischen der gestern zuletzt eingetroffenen Mail (23:02 Uhr) und dem Start des Backups der David-Daten-Partition (23:03 Uhr). Wobei das auch nicht 100% akkurat ist, da über Nacht wenig Mail eintrudeln - genau so gut könnte der Aufhänger um 03:30 Uhr aufgetreten sein. Das Backup erfolgt mittels Drive Snapshot (auf Basis der MS-Schattenkopien), das Tool ist uns bisher immer nur als extrem pflegeleicht untergekommen. Fest steht auch, dass die Sicherung um 01:30 fertig war, sich also nicht mit der David-Datenbereinigung (03:00) überschneidet.


    Hat jemand von euch eine Idee, wo wir noch suchen könnten? Irgendein anderes LOG, eine andere Überwachungs-Methode? Blöd ist halt, dass wir nicht einmal z. B. den Status des SL per Monitoring überwachen können, denn der Dienst läuft ja (er macht nur nix). Ich würde vermutlich testweise mal die Art des Backups ändern, aber das wäre schon ziemlich unschön, da "Sonderlösung".


    Bin wie immer für jeden Tipp dankbar! :)

  • Guten Morgen.


    Du kannst mal...

    1. Servicelayer Dienst beenden
    2. Windows-Konsole in David\Code öffnen
    3. sl-db.exe -console starten
    4. Windows-Konsole in David\Util\Windows öffnen
    5. DBMON.exe starten (oder mit DBMON.exe >sl-log.txt in Datei schreiben)

    Vielleicht findest du ja hier irgend welche Hinweise.


    Zudem kannst du dir per Aufgabe jede Minute ne Mail an einen Admin-Account schicken lassen.

    Vielleicht findest du so die Zeit des Aufhängers besser heraus.

  • Moin Moin,


    ich hänge mich hier einmal mit dran, da ich exakt das gleiche Problem ebenfalls bei einem Kunden habe.

    Ich nutze bei diesem Kunden ebenfalls seit Jahren DriveSnapshot zur Datensicherung, das Problem tritt aber erst seit einigen Monaten auf. Der David-Server läuft auf einem Windows Server 2008R2.


    Wenn der Service-Layer hängt stürzt der Infocenter auf den Client-PCs ab und lässt sich nicht mehr starten. Dies tritt oftmals morgens auf, immer wieder aber auch mitten am Tag, also definitiv unabhängig von der Datensicherung. Der David Client lässt sich dann nicht mehr öffnen, es passiert nichts, wenn man ihn doppelklickt. Manchmal geht der Davic-Client noch, dopellt geklickte Mails bleiben dann allerdings leer.


    Schieße ich den SL mit taskkill ab, so startet er sich umgehend selber wieder, funktioniert dann aber immer noch nicht.


    Momentan behelfe ich mir mit einem Script, das erst den Security-Demon und dann den Service-Layer-Dienst beendet (net stop) und anschließende den SL dreimal hintereinander mit taskkill beendet.

    Danach starte ich beide Dienste wieder (mit net start), danach läuft es meistens wieder. Zwischen den einzelnen Schritten habe ich jeweils 10 Sekunden Pause eingbaut.


    Erfahrungsgemäß funktioniert der SL erst dann, wenn der Dienst mindesten 10 Sekunden wirklich beendet war.


    Ich hatte es bisher auf den 2008R2 Server geschoben und die wirkliche Problemlösung zurückgestellt, da der Server in der nächsten Zeit eh ersetzt werden soll.


    Viele Grüße, Jörg.

  • Danke für euer Feedback! Den debug-Mode müsste ich ja permanent mitlaufen lassen, bis der Fehler wieder auftritt, richtig? Da habe ich ein bisschen Bedenken, da das Problem sich wie gesagt nur sehr sporadisch mal zeigt. Oder ist das nach eurer Erfahrung arm an Nebenwirkungen (im alten KB-Artikel zum Thema steht was von "erhöhter Systemauslastung")?


    An Krücken mit erzwungenem Neustart habe ich auch schon gedacht, oder aber den SL zu Beginn der Datensicherung anhalten und anschließend wieder starten. Elegant ist das natürlich nicht. Zumal nach der Schilderung von graef-edv fraglich scheint, ob wirklich das Backup eine Rolle spielt.


    An einer alten Server-Version liegt's bei uns nicht, das ist Server 2016 Standard incl. aktueller Patches (unter Hyper-V). Was uns wurmt, ist dass wir unsere Installationen i. d. R. sehr ähnlich gestalten, dieser Kunde aber der einzige ist, bei dem das Phänomen auftritt.


    Eine Besonderheit gibt's allerdings: Das System lief eine ganz Weile problemlos, bis irgendwann der Platz knapp wurde. Wir haben daraufhin fürs David-Datenvolume die Windows-eigene Deduplizierung eingeschaltet und so auch jede Menge Speicher eingespart, aber einige Zeit später trat obiges Problem auf. Inzwischen wurde der Server erweitert, das virtuelle Volume ausgedehnt und die Deduplizierung rückgängig gemacht - weil wir das Feature in Verdacht hatten. Brachte nur leider nichts. Es kann sich also auch hier um Koinzidenz statt Korrelation handeln... Zumal graef-edv die Deduplizierung unter 2008R2 vermutlich nicht aktiviert hat (gab's die da überhaupt schon?)

Participate now!

Don’t have an account yet? Register yourself now and be a part of our community!