Microsoft behebt ein Problem, das Cluster und virtuelle Maschinen in Windows Server betrifft
Microsoft hat Patch KB5063877 fรผr Windows Server 2019 verรถffentlicht. Das Update verhindert die seit der Installation des Juli-Patches gemeldeten Neustarts virtueller Maschinen und wiederholten Herunterfahren des Clusterdienstes. Administratoren gewinnen dadurch wertvolle Betriebszeit: Keine gesperrten Knoten, รผberflutete Protokolle mit 7031-Fehlern und unzugรคngliche BitLocker-verschlรผsselte Volumes auf Cluster Shared Volumes mehr. Voraussetzungen: Bereitstellung von SSU KB5005112 und anschlieรende Installation von KB5063877 รผber Windows Update, WSUS oder den Katalog. Der Zeitplan ist eng; einige Teams haben bereits ein nรคchtliches Wartungsfenster eingeplant, um ihre kritischen Workloads vor der nรคchsten Aktivitรคtsspitze zu sichern. Patch KB5063877: Die Ursache des Problems verstehen Im Juli brachte Patch KB5062557 mehrere Failover-Cluster-Farmen in Schwierigkeiten. Der Clusterdienst stoppte plรถtzlich, startete die Knoten neu und weigerte sich anschlieรend, sie wieder zu integrieren. Infolgedessen implodierten Hyper-V-VMs und zeigten unerwartete Abschaltungen, wรคhrend Anwendungen weiterhin davon รผberzeugt waren, durch Hochverfรผgbarkeit geschรผtzt zu sein. Verschlรผsselte CSV-Volumes verursachten zudem Zugriffsfehler, wodurch virtuelle Festplatten in einer BitLocker-Schleife blieben. Das neue monatliche Rollup von Redmond zielt speziell auf diese Anomalie ab. Es stellt die interne Logik des Cluster-Arbiters wieder her, vermeidet unnรถtige Knotenquarantรคne und korrigiert das Speichermanagement, das die Absturzkaskade ausgelรถst hatte. Tests in einem Labor mit vier Hosts bestรคtigen: 30 Sekunden nach dem Neustart ist jede Rolle ohne Vorwarnung wieder online. Direkte Auswirkungen auf Hyper-V-Umgebungen und geschรคftliche SLAsEin Pariser Serviceprovider, der 200 Datenbank-VMs hostet, hat den Schaden quantifiziert: 17 % Verfรผgbarkeitsverlust zwischen zwei Patch-Zyklen. Kritische VMs booten, stรผrzen ab und starten bis zu zehn Mal neu, bevor sie wieder dem Cluster beitreten. Endbenutzer sehen nur eine eingefrorene Benutzeroberflรคche; im Backoffice bemerkt das Team CPU-Spitzen und massives Swapping โ Anzeichen fรผr die รberhitzung, die einem Totalausfall vorausgeht. Unter System Center werden Leistungsberichte rot; die Dashboards des Windows Admin Centers verzeichnen eine Rekordzahl von 7031 Ereignissen. Seit der Implementierung von KB5063877 zeigt dieselbe Tabelle nun null kritische Warnungen innerhalb von 48 Stunden. Die CPU-Auslastung normalisiert sich, SQL-Verbindungen erreichen wieder ihre normale Latenz, und die Service Level Agreements liegen wieder im grรผnen Bereich. รberwachungsteams, die manchmal an die Panik um 2 Uhr morgens gewรถhnt sind, kรถnnen endlich aufatmen. Stellen Sie das Update bereit, ohne die Produktion zu blockieren.
Erster Schritt: Offline-Validierung. Ein Klon des Produktionsrings erhรคlt zunรคchst das SSU, dann KB5063877. Techniker initiieren ein manuelles Failover, รผberwachen die Protokolle und stellen sicher, dass jede VM ihre CSV-Datentrรคger ohne Verzรถgerung einbindet. Anschlieรend folgt das Wartungsfenster: Zwei Knoten gleichzeitig, nie mehr, um Quorumverluste zu vermeiden. PowerShell-Skripte automatisieren die Rollenverschiebung und beschrรคnken menschliche Eingriffe auf wenige Befehle.
Azure Stack HCI folgt dem gleichen Verfahren, das Arc-Portal beschleunigt die Bereitstellung jedoch. Mit einem Klick wird das Update auf die Hosts umgeleitet, wรคhrend die Cloud-Dienste weiterhin reagieren. Hybride Infrastrukturen profitieren daher von einem Vorsprung: weniger Patches, mehr Service. รberwachung der Post-Patch-Phase: Tools und Signale, die nicht รผbersehen werden dรผrfen Sobald der Sturm vorรผber ist, ist es Zeit fรผr die Rรผckverfolgbarkeit. Das Health-Modul von Active Directory muss bestรคtigen, dass die Clusterobjekte wieder synchron sind; eine Verschiebung, die auf das berรผchtigte, nicht synchronisierte CNO-Passwort hinweist, wรผrde schlieรlich zu einer weiteren Verbindungsunterbrechung fรผhren. Auf dem Host bietet der Befehl โGet-ClusterLogโ eine detaillierte Ansicht: Achten Sie auf abrupte Dienstabschaltungen oder RPC-Timeouts von mehr als 20 Sekunden.
Im Windows Admin Center wird auf der Registerkarte โLeistungโ die IOPS-Kurve angezeigt; alle abnormalen Plateaus erfordern eine Untersuchung. Schlieรlich kann System Center Operations Manager eine Warnung auslรถsen, wenn Ereignis 7031 erneut auftritt. Das Ziel bleibt klar: den kleinsten Rรผckfall zu erkennen, bevor der Benutzer ein Ticket einreicht.
Was passiert, wenn der Fehler trotz Patch weiterhin besteht? Bei einigen Kunden stolpert der Clusterdienst auch nach KB5063877 weiter. Microsoft empfiehlt dann, einen zirkulรคren Speicherauszug zu aktivieren und den Business Support zu kontaktieren; manchmal wird innerhalb von 24 Stunden ein zusรคtzlicher privater Patch bereitgestellt. Administratoren berichten auch von der vorรผbergehenden Entfernung eines alten Antivirenprogramms, das fรผr die Einschleusung eines Treibers in den RPC-Pfad verantwortlich war.
Eine weitere Mรถglichkeit: รberprรผfen Sie die CPU-Mikrocode-Version. Ein veralteter Host kann eine Hardware-Ausnahme auslรถsen, die vom Scheduler nicht behandelt wird. Eine BIOS-Aktualisierung behebt in diesem Fall den Kettenneustart. Ein einfacher Wechsel auf ein anderes Speichergerรคt, z. B. ein NAS oder SAN, isoliert Probleme im Zusammenhang mit veralteter RAID-Controller-Firmware. So ist die Infrastruktur wieder einsatzbereit und bereit fรผr die nรคchste Patch-Welle. Quelle:www.bleepingcomputer.com
Comments
Leave a comment