kaputt und hotplug und so

nachdem ich die erneuerung meiner vmware welt auf eis gelegt hatte, muss natuerlich mit dem alten server auch was sein. eine platte ist gestern aus dem raid ausgestiegen. die benachrichtigung per email durch den 3dm2 hat natuerlich nicht funktioniert. (murphy die bloede sau!) ich habs dann gemerkt, als auf einmal das filesystem nur noch readonly gemountet war. da ging naemlich nix mehr. exchange am sack, bluescreens en masse, backup nicht gelaufen. und ne ersatzplatte hatte ich weder im server mit laufen, noch im schrank liegen. die hatte ich wohl mal fuer was anderes missbraucht. selbst schuld.
nach einem stundenlangen (und sowieso ueberfaelligem) filesystemcheck hab ich alle vmwares wieder hochgefahren. es hat den anschein, dass alles wieder funktioniert. heute dann schnell eine ersatzplatte besorgt und einfach im laufenden betrieb reingebaut. der kernel hat das irgendwie nicht gemocht, eine netzwerkkarte rausgeschmissen und mir ein paar fehlermeldungen ins syslog geschrieben:

Jan 11 18:59:39 localhost kernel: skge 0000:04:04.0: PCI error cmd=0x17 status=0x82b0
Jan 11 18:59:39 localhost kernel: 3w-9xxx: scsi0: ERROR: (0x06:0x000C): PCI Parity Error: clearing.
Jan 11 18:59:39 localhost kernel: skge 0000:04:04.0: PCI error cmd=0x157 status=0xc2b0
Jan 11 18:59:40 localhost last message repeated 4 times
Jan 11 18:59:41 localhost kernel: irq 50: nobody cared (try booting with the "irqpoll" option)
Jan 11 18:59:41 localhost kernel: [] __report_bad_irq+0x2b/0x6b
Jan 11 18:59:41 localhost kernel: [] note_interrupt+0x6b/0x9a
[...]
Jan 11 18:59:41 localhost kernel: handlers:
Jan 11 18:59:41 localhost kernel: [] (e100_intr+0x0/0x91 [e100])
Jan 11 18:59:41 localhost kernel: Disabling IRQ #50

schoene scheisse dachte ich, aber nach ein paar minuten hat er sich wieder gefangen:

Jan 11 19:08:27 localhost kernel: NETDEV WATCHDOG: eth4: transmit timed out
Jan 11 19:08:27 localhost kernel: e100: eth4: e100_watchdog: link up, 10Mbps, half-duplex
Jan 11 19:08:37 localhost kernel: 3w-9xxx: scsi0: AEN: INFO (0x04:0x000B): Rebuild started:unit=0.

naja… was solls. die kiste laeuft und macht den rebuild des raids. soviel also zu s-ata und hotplug. keine ahnung, warum der da die netzwerkkarte abgeschossen hat, aber ich wollte vermeiden, die vmwares alles wieder runterzufahren und alles neu zu starten. downtime sucks und “versuch macht kluch” 😉
hier noch ein bildchen vom “hotplug”… die neue platte liegt jetzt einfach oben drauf, da die defekte inmitten von 5 anderen fest verschraubt ist. ich glaube nicht, dass ich die im laufenden betrieb ohne groessere probleme ausgebaut bekommen haette.

11. January 2010 by sd
Categories: Uncategorized | Tags: , , | 1 comment

One Comment

  1. Pingback: i live in my own little world, but it’s ok… they know me here» Blog Archive » murphy und raid

Leave a Reply

Required fields are marked *