murphy – i live in my own little world, but it's ok… they know me here

eine festplatte geht selten alleine kaputt

da ist wohl doch was dran, dass man die festplatten eines raids nicht aus einer charge kaufen sollte.

Jan 19, 2010 06:14:15AM - Controller 0 WARNING - Sector repair completed: port=3, LBA=0x2BEA68DE

murphy und raid

der murphy die sau. das rebuild des raid hat natuerlich nicht funktioniert.

Jan 11, 2010 09:45:34PM (0x04:0x0002): Degraded unit: unit=0, port=1 Jan 11, 2010 09:45:34PM (0x04:0x0004): Rebuild failed: unit=0 Jan 11, 2010 09:45:34PM (0x04:0x002D): Source drive error occurred: unit=0, port=3 Jan 11, 2010 09:45:34PM (0x04:0x0026): Drive ECC error reported: port=3, unit=0

langsam werde ich nervoes. in den einstellungen gibts noch “Overwrite ECC”, was ich jetzt mal aktiviert habe. murphy soll sich jetzt bitte etwas zurueckhalten. wenigstens erstmal so lange, bis das raid wieder ok ist.

kaputt und hotplug und so

nachdem ich die erneuerung meiner vmware welt auf eis gelegt hatte, muss natuerlich mit dem alten server auch was sein. eine platte ist gestern aus dem raid ausgestiegen. die benachrichtigung per email durch den 3dm2 hat natuerlich nicht funktioniert. (murphy die bloede sau!) ich habs dann gemerkt, als auf einmal das filesystem nur noch readonly gemountet war. da ging naemlich nix mehr. exchange am sack, bluescreens en masse, backup nicht gelaufen. und ne ersatzplatte hatte ich weder im server mit laufen, noch im schrank liegen. die hatte ich wohl mal fuer was anderes missbraucht. selbst schuld.
nach einem stundenlangen (und sowieso ueberfaelligem) filesystemcheck hab ich alle vmwares wieder hochgefahren. es hat den anschein, dass alles wieder funktioniert. heute dann schnell eine ersatzplatte besorgt und einfach im laufenden betrieb reingebaut. der kernel hat das irgendwie nicht gemocht, eine netzwerkkarte rausgeschmissen und mir ein paar fehlermeldungen ins syslog geschrieben:

Jan 11 18:59:39 localhost kernel: skge 0000:04:04.0: PCI error cmd=0x17 status=0x82b0 Jan 11 18:59:39 localhost kernel: 3w-9xxx: scsi0: ERROR: (0x06:0x000C): PCI Parity Error: clearing. Jan 11 18:59:39 localhost kernel: skge 0000:04:04.0: PCI error cmd=0x157 status=0xc2b0 Jan 11 18:59:40 localhost last message repeated 4 times Jan 11 18:59:41 localhost kernel: irq 50: nobody cared (try booting with the "irqpoll" option) Jan 11 18:59:41 localhost kernel: [] __report_bad_irq+0x2b/0x6b Jan 11 18:59:41 localhost kernel: [] note_interrupt+0x6b/0x9a [...] Jan 11 18:59:41 localhost kernel: handlers: Jan 11 18:59:41 localhost kernel: [] (e100_intr+0x0/0x91 [e100]) Jan 11 18:59:41 localhost kernel: Disabling IRQ #50

schoene scheisse dachte ich, aber nach ein paar minuten hat er sich wieder gefangen:

Jan 11 19:08:27 localhost kernel: NETDEV WATCHDOG: eth4: transmit timed out Jan 11 19:08:27 localhost kernel: e100: eth4: e100_watchdog: link up, 10Mbps, half-duplex Jan 11 19:08:37 localhost kernel: 3w-9xxx: scsi0: AEN: INFO (0x04:0x000B): Rebuild started:unit=0.

naja… was solls. die kiste laeuft und macht den rebuild des raids. soviel also zu s-ata und hotplug. keine ahnung, warum der da die netzwerkkarte abgeschossen hat, aber ich wollte vermeiden, die vmwares alles wieder runterzufahren und alles neu zu starten. downtime sucks und “versuch macht kluch” 😉
hier noch ein bildchen vom “hotplug”… die neue platte liegt jetzt einfach oben drauf, da die defekte inmitten von 5 anderen fest verschraubt ist. ich glaube nicht, dass ich die im laufenden betrieb ohne groessere probleme ausgebaut bekommen haette.

wenn man sich auf irgendetwas verlassen kann (teil2)

ich schrieb schonmal ueber alte hardware, die todsicher irgendwann ihren geist aufgibt. so halb eingeholt hat mich es schon wieder. diesmal zwar nur eine festplatte aus dem raid1, aber die zweite ist genauso alt. und das in dem server, bei dem sowieso hin und wieder eine von zwei cpu’s aussteigt. die festplatte hats bei einem stromausfall geschrotttet. ich bin gespannt, ob ich diesmal rechtzeitig den austausch schaffe…

wenn man sich auf irgendetwas verlassen kann…

..dann ist es, dass alte hardware, die schon auf letzten loch pfeift, auch irgendwann so richtig kaputt geht. natuerlich weiss man das auch vorher, aber “das geht schon noch ein bischen. ich kuemmer mich spaeter darum”. dann gehts vergessen und schon passiert es: “der gau. computer tot. egal, hab ja ein backup. huch, das backup ist aber nicht aktuell. so eine scheisse”. wie oft muss man das eigentlich mitmachen, bis ein lerneffekt eintritt? wenn mir dieser murphy mal ueber den weg laeuft….