Leidensweg einer kleinen Migration
Am letzten Samstag war es soweit: Eine Ära ging zuende und der letzte
Server verließ meine Wohnung in Richtung Rechenzentrum. Der Plan war
eigentlich recht einfach: Die techn in ein neues Gehäuse pflanzen, die
Systemplatten am 3ware durch ein paar größere Platten im gmirror an den
internen SATA Ports ersetzen, Daten überspielen und die Downtime dann
gleich noch für ein FreeBSD-Update nutzen.
Nach dem Frühstück fuhr ich in die Schloßstraße zu Acom, um noch schnell
ein Y-Kabel zu kaufen, da mein neues Netzteil zwar viele
SATA-Stromstecker (die ich aufgrund meines SATA-Gehäuses nicht
brauchte), aber wenige herkömmliche Stromstecker hatte. Dann kamen noch
ein paar letzte Vorbereitungen, dann der shutdown.
Der Umbau ins neue Gehäuse klappte ohne Probleme, nach dem Einschalten
partitionierte ich die neue Platte (die zweite sollte dann mittels
gmirror insert später folgen), dann fing ich an, die Daten zu kopieren.
Das dauerte natürlich so seine Zeit. 2 Stunden oder auch ein wenig mehr.
Beim Booten fingen die Probleme dann an. Kernel nicht gefunden?
Bootloader nicht gefunden? Was ist los? Lesefehler auf diversen
Sektoren. Na toll, die Platte ist im Eimer. Vor einer Woche gekauft,
das erste mal in Betrieb. Kann ja heiter werden. Ein SMART Test endet
mit Lesefehlern (der short Test, der normal NIE was findet!). Ich
versuche die Daten zu überschreiben, nach einer Sekunde kommt vom dd
"end of device". Ahja.
Ich baue die Platte aus, gehe zu Acom, erkläre mein Problem und bekomme
die Platte (Samsung...) ohne weiteres getauscht. Während ich warte
erkläre ich einem Gespann aus zwei Acom-Mitarbeitern die Grundzüge von
Redundanz mit einem RAID 5 bzw. einem RAID 6, da Unsicherheit herrschte,
ob zusätzliche Platte die Redundanz dort erhöhen würden.
Zu Hause packe ich die Platte ins System, partitioniere, starte den
SMART Test diesmal vorher. Der short offline test failed. Er failed auch
auf der zweiten Samsung Platte. Ich denke kurz über das BIOS nach, das
hatte mit den zwei WD 1-TB-Platten allerdings keine Sorgen. Ich boote
nochmal - beide Platten melden sich konsistent mit einer Größe von 32 MB
(was genau der Cache-Größe entspricht), darauf geschriebene Daten sind
beim nächsten mal nicht mehr zu finden und der SMART test failed bei
beiden Platten beim exakt gleichen LBA. Übrigens ein und demselben wie
bei der Platte, die ich bereits zurückgebracht habe. Ein anderer
Controller, selbst ein anderer Rechner ändert am Ergebnis nichts: Ich
habe zwei RAM-Disks mit 32 MB Größe...
Ich stehe mit beiden Platten bei Acom, bin jetzt das dritte mal an
diesem Tag hier. Ich befürchte schon Schlimmes - wenn mir ein Kunde so
kommen würde, würde ich mir ja auch erstmal meine Gedanken machen. Der
Mitarbeiter am Tresen hört sich mein Problem an. Noch bevor er etwas
sagen kann kommt von der Seite ein anderer Acom-Mitarbeiter (oder der
Chef oder sonstwer) und tönt: "Das kann gar nich sein! Wir verkaufen da
viele von und keiner hat Probleme! Sie müssen das mit FAT32
formatieren!!!" In meinem Kopf formuliert sich gerade ein passender
Gegenschlag zu diesem ausgewachsenen Blödsinn von der Seite - nicht nur,
daß das technisch von vorn bis hinten falsch war, aber man sagt auch
einem Kunden nicht ins Gesicht, daß man ihn für dumm hält - doch der
Mitarbeiter, der mich bedient rettet die Situation, indem er klarstellt,
daß der 32-MB-Bug bei den Samsungs sehr wohl bekannt sei. Er testet die
Platten und bestätigt mein Ergebnis nochmal.
Er bietet mir an, die Austausch-Platten erst an einem Rechner schnell zu
testen - ich lehne aber dankend ab, denn das Problem trat (zu seiner
Überraschung) bei mir teilweise erst nach mehrmaligem Booten auf und
bestehe darauf, die Platten gegen WDs (gegen Zahlung der Preisdifferenz)
zu tauschen. Der gute Mensch erkennt wohl meine Verzweiflung ob der
vorgerückten Stunde und willigt trotz einigen administrativen Aufwands
ein. Ich zahle meine 10 EUR, packe die Platten ein und gehe nach Hause.
Der letztlich problemlose Umtausch und die Bemühungen meines Gegenübers
trösten mich über den dummdreisten Spruch seines Kollegen hinweg.
Es ist 19:38 Uhr, Samstag abend, seit fast 8 Stunden ist gruft offline
und noch sind keine Daten überspielt. Ich schraube die erste Platte in
den Rahmen des RAID Sets. Ich hole die zweite Platte aus der Tasche,
will sie auch gerade einschrauben... "Samsung"... "SAMSUNG"???? Was zur
Hölle ... ich hab hier meine zwei alten Samsung-Platten und nicht die
WDs. Es ist 19:42 Uhr. In 18 Minuten macht Acom zu. Ich greife zum
Telefon. "Mein" freundlicher Mitarbeiter erzählt mir, daß er mich noch
im SSC gesucht hatte und sogar versucht hatte anzurufen (ich hatte die
Nummer nicht weiter gelesen, sondern dachte, daß war ein versuchter
Anruf von Timo nach einem Gesprächsabbruch auf der Voicemail). Ich
frage, ob er auch 10 Minuten nach acht noch da wäre, er sagt "ja, klar,
das bin ich Ihnen schuldig!" - der Mann ist wirklich gut, daß nach all
dem Chaos die falschen Platten in der Tüte landeten ist menschlich, das
nehm ich ihm nicht übel.
Um 20:05 Uhr bin ich das vierte mal bei Acom im SSC. Ich kriege meine
WDs im Tausch gegen die Samsungs ausgehändigt. Der Mitarbeiter, der mir
morgens das Y-Kabel verkaufte grinst mich an und meint: "Das vierte
mal hier???" - "Ja, mein persönlicher Rekord für einen Tag..."
Zu Hause schraube ich die Platten rein und fange an zu kopieren. Endlich
geht alles. Timo kommt vorbei, wir essen erstmal was beim Schwaben
gegenüber.
Nach dem Kopieren der Daten gibt es noch kleinere Boot-Probleme von der
Platte. Schließlich piepst gruft nichtmal mehr beim Anschalten. Durch
Karten mischen, RAM fest drücken und gutes Zureden läßt sich das Problem
aber auch beheben (ich kenn das schon, wechselt man an dem Board einmal
die Hardware...). Das FreeBSD-Update kneif ich mir, wir bringen den
Kasten ins Rechenzentrum. Um 00:15 Uhr verlassen wir selbiges, Timo
bringt mich noch nach Hause. Während die Dienste noch alle
runtergefahren sind, synchronisieren sich die Platten. Sonntag morgen
wird alles wieder hochgefahren.
War das eine Odyssee ... und da liegt noch ein Stück Weg vor uns!