Leidensweg einer kleinen Migration
Am letzten Samstag war es soweit:
Eine Ära ging zuende und der letzte Server verließ meine
Wohnung in Richtung Rechenzentrum. Der Plan war eigentlich recht
einfach: Die techn in ein neues Gehäuse pflanzen, die
Systemplatten am 3ware durch ein paar größere Platten im
gmirror an den internen SATA Ports ersetzen, Daten überspielen
und die Downtime dann gleich noch für ein FreeBSD-Update
nutzen.
Nach dem Frühstück fuhr ich in die Schloßstraße
zu Acom, um noch schnell ein Y-Kabel zu kaufen, da mein neues
Netzteil zwar viele SATA-Stromstecker (die ich aufgrund meines
SATA-Gehäuses nicht brauchte), aber wenige herkömmliche
Stromstecker hatte. Dann kamen noch ein paar letzte Vorbereitungen,
dann der shutdown.
Der Umbau ins neue Gehäuse klappte ohne Probleme, nach dem
Einschalten partitionierte ich die neue Platte (die zweite sollte
dann mittels gmirror insert später folgen), dann fing ich an,
die Daten zu kopieren. Das dauerte natürlich so seine Zeit. 2
Stunden oder auch ein wenig mehr.
Beim Booten fingen die Probleme dann an. Kernel nicht gefunden?
Bootloader nicht gefunden? Was ist los? Lesefehler auf diversen
Sektoren. Na toll, die Platte ist im Eimer. Vor einer Woche
gekauft, das erste mal in Betrieb. Kann ja heiter werden. Ein SMART
Test endet mit Lesefehlern (der short Test, der normal NIE was
findet!). Ich versuche die Daten zu überschreiben, nach einer
Sekunde kommt vom dd "end of device". Ahja.
Ich baue die Platte aus, gehe zu Acom, erkläre mein Problem
und bekomme die Platte (Samsung...) ohne weiteres getauscht.
Während ich warte erkläre ich einem Gespann aus zwei
Acom-Mitarbeitern die Grundzüge von Redundanz mit einem RAID 5
bzw. einem RAID 6, da Unsicherheit herrschte, ob zusätzliche
Platte die Redundanz dort erhöhen würden.
Zu Hause packe ich die Platte ins System, partitioniere, starte den
SMART Test diesmal vorher. Der short offline test failed. Er failed
auch auf der zweiten Samsung Platte. Ich denke kurz über das
BIOS nach, das hatte mit den zwei WD 1-TB-Platten allerdings keine
Sorgen. Ich boote nochmal - beide Platten melden sich konsistent
mit einer Größe von 32 MB (was genau der
Cache-Größe entspricht), darauf geschriebene Daten sind
beim nächsten mal nicht mehr zu finden und der SMART test
failed bei beiden Platten beim exakt gleichen LBA. Übrigens
ein und demselben wie bei der Platte, die ich bereits
zurückgebracht habe. Ein anderer Controller, selbst ein
anderer Rechner ändert am Ergebnis nichts: Ich habe zwei
RAM-Disks mit 32 MB Größe...
Ich stehe mit beiden Platten bei Acom, bin jetzt das dritte mal an
diesem Tag hier. Ich befürchte schon Schlimmes - wenn mir ein
Kunde so kommen würde, würde ich mir ja auch erstmal
meine Gedanken machen. Der Mitarbeiter am Tresen hört sich
mein Problem an. Noch bevor er etwas sagen kann kommt von der Seite
ein anderer Acom-Mitarbeiter (oder der Chef oder sonstwer) und
tönt: "Das kann gar nich sein! Wir verkaufen da viele von und
keiner hat Probleme! Sie müssen das mit FAT32 formatieren!!!"
In meinem Kopf formuliert sich gerade ein passender Gegenschlag zu
diesem ausgewachsenen Blödsinn von der Seite - nicht nur,
daß das technisch von vorn bis hinten falsch war, aber man
sagt auch einem Kunden nicht ins Gesicht, daß man ihn für
dumm hält - doch der Mitarbeiter, der mich bedient rettet die
Situation, indem er klarstellt, daß der 32-MB-Bug bei den
Samsungs sehr wohl bekannt sei. Er testet die Platten und
bestätigt mein Ergebnis nochmal.
Er bietet mir an, die Austausch-Platten erst an einem Rechner
schnell zu testen - ich lehne aber dankend ab, denn das Problem
trat (zu seiner Überraschung) bei mir teilweise erst nach
mehrmaligem Booten auf und bestehe darauf, die Platten gegen WDs
(gegen Zahlung der Preisdifferenz) zu tauschen. Der gute Mensch
erkennt wohl meine Verzweiflung ob der vorgerückten Stunde und
willigt trotz einigen administrativen Aufwands ein. Ich zahle meine
10 EUR, packe die Platten ein und gehe nach Hause. Der letztlich
problemlose Umtausch und die Bemühungen meines Gegenübers
trösten mich über den dummdreisten Spruch seines Kollegen
hinweg.
Es ist 19:38 Uhr, Samstag abend, seit fast 8 Stunden ist gruft
offline und noch sind keine Daten überspielt. Ich schraube die
erste Platte in den Rahmen des RAID Sets. Ich hole die zweite
Platte aus der Tasche, will sie auch gerade einschrauben...
"Samsung"... "SAMSUNG"???? Was zur Hölle ... ich hab hier
meine zwei alten Samsung-Platten und nicht die WDs. Es ist 19:42
Uhr. In 18 Minuten macht Acom zu. Ich greife zum Telefon. "Mein"
freundlicher Mitarbeiter erzählt mir, daß er mich noch im
SSC gesucht hatte und sogar versucht hatte anzurufen (ich hatte die
Nummer nicht weiter gelesen, sondern dachte, daß war ein
versuchter Anruf von Timo nach einem Gesprächsabbruch auf der
Voicemail). Ich frage, ob er auch 10 Minuten nach acht noch da
wäre, er sagt "ja, klar, das bin ich Ihnen schuldig!" - der
Mann ist wirklich gut, daß nach all dem Chaos die falschen
Platten in der Tüte landeten ist menschlich, das nehm ich ihm
nicht übel.
Um 20:05 Uhr bin ich das vierte mal bei Acom im SSC. Ich kriege
meine WDs im Tausch gegen die Samsungs ausgehändigt. Der
Mitarbeiter, der mir morgens das Y-Kabel verkaufte grinst mich an
und meint: "Das vierte mal hier???" - "Ja, mein persönlicher
Rekord für einen Tag..."
Zu Hause schraube ich die Platten rein und fange an zu kopieren.
Endlich geht alles. Timo kommt vorbei, wir essen erstmal was beim
Schwaben gegenüber.
Nach dem Kopieren der Daten gibt es noch kleinere Boot-Probleme von
der Platte. Schließlich piepst gruft nichtmal mehr beim
Anschalten. Durch Karten mischen, RAM fest drücken und gutes
Zureden läßt sich das Problem aber auch beheben (ich kenn
das schon, wechselt man an dem Board einmal die Hardware...). Das
FreeBSD-Update kneif ich mir, wir bringen den Kasten ins
Rechenzentrum. Um 00:15 Uhr verlassen wir selbiges, Timo bringt
mich noch nach Hause. Während die Dienste noch alle
runtergefahren sind, synchronisieren sich die Platten. Sonntag
morgen wird alles wieder hochgefahren.
War das eine Odyssee ... und da liegt noch ein Stück Weg vor
uns!