Jsou linuxáři větší IT srdcaři než windowsáci?
Tento příspěvek jsem se rozhodl sepsat poté, co jsme zažili havárku windows serveru u klienta a následné řešení problému, do kterého se nakonec zapojili všichni - jak windowsoví technici, tak linuxoví.
Co se stalo ?
U jednoho klienta, který funguje kompletně na windows síti, havaroval server. Tedy nehavaroval, stala se běžná věc, která se občas stane = rozpadl se RAID1. Tedy nic, z čeho by nám linuxáku běhal mráz po zádech. Podle reakcí windowsáků, taky nic vážného. Ti ale na to, že se jim rozpadl raid přišli až po 4 dnech, ale windows raidu se budu věnovat později.
Server po korektním restartu nefungoval, a tak kluci jeli ke klientovi se jej pokusit opravit, což se jim na místě nepodařilo a server byl dovezen k nám na firmu. Již zde jsme se jako linuxáři zapojili, kdy jsme vyčítali data ze smartu disků. Disky měly naběháno něco přes 3 roky a i když to byly serverové disky, vykazovaly velké množství chyb.
Tím naše práce linuxáků skončila a pokračovali čistě windowsáci. Ti byli tlačení klientem do co nejrychlejšího řešení, což se jim povedlo splnit a i když server nebyl funkční na 100%, tak alespoň fungoval a klient mohl pracovat, což pro něj bylo nejdůležitější.
Server "fungoval", ale co dál?
Fungoval bych zde dal hodně do uvozovek, protože:
- systém nebyl v raidu
- nešly spustit zálohy
- systém reagoval velmi pomalu / opožděně
- navíc, jak jsem pak zjistil, server běžel na vadném disku
Navíc i samotný start systému byl ... zvláštní. Disk C: byl na disku 1, ale funkční boot byl na disku 2 viz diagram níže.
Navíc se ještě vyskytnul problém s neaktuálními daty. Tedy s tím, že na disku C: byly 3 dny staré informace. Aktuální data byla pouze na disku G:. Samotné zkopírování dat nepomohlo, ještě se musela "obnovit databáze" mailů - více méně znovu vytvořit index. Zde windows server, pro sestavení tohoto indexu, logy z mail serveru. Jeden doručený email = 1M. Našlo se, co zabírá 300GB na serveru.
Windows RAID
Jak z předchozího vyplývá, windows raid se zachoval velmi zvláštně, pro mě osobně nepochopitelně.
- zdetekoval chybu na disku 1
- odpojil disk 1 z raidu
- zde nevím jestli opravdu odpojil, ale po restaru již nebyl raid funkční a systém byl rozdělen na dva systémové disky. - data korektně ukládal na disk G:
- samotný systém ale bežel z disku C:
Toto nás všechny značně zmátlo a znepříjemnilo život.
Obecně windows raid je taková malá neřízená střela a hlavně nijak nelze být informován, že se něco stalo -> tedy věc, která je v linuxu zcela běžná. Tedy abych byl přesnější, windows toto v základu nemá ošetřené, ale po delším hledáním jsem našel scripty, pomocí kterých se to dá ošetřit.
Co dál?
Tento stav nás samozřejmě trápil a nemohli jsme jej takto nechat. Klient mezi svátky nepracoval, takže jsme server znovu stáhli. Cílem byka výměna disku a 100% zprovoznění systému. "Jednoduchý" úkol mezi svátky. Pro raid je to otázka výměny disku a syncronizace, ale my raid neměli. Ale na to windows také myslí a umí z jednoho disku raid vytvořit. Windowsáři se snažili, ale toto se nedařilo. Bohužel windows opět o tomto nijak neinformuje o žádné chybě, pouze svítí ve správci disků, že nefunguje synchronizace disků. Tedy zůstalo vše při starém.
Linuxáři přicházejí
Nyní se dostávám k jádru celého příspěvku. Mezi svátky jsme s kolegou dorazili k řešení tohoto problému také ( byli jsme doslova staženi ). Já jsem dělal z domu a měl jsem projekt, který jsem potřeboval dořešit, kolega stažen z dovolené. Dorazili jsme na 8 hodin a čekali na ostatní, abychom zjistili, jaký je stav. Sešli jsme se ale až v 8:20. Zdělili jsme si co a jak a začli jsme hledat různá řešení.
Hledali jsme všichni, ale windowsáci už neměli moc možností a nechali to teď na nás. Mluví o tom i jejich přístup, do kterého jsem si rýpnul na tweetru.
Klasika. Windousáři volají na pomoc linuxáky, aby jim pomohli s #windows serverem, odejdou si v klidu na oběd a linuxáři makají. #linux
— Dobiáš Václav (@vaclavd85) 30. Prosinec 2014
V ten den se nám to bohužel nepovedlo vyřešit, ale podařilo se nám ( linuxákům ) zjistit, v čem je problém. Problém byl ve vadném disku, jak jsem zjistil hned při prvním řešení, kdy při bitovém kopírování byly nalezeny vadné sektory hned n 3.6GB. Tedy asi po 2 min. kopírování. Tyto sektory neměl windows zaznačen a proto nešlo spustit žádnou běžnou zálohu. Spustit šlo, ale na stejném místě narazil na chybu, kdy skončil.
Pokusili se tyto chyby ignorovat, ale výsledný image měl poškozenou tabulku file listu a nešlo vbec nic přečíst. Na základě znalosti chyby jsme se pokusili využít plné kontroly windowsovského checklistu s aut. opravou. Bylo už ale pozdě a věděli jsme, že kontrola a oprava bude dlouho trvat ( několik hodin ) práci pro dnešek jsme ukončili a domluvili jsme se na pokračování na Silvestra ráno.
Na silvestra jsme se sešli už ve velmi osekané skupině - byli jsme pouze 3, dva inuxáři a jeden windowsák. I když toto řešení mělo max. prioritu, na řešení se podílelo ještě méně lidí. Jelikož ale byl Silvestr, moc dlouho jsme tomu nemohli věnovat - pouze od 8 do 15 hodin. I tak jsme se "posunuli" o kousek dále. Bohužel ne k funkčnímu systému.
Po nočním checkdisku byl systém o poznání rychlejší, takže to pomohlo. Bohužel neoznačil všechny vadné sektory a opět raid nešel sestavit. Z toho důvodu jsme v linuxu data kompletně vykopírovali, abychom měli nějakou zálohu. Bohužel se nám podařilo při práci odmáznout označení partice c: . Byli jsme už všichni unaveni a stala se chybka. To nám následně jeden windowsácký kolega vyčetl. Zbytečně, testdisk toto zcela bez problémů opravil.
Jelikož jsme potřebovali server v pátek vrátit klientovi, sešli jsme se večer na nový rok a udělali jsme si noční.
Jak na nový rok tak po celý rok - to se mám na co těšit.
Nyní, když už jsme věděli co a jak, šli jsme do funkční opravy. Windowsák, který s námi strávil Silvestra, si nastudoval problematiku dynamický disků windows a jejich kopírování. My jsme jim opravili bootování ( ono jim to bootovat nikdy nebude, když sektor nemá příznak bootování ).
Výsledek?
Samozřejmě úspěšný. Nakonec se podařilo vše zprovoznit na 100%. Možná se ptáte jak. Zcela jednoduše: pomocí instalčních médií windows, které provedli korektní opravu systému. A to a zcela funkční systém.
K čemu nás ( linuxáky ) vlastně potřebovali?
Dobrá otázka. oficiálně nás volali jako podporu a další hlavy na nápady. Ve finále hlavně pro zálohu a diagnostiku problémů, ale i samotné řešení. Však plný checkdisk napadl nás, opravy přes příkazovou řádku jsme studovali ( znali taky my ).
To mě nejvíce zarazilo, že toto windowsáci neznali.
Sami přišli na to jak zálohovat dynamické disky ( tedy jeden z nich ) a podařilo se jim spustit opravu z cd.
Je otázkou, kdo podle Vás obětoval více času na řešení tohoto problému. Já osobně jsem jsem nad tímto problémem strávil 10 hodin pracovní doby ( + přesčas ) a asi 12 hodin volného času. Navíc po noční jsem zůstal jako jediný v práci, abych mohl držet hotline a v práci jsem byl až do půl čtvrté. Tedy jsem byl v práci přes 22 hodin v kuse. Ono kolegové k ránu vypadali úplně marní - já tušil do čeho jdeme a tak jsem si předtím zdřímnul. I tak to bylo náročné a hlavně mě toto řešení zdrželo o 3 dny na projektu, který jsem potřeboval nutně dokončit. Bohužel nyní jedině někdy v noci.
Přesto linuxáci na tomto úkolu byli 100% i přes svůj volný čas, nerozdíl od ostatních.
Zanechat komentář
Ujistěte se, že zadáte požadované informace, tam kde je vyznačeno (*). Kód HTML není povolen.