leden 3, 2015
Napsal(a) Václav
Zveřejněno v IT blog
Číst 8259 krát

Jsou linuxáři větší IT srdcaři než windowsáci?

(Čtení tohoto článku zabere přibližně: 4 - 7 minut/y.)

Tento příspěvek jsem se rozhodl sepsat poté, co jsme zažili havárku windows serveru u klienta a následné řešení problému, do kterého se nakonec zapojili všichni - jak windowsoví technici, tak linuxoví.

Co se stalo ?

U jednoho klienta, který funguje kompletně na windows síti, havaroval server. Tedy nehavaroval, stala se běžná věc, která se občas stane = rozpadl se RAID1. Tedy nic, z čeho by nám linuxáku běhal mráz po zádech. Podle reakcí windowsáků, taky nic vážného. Ti ale na to, že se jim rozpadl raid přišli až po 4 dnech, ale windows raidu se budu věnovat později.

Server po korektním restartu nefungoval, a tak kluci jeli ke klientovi se jej pokusit opravit, což se jim na místě nepodařilo a server byl dovezen k nám na firmu. Již zde jsme se jako linuxáři zapojili, kdy jsme vyčítali data ze smartu disků. Disky měly naběháno něco přes 3 roky a i když to byly serverové disky, vykazovaly velké množství chyb.

Tím naše práce linuxáků skončila a pokračovali čistě windowsáci. Ti byli tlačení klientem do co nejrychlejšího řešení, což se jim povedlo splnit a i když server nebyl funkční na 100%, tak alespoň fungoval a klient mohl pracovat, což pro něj bylo nejdůležitější.

Server "fungoval", ale co dál?

Fungoval bych zde dal hodně do uvozovek, protože:

systém nebyl v raidu
nešly spustit zálohy
systém reagoval velmi pomalu / opožděně
navíc, jak jsem pak zjistil, server běžel na vadném disku

Navíc i samotný start systému byl ... zvláštní. Disk C: byl na disku 1, ale funkční boot byl na disku 2 viz diagram níže.

Navíc se ještě vyskytnul problém s neaktuálními daty. Tedy s tím, že na disku C: byly 3 dny staré informace. Aktuální data byla pouze na disku G:. Samotné zkopírování dat nepomohlo, ještě se musela "obnovit databáze" mailů - více méně znovu vytvořit index. Zde windows server, pro sestavení tohoto indexu, logy z mail serveru. Jeden doručený email = 1M. Našlo se, co zabírá 300GB na serveru.

Windows RAID

Jak z předchozího vyplývá, windows raid se zachoval velmi zvláštně, pro mě osobně nepochopitelně.

zdetekoval chybu na disku 1
odpojil disk 1 z raidu
- zde nevím jestli opravdu odpojil, ale po restaru již nebyl raid funkční a systém byl rozdělen na dva systémové disky.
data korektně ukládal na disk G:
samotný systém ale bežel z disku C:

Toto nás všechny značně zmátlo a znepříjemnilo život.

Obecně windows raid je taková malá neřízená střela a hlavně nijak nelze být informován, že se něco stalo -> tedy věc, která je v linuxu zcela běžná. Tedy abych byl přesnější, windows toto v základu nemá ošetřené, ale po delším hledáním jsem našel scripty, pomocí kterých se to dá ošetřit.

Co dál?

Tento stav nás samozřejmě trápil a nemohli jsme jej takto nechat. Klient mezi svátky nepracoval, takže jsme server znovu stáhli. Cílem byka výměna disku a 100% zprovoznění systému. "Jednoduchý" úkol mezi svátky. Pro raid je to otázka výměny disku a syncronizace, ale my raid neměli. Ale na to windows také myslí a umí z jednoho disku raid vytvořit. Windowsáři se snažili, ale toto se nedařilo. Bohužel windows opět o tomto nijak neinformuje o žádné chybě, pouze svítí ve správci disků, že nefunguje synchronizace disků. Tedy zůstalo vše při starém.

Linuxáři přicházejí

Nyní se dostávám k jádru celého příspěvku. Mezi svátky jsme s kolegou dorazili k řešení tohoto problému také ( byli jsme doslova staženi ). Já jsem dělal z domu a měl jsem projekt, který jsem potřeboval dořešit, kolega stažen z dovolené. Dorazili jsme na 8 hodin a čekali na ostatní, abychom zjistili, jaký je stav. Sešli jsme se ale až v 8:20. Zdělili jsme si co a jak a začli jsme hledat různá řešení.

Hledali jsme všichni, ale windowsáci už neměli moc možností a nechali to teď na nás. Mluví o tom i jejich přístup, do kterého jsem si rýpnul na tweetru.

Klasika. Windousáři volají na pomoc linuxáky, aby jim pomohli s #windows serverem, odejdou si v klidu na oběd a linuxáři makají. #linux
— Dobiáš Václav (@vaclavd85) 30. Prosinec 2014

V ten den se nám to bohužel nepovedlo vyřešit, ale podařilo se nám ( linuxákům ) zjistit, v čem je problém. Problém byl ve vadném disku, jak jsem zjistil hned při prvním řešení, kdy při bitovém kopírování byly nalezeny vadné sektory hned n 3.6GB. Tedy asi po 2 min. kopírování. Tyto sektory neměl windows zaznačen a proto nešlo spustit žádnou běžnou zálohu. Spustit šlo, ale na stejném místě narazil na chybu, kdy skončil.

Pokusili se tyto chyby ignorovat, ale výsledný image měl poškozenou tabulku file listu a nešlo vbec nic přečíst. Na základě znalosti chyby jsme se pokusili využít plné kontroly windowsovského checklistu s aut. opravou. Bylo už ale pozdě a věděli jsme, že kontrola a oprava bude dlouho trvat ( několik hodin ) práci pro dnešek jsme ukončili a domluvili jsme se na pokračování na Silvestra ráno.

Na silvestra jsme se sešli už ve velmi osekané skupině - byli jsme pouze 3, dva inuxáři a jeden windowsák. I když toto řešení mělo max. prioritu, na řešení se podílelo ještě méně lidí. Jelikož ale byl Silvestr, moc dlouho jsme tomu nemohli věnovat - pouze od 8 do 15 hodin. I tak jsme se "posunuli" o kousek dále. Bohužel ne k funkčnímu systému.

Po nočním checkdisku byl systém o poznání rychlejší, takže to pomohlo. Bohužel neoznačil všechny vadné sektory a opět raid nešel sestavit. Z toho důvodu jsme v linuxu data kompletně vykopírovali, abychom měli nějakou zálohu. Bohužel se nám podařilo při práci odmáznout označení partice c: . Byli jsme už všichni unaveni a stala se chybka. To nám následně jeden windowsácký kolega vyčetl. Zbytečně, testdisk toto zcela bez problémů opravil.

Jelikož jsme potřebovali server v pátek vrátit klientovi, sešli jsme se večer na nový rok a udělali jsme si noční.

Jak na nový rok tak po celý rok - to se mám na co těšit.

Nyní, když už jsme věděli co a jak, šli jsme do funkční opravy. Windowsák, který s námi strávil Silvestra, si nastudoval problematiku dynamický disků windows a jejich kopírování. My jsme jim opravili bootování ( ono jim to bootovat nikdy nebude, když sektor nemá příznak bootování ).

Výsledek?

Samozřejmě úspěšný. Nakonec se podařilo vše zprovoznit na 100%. Možná se ptáte jak. Zcela jednoduše: pomocí instalčních médií windows, které provedli korektní opravu systému. A to a zcela funkční systém.

K čemu nás ( linuxáky ) vlastně potřebovali?

Dobrá otázka. oficiálně nás volali jako podporu a další hlavy na nápady. Ve finále hlavně pro zálohu a diagnostiku problémů, ale i samotné řešení. Však plný checkdisk napadl nás, opravy přes příkazovou řádku jsme studovali ( znali taky my ).

To mě nejvíce zarazilo, že toto windowsáci neznali.

Sami přišli na to jak zálohovat dynamické disky ( tedy jeden z nich ) a podařilo se jim spustit opravu z cd.

Je otázkou, kdo podle Vás obětoval více času na řešení tohoto problému. Já osobně jsem jsem nad tímto problémem strávil 10 hodin pracovní doby ( + přesčas ) a asi 12 hodin volného času. Navíc po noční jsem zůstal jako jediný v práci, abych mohl držet hotline a v práci jsem byl až do půl čtvrté. Tedy jsem byl v práci přes 22 hodin v kuse. Ono kolegové k ránu vypadali úplně marní - já tušil do čeho jdeme a tak jsem si předtím zdřímnul. I tak to bylo náročné a hlavně mě toto řešení zdrželo o 3 dny na projektu, který jsem potřeboval nutně dokončit. Bohužel nyní jedině někdy v noci.

Přesto linuxáci na tomto úkolu byli 100% i přes svůj volný čas, nerozdíl od ostatních.

Označeno v

Václav

Programátor... občas normální, častěji tak trochu blázen.

Internetová stránka: www.valeas.cz