Kom på jobb og ene serveren var nede (igjen). Vi har hatt problemer med disken på den før (kernel panic, klarer ikke sync’e), men siden den skal fases ut om få dager gidder vi ikke styre så veldig mye med den. En liten restart pleier å fikse ting.
Men ikke i dag, kjører en restart men maskina går bare i heng. Merkelig. Etterhvert kommer det en feilmelding om at hardware monitoren har funnet en feil… Litt grundigere sjekk viser at prosessorvifta har dødd i løpet av natta og prosessoren holder for øyeblikket 105 grader! “Litt” over det optimale!
Skrur opp kassa for å bytte vifte, og det er altså så varmt at jeg klarer ikke ta på vifta en gang, og den er av plastikk! Setter maskina i vinduskarmen til kjøling mens jeg går på leting etter ny vifte. Heldigvis har vi reservedeler i hus og vifta blir bytta. Men så viser det seg at power supplyet også har fått hard medfart av varmen, så da må den også byttes. Heldigvis, igjen, har vi også dette på “lager”.
Og vips, med nye deler og litt avkjøling starter serveren som den skal! Håper at høy temperatur er skyld i diskproblemene og at viftebytte holder liv i den ut tiden til vi får opp nye serveren.
Ellers har jeg endelig fått kartlagt hele nettverket på jobben, og lagt alle servere og nettverkspunkter inn i Nagios (som er et fantastisk bra overvåkningsverktøy, takk til Stian for tips!). Dette letter jobben betraktelig! Og jeg hadde feks ikke merket at serveren var død hvis det ikke hadde vært for Nagios.
Kan anbefale Nagios til alle som driver med drift, er litt dokumentasjon og lese for å få det opp første gangen, men konfigurasjon av enheter går som en lek når man først har fått det opp! Jeg kan dele mine config filer hvis noen trenger det.