Riešenie problémov so serverom Technet servermeile

Riešenie problémov, t. J. Riešenie problémov v serverovej oblasti, sa bez príslušného know-how môže ukázať ako zdĺhavé a zložité. Z tohto dôvodu sa v tomto článku budeme zaoberať najbežnejšími výzvami a vysvetlíme, ako môžete v prípade domnelého defektu rýchlo obnoviť a spustiť server. Ak nemáte čas alebo ak problém pretrváva, radi vás ako kompetentného partnera systémového domu podporíme osobne telefonicky alebo na mieste.

neurčené/neznáme problémy

Ak server neurobí to, čo má, je najskôr potrebné zistiť, kde sa dá údajná chyba nájsť. Naše skúsenosti s produkciou serverov ukazujú, že iba zriedka ide o „skutočné“ chyby servera, tj. Chybné hardvérové ​​komponenty servera. Oveľa častejšie vidíme chyby konfigurácie alebo jednoducho „iné nezdokumentované stavy“ v produkcii a podpore serferov u našich zákazníkov, čo však nie je hardvérová chyba. Posledné uvedené sa môžu vyskytnúť napríklad v dôsledku zastaraného firmvéru, ale môžu mať aj iné príčiny.

Prípravné akcie

Skôr ako začnete, mali by ste mať pripravenú príručku k serveru - budete ju potrebovať. Profesionálne nástroje sú užitočné pri mnohých skúškach a pre niektoré sú nevyhnutné. Na diagnostiku a odstránenie údajnej chyby nie je nevyhnutné otvoriť kryt servera - ak je to však nevyhnutné, je nevyhnutné nosiť uzemňovací náramok, aby ste nepoškodili citlivé elektronické súčasti. Mali by ste vedieť, že moderné servery sú tiež vypnuté byť dodávaný s energiou minimálne na prevádzku BMC a na sprístupnenie servera cez IPMI. Pred otvorením krytu servera je preto potrebné úplne odpojiť príslušný server od napájacieho zdroja a siete.

Postupujte štruktúrovane a zaznamenajte si svoj pokrok - ak urobíte jednoduchú chybu, netrvá to veľa práce. Ak sa však ukáže, že prípad je zložitý, vaše poznámky budú veľmi užitočné. Zasekli ste sa v jednom bode a potrebujete profesionálnu radu servera? Radi vás podporíme a poradíme.

Riešenie problémov s procesorom Intel Wizzard

Pre základnú a rýchlu diagnostiku môžete tiež použiť server Wizzard na riešenie problémov so serverom, ktorý poskytuje spoločnosť Intel. Okrem príručky je nevyhnutné preštudovať si príručku k základnej doske servera, pretože nie všetky podrobnosti o jednotlivých základných doskách servera Intel boli zahrnuté v sprievodcovi.

Server nie je možné zapnúť/nevidíte žiadne svietiace LED

Najskôr skontrolujte základné napájanie - je vôbec k dispozícii napájací kábel alebo je k dispozícii dostatočný výkon (je server pripojený k pravdepodobne chybnému zdroju UPS)? Ak ide o redundantný zdroj napájania, musia sa skontrolovať tieto dva zdroje napájania. Je potrebné poznamenať, že pri redundantných zdrojoch napájania môže byť chybná aj doska rozvodu energie.

V ideálnom prípade máte k dispozícii testovacie zariadenie na napájanie servera, pomocou ktorého môžete teraz skontrolovať hodnoty napätia. Až potom skontrolujete, či bola jednotka napájania správne pripojená k základnej doske servera. Poznámka: Pred vybratím alebo vložením redundantného zdroja napájania je nevyhnutné vytiahnuť napájací kábel !

Server je možné zapnúť, ale nespúšťa sa, alebo obraz monitora zostáva čierny/je viditeľná aspoň jedna LED

Len čo je základná doska servera napájaná, najskôr sa spustí radič riadenia základného pásma (BMC), ktorý je zvyčajne rozpoznateľný modrými LED diódami. Táto a jedna zelená LED indikujú, či je základná doska servera vždy napájaná napätím.

Ak je všetko do dnešného dňa v poriadku, existuje veľa možných príčin chýb - profesionálne diagnostické nástroje servera vám však pomôžu rozpoznať chybu. Každá serverová doska má najmenej štyri oranžové a štyri zelené kontrolky LED, pomocou ktorých je možné zistiť stav procesu zavádzania a celú škálu možných chýb. Nasledujúci obrázok ukazuje množstvo diagnostických LED diód Intel S2600WTT, pretože je napríklad zabudovaný do R2308WTTYS (platforma Intel Grantley pre procesory E5-2600v3).

problémov

Pomocou príručky k základnej doske môžete dešifrovať stavové a chybové kódy. Na základe skúseností odporúčame diagnostiku vykonať bez vložených ďalších kariet. Sme si vedomí konštelácií, v ktorých môže byť bootovanie blokované kartou PCI-E (napr. Radič RAID). Ak sa váš server po aktualizácii firmvéru už nespustí správne, najskôr vyberte všetky ďalšie karty a potom to skúste znova.

Príklad: prvý proces zavedenia po úspešnej aktualizácii firmvéru

Aktualizácia firmvéru servera je zložitá. Okrem skutočného systému BIOS sa často aktualizuje aj množstvo ďalších komponentov: BMC, FBU a SDR, ako aj ME. Proces je úplne dokončený až po zavedení systému po úspešnej aktualizácii. Za určitých okolností sa môže stať, že karta PCI-E tento proces zablokuje. V takom prípade odstráňte všetky karty PCI-E, vykonajte aktualizáciu znova a znova nainštalujte zodpovedajúce karty, až keď sa server už po aktualizácii úspešne naštartoval a aktualizačný proces je dokončený.

Okrem pohľadu na diagnostické LED diódy sa oplatí navštíviť aj BMC. Ak to bolo predtým nakonfigurované pre vzdialenú správu, môžete pomocou protokolu IPMI vizuálne skontrolovať celú sériu stavových správ alebo prejsť záznamom systémového denníka po položke. Podľa našich skúseností možno týmto spôsobom diagnostikovať všetky bežné zdroje chýb.

riešenie

Bežné chyby

Velke ulozisko

Skutočné hardvérové ​​nedostatky v základných komponentoch sa u našich vysoko spoľahlivých serverových komponentov vyskytujú veľmi zriedka. Pri zabezpečovaní optimálnej kompatibility sa tiež spoliehame na spoločnosť Intel (serverová doska, procesor, sieťová karta servera, radič RAID).

Zvyčajne sú to pevné disky, ktoré - v závislosti od zaťaženia - čoraz častejšie zlyhávajú od tretieho roku. Veľkokapacitné úložisko by preto malo byť - bez ohľadu na to, či cez RAID alebo na úrovni súborového systému - navrhované minimálne s redundanciou. Poruchu pevného disku možno ľahko rozpoznať pomocou Intel RAID Web Console 2, ale tiež pomocou LED na kryte servera.

Náhodný vstup do pamäťe

Od tretieho roku prevádzky - opäť v závislosti od zaťaženia - môže lišta RAM zlyhať. Preto sa všeobecne odporúča používať REG ECC RAM na bežné obdobie 3 až 5 rokov od konfigurácie 64 GB a viac, aby nedošlo k nadmernej veľkosti pamäte. Server sa dokáže vyrovnať so zlyhaním pruhu REG ECC RAM počas prevádzky; server musí byť vypnutý iba kvôli neskoršej výmene. Porucha je minimálne vizualizovaná prostredníctvom LOGU, v závislosti od základnej dosky servera aj pomocou LED diód.

Ďalšie chyby

Príklad: disky

Existuje tiež niekoľko zriedkavo sa vyskytujúcich chýb, ktoré sa nedajú tak ľahko diagnostikovať - ​​napríklad jednotka DVD, ktorá „bombardovala“ rozhranie SATA signálmi z dôvodu chybnej elektroniky aj bez vloženého DVD alebo CD.

„Chyby“ častej konfigurácie

Príklad: Systém RAID BIOS sa nezobrazuje

Prejdite do systému BIOS základnej dosky servera a v hlavnej ponuke deaktivujte funkciu „Quiet Boot“. V ponuke „(Advanced) Boot Options“ tiež nastavte režim bootovania na „Legacy“. Po uložení nastavení a reštartovaní sa systém RAID BIOS teraz znova zobrazuje počas bootovania. Nezabudnite nastaviť režim bootovania späť na UEFI v závislosti od konfigurácie vášho RAID a voľby operačného systému.

Príklad: Windows Server nie je možné nainštalovať

Prejdite do systému BIOS a skontrolujte, či je váš pevný disk alebo zväzok RAID správne zadaný v správcovi zavádzania. Ak sa nezobrazí žiadny zväzok RAID, nainštalujte si najnovšie ovládače pre radič RAID.

Ďalšie informácie/zdroje