Diskuze
Obří výpadek služeb T-Mobile způsobily dvě chyby v diskovém poli
Děkujeme za pochopení.
R50o59b22e91r30t 51R19a72j55s
Vidím, že v IT u hradeckého T-Mobile pracují na vedoucích pozicích slušně řečeno nekompetentní lidé. Je jasný, že kdyby měli zajištěnou redundanci, vůbec by k tomu dojít ani nemohlo. Poškozený systém předá žezlo zrcadlenému a jede se dál. Ale něco vám řeknu. Tady to dopadlo ještě až příliš dobře. Až to tam vyhoří, to bude teprve sranda. Zálohy mají určitě někde hned ve vedlejší místnosti, jak bych to tipoval... No... Naštěstí služby T-Mobile jsou obecně pouze luxusním zbožím, které ve skutečnosti nikdo nepotřebuje a život na něm nezávisí. A navíc všechno zlý k něčemu dobrý. Díky této události mají zpravodajské servery o čem psát a podívejte, jak je to horké téma. Stačí mrknout na počet diskutujících. Inu jen tak dál.
L84u83k42a33s 56M18u11d83r18a
Pravděpodobně bych se jinak TM vysmál... kdybych nezažil něco podobného před lety na dvojicí Dell Equallogic Storage, kde po běžném update firmware se jedno pole dostalo do nedefinovaného stavu, a celá Storage Group se stala nefunkční a nedostupná. Musím ovšem říct, že přístup Dell Support byl ukázkový, a tak nakonec kompletní odstávka trvala něco málo přes 6 hodin. A jako problém se ukázala víceméně skrytá HW závada na řadičích jednoho pole, která se projevila z nějakého nepříliš jasného důvodu po daném upgrade FW.
Požadavky na stále větší a větší robustnost a ještě větší a větší počet replik/nodů/zrcadel je nesmysl - jakou škodu myslíte, že TMCZ nakonec tímto incidentem utrpěl? Opravdu byla natolik vysoká, aby ospravedlnila "preventivní" investici v řádu desítek milionů korun do ještě sofistikovanějšího a komplikovanějšího HW/SW? Osobně bych vůbec neměl problém sestavit storage klidně z desítek low-end serverů (HP, Dell, F-S,...) nacpaných těmi nejlevnějšími disky, a výkon/redundanci/robustnost/odolnost proti HW chybě bych řešil až na nějaké SW vrstvě nad tím vším - i kdyby to měl být "jen" RedHat Gluster. Velké hardwarové krabice s proprietárním FW a s různými "magickými" vlastnostmi budou problematické vždycky.
J97a30n 30P39r82i12b46y35l
Jojo. Ten bastl by byl určitě spolehlivější :D
J87a83n 42P85r56i46b66y23l
Zajímavé.
Asi ty systémy co tam měli disky nepovažovali za důležité a točili to na nějaké staré storage bez repliky.
Jak vypadnou dva disky naráz?
- jeden disk byl v háji už dřív, nefunkční monitoring, notifikace atd. nikdo o tom nevěděl > umře druhý = problém
- problém fw disku - občas se to stává - SW chyba v fw způsobí, že se disk například po přesně daném počtu provozních hodin pokazí. Stalo se to Seagatu, stalo se to nedávno HPE atd. Disky uvedené do provozu v jedné storage se pak vysypou naráz. Mohli zanedbat aktualizace, nebo měli tu čest být první.
- pokazí se jeden disk, ale další je načatý - vadné bloky atd., ale nevíte o tom, protože se nedělal scrubbing. Příjde se na to až při rebuildu pole.
- ?
Asi k tomu radši neměli říkat detaily :)
R61o55b73e50r75t 41R30a19j27s
Tyhle případy, co uvádíte, to se všechno samozřejmě může stát. Proto mají mít geograficky oddělenou replikaci, na kterou se vše v reálném čase synchronizuje a v případě kritického problému záložní server převezme kormidlo..
R56a23d26o71v15a89n 43S80ý42k87o81r30a
Normální technická závada. Proč z toho děláte vědu? Mobilní síť fungovala a že nefungovaly 2 dny support linky, to zase není takový problém. Nebo snad ano?
P39e89t83r 26F30u88k22a
Někteří čtenáři z toho dělali vědu, redakce jen reaguje. Pod jedním článkem tu byla i tvrzení, že jde určitě o hackerský útok...
L98e37o94p66o43l56d 54H19o66r50á66k
Tož já to šacoval na elektronku z Katoda Holomóc :)
V10i20k22t36o88r 29Š63p82i93č97k14a
No já bych řekl , že normální je mluvit o třech geograficky vzdálených farmách , kde jsou k dispozici kromě zrcadlení i zálohy kritických databází , navíc v systému , který sám detekuje výpadek jakékoli části a zahájí sám obnovu .
A to jsme byli jen malou samostatnou částí velkého korporáta .
K23a57r83e91l 41N26o83v66á59k
Jestli tohle řekne Technology and IT Director ve společnosti T-Mobile. Proč toho dle člověka tam maj? https://www.svetchytre.cz/a/ieYu3/branimir-maric-svoboda-internetu-je-romanticka-predstava-z-minulosti / Začneme u horkého tématu poslední doby – u přechodu z připojení 4G na 5G. Jaké jsou hlavní výhody 5G v porovnání s LTE a dalšími současnými standardy?
Přechod z 4G, respektive LTE, na 5G podle mě nebude tak znatelný jako přechod z 3G na 4G. 4G přineslo mnohem rychlejší datové přenosy a nižší latencí. U 5G takové změny pozorovat nebudeme. Výrazně se rozšíří možnosti a kvalita bezdrátového připojení, ale uživatel prakticky nepozná, který standard zrovna využívá.“
P20a41v95e27l 29P27a58k38a
Nevím zda je vůbec rozumné, aby TM dával takové vyjádření do tisku. Tím si moc reputaci nevylepší, když to spíše ukazuje na použití neadekvátně (ne)robustního řešení.
Je jasné, že pro volbu technologické řešení určité služby je třeba dát na váhy jeho robustnost, složitost a pořizovací / provozní náklady na jedné straně a na druhé straně důležitost cílové aplikace, akceptovatelné rizko výpadku, možné délky výpadků služby, riziko ztráty dat a z toho vyplívající rizika ztrát finančních, poškození reputace apod.
T-mobile nyni mluví o dopadu poruchy jen na „podpůrné systémy“. Pravda „core“ služby fungovali, nicméně výpadek koncový zákazník docela pocítil, proto mi přijde, že to TM docela bagatelizuje...
Docela mne zaráží, že TM nepoužil zrcadlení celého diskového pole (ať uz synchronní, či asynchronní, s lokální redundancí čí geo redundancí atd.). Mám zkušenosti s dodávkami určitých telekomunikačních řešení velkým zahraničním telco operátorům a nepamatuji si, že by si troufli u „nepodružných aplikací“ akceptovat nasazení diskového systému bez jednoho z typů mirroringu celého diskového pole. Pamatuji i nezdařený upgrade fw. na primárním diskovém poli v jednom z klíčových systémů jednoho telco operátora, kdy existence synchronně zrcadleného pole zabránila ještě většímu průšvihu (čekat na obnovu z pásek by byl „mega“ průšvih).
J16a12n 11P63e62t47r94z24e93l23a
standardni storage systemy maji 2 paritni disky, ted s pribyvajici velikosti se uz delaj tri paritni v jedny raidgroupe kvuli tomu, ze prepocitani uz trva klidne pres den, ze vypadnou najednou dva disky v jedny raidgroupe je obrovska nahoda a storage systemy jsou tak nastavene, ze se to cele pole vypne, kdyby padl treti disk, tak by to byl prusvih
J46a81n 50P24e38t35r98z89e56l67a
na druhou stranu by meli mit nejake spare disky, takze buhvi, co tam ma za storage, tipnu si huawei:-)
O24d93s17t70r69a34n34ě58n73ý 89U30ž36i13v81a34t23e81l
Herečce Slávce Budínové by bylo 100 let. Zemřela opuštěná, bez zájmu veřejnosti
Před 100 lety, 21. dubna 1924, se v Ostravě narodila známá česká herečka Slávka Budínová.
Znovuzrození japonských letadlových lodí. Ve výzbroji budou mít F-35B
Japonsko má ve své ústavě zakázáno vlastnit ofenzivní zbraně, jako jsou letadlové lodě. Doba...
{NADPIS reklamního článku dlouhý přes dva řádky}
{POPISEK reklamního článku, také dlouhý přes dva a možná dokonce až tři řádky, končící na tři tečky...}
Uvidíme v budoucnu na obloze druhý Měsíc? Příčinou může být neobvyklá hvězda
Velmi neobvyklá hvězda éta Carinae v 19. století náhle zjasnila a stala se druhou nejjasnější...
Unikátní exkurze. Nahlédněte do francouzské jaderné ponorky před vyplutím
Není obvyklé, aby reportéři mohli nahlédnout do jaderné ponorky v aktivní službě. Agentura AP nyní...
{NADPIS reklamního článku dlouhý přes dva řádky}
{POPISEK reklamního článku, také dlouhý přes dva a možná dokonce až tři řádky, končící na tři tečky...}
Byla to druhá nejjasnější hvězda. V budoucnu může svítit jako druhý Měsíc
Velmi neobvyklá hvězda éta Carinae v devatenáctém století náhle zjasnila a stala se druhou...
Zázrak! NASA po pěti měsících obdržela od sondy Voyager smysluplnou zprávu
Když se v únoru letošního roku stále nedařilo navázat smysluplnou komunikaci s jedním z...
Týrají nabíječky a elektroauta, aby pak netrpěl řidič
Prozkoumali jsme speciální laboratoř, kde E.ON v extrémních podmínkách testuje nabíjecí stanice pro...
Proč umělá inteligence lže a proč kvůli ní zhloupneme. Počítačový expert vypráví
Premium Zatímco průmyslová revoluce zaváděla masivní využití strojů, které nahradily lidské svaly, nyní...
Jediný vrtulník, který létal na jiné planetě, se loučí poslední zprávou
Tři roky poté, co se vůbec poprvé na jiné planetě sluneční soustavy roztočily rotory létajícího...
Akční letáky
Prohlédněte si akční letáky všech obchodů hezky na jednom místě!