Premium

Získejte všechny články
jen za 89 Kč/měsíc

Diskuze

Obří výpadek služeb T-Mobile způsobily dvě chyby v diskovém poli

Přesně před týdnem se T-Mobile potýkal s velkým výpadkem služeb. Nefungovala samoobsluha, aplikace, web, infolinka, autorizační SMS. Mnoho čtenářů se nás v diskuzích i pod jinými články ptalo na důvod a technické podrobnosti. Zde jsou.
Litujeme, ale tato diskuse byla uzavřena a již do ní nelze vkládat nové příspěvky.
Děkujeme za pochopení.
Foto

Vidím, že v IT u hradeckého T-Mobile pracují na vedoucích pozicích slušně řečeno nekompetentní lidé. Je jasný, že kdyby měli zajištěnou redundanci, vůbec by k tomu dojít ani nemohlo. Poškozený systém předá žezlo zrcadlenému a jede se dál. Ale něco vám řeknu. Tady to dopadlo ještě až příliš dobře. Až to tam vyhoří, to bude teprve sranda. Zálohy mají určitě někde hned ve vedlejší místnosti, jak bych to tipoval... No... Naštěstí služby T-Mobile jsou obecně pouze luxusním zbožím, které ve skutečnosti nikdo nepotřebuje a život na něm nezávisí. A navíc všechno zlý k něčemu dobrý. Díky této události mají zpravodajské servery o čem psát a podívejte, jak je to horké téma. Stačí mrknout na počet diskutujících. Inu jen tak dál.

0 0
možnosti

Pravděpodobně bych se jinak TM vysmál... kdybych nezažil něco podobného před lety na dvojicí Dell Equallogic Storage, kde po běžném update firmware se jedno pole dostalo do nedefinovaného stavu, a celá Storage Group se stala nefunkční a nedostupná. Musím ovšem říct, že přístup Dell Support byl ukázkový, a tak nakonec kompletní odstávka trvala něco málo přes 6 hodin. A jako problém se ukázala víceméně skrytá HW závada na řadičích jednoho pole, která se projevila z nějakého nepříliš jasného důvodu po daném upgrade FW.

Požadavky na stále větší a větší robustnost a ještě větší a větší počet replik/nodů/zrcadel je nesmysl - jakou škodu myslíte, že TMCZ nakonec tímto incidentem utrpěl? Opravdu byla natolik vysoká, aby ospravedlnila "preventivní" investici v řádu desítek milionů korun do ještě sofistikovanějšího a komplikovanějšího HW/SW? Osobně bych vůbec neměl problém sestavit storage klidně z desítek low-end serverů (HP, Dell, F-S,...) nacpaných těmi nejlevnějšími disky, a výkon/redundanci/robustnost/odolnost proti HW chybě bych řešil až na nějaké SW vrstvě nad tím vším - i kdyby to měl být "jen" RedHat Gluster. Velké hardwarové krabice s proprietárním FW a s různými "magickými" vlastnostmi budou problematické vždycky.

2 0
možnosti

J97a30n 30P39r82i12b46y35l

8. 7. 2020 21:36

Jojo. Ten bastl by byl určitě spolehlivější :D

0 0
možnosti

J87a83n 42P85r56i46b66y23l

8. 7. 2020 17:41

Zajímavé.

Asi ty systémy co tam měli disky nepovažovali za důležité a točili to na nějaké staré storage bez repliky.

Jak vypadnou dva disky naráz?

- jeden disk byl v háji už dřív, nefunkční monitoring, notifikace atd. nikdo o tom nevěděl > umře druhý = problém

- problém fw disku - občas se to stává - SW chyba v fw způsobí, že se disk například po přesně daném počtu provozních hodin pokazí. Stalo se to Seagatu, stalo se to nedávno HPE atd. Disky uvedené do provozu v jedné storage se pak vysypou naráz. Mohli zanedbat aktualizace, nebo měli tu čest být první.

- pokazí se jeden disk, ale další je načatý - vadné bloky atd., ale nevíte o tom, protože se nedělal scrubbing. Příjde se na to až při rebuildu pole.

- ?

Asi k tomu radši neměli říkat detaily :)

2 0
možnosti
Foto

Tyhle případy, co uvádíte, to se všechno samozřejmě může stát. Proto mají mít geograficky oddělenou replikaci, na kterou se vše v reálném čase synchronizuje a v případě kritického problému záložní server převezme kormidlo..

1 0
možnosti

Normální technická závada. Proč z toho děláte vědu? Mobilní síť fungovala a že nefungovaly 2 dny support linky, to zase není takový problém. Nebo snad ano?

0 2
možnosti

P39e89t83r 26F30u88k22a

8. 7. 2020 9:06

Někteří čtenáři z toho dělali vědu, redakce jen reaguje. Pod jedním článkem tu byla i tvrzení, že jde určitě o hackerský útok...

0 0
možnosti

Tož já to šacoval na elektronku z Katoda Holomóc :)

3 0
možnosti

No já bych řekl , že normální je mluvit o třech geograficky vzdálených farmách , kde jsou k dispozici kromě zrcadlení i zálohy kritických databází , navíc v systému , který sám detekuje výpadek jakékoli části a zahájí sám obnovu .

A to jsme byli jen malou samostatnou částí velkého korporáta .

4 0
možnosti

Jestli tohle řekne Technology and IT Director ve společnosti T-Mobile. Proč toho dle člověka tam maj? https://www.svetchytre.cz/a/ieYu3/branimir-maric-svoboda-internetu-je-romanticka-predstava-z-minulosti / Začneme u horkého tématu poslední doby – u přechodu z připojení 4G na 5G. Jaké jsou hlavní výhody 5G v porovnání s LTE a dalšími současnými standardy?

Přechod z 4G, respektive LTE, na 5G podle mě nebude tak znatelný jako přechod z 3G na 4G. 4G přineslo mnohem rychlejší datové přenosy a nižší latencí. U 5G takové změny pozorovat nebudeme. Výrazně se rozšíří možnosti a kvalita bezdrátového připojení, ale uživatel prakticky nepozná, který standard zrovna využívá.“

4 0
možnosti

P20a41v95e27l 29P27a58k38a

7. 7. 2020 17:44

Nevím zda je vůbec rozumné, aby TM dával takové vyjádření do tisku. Tím si moc reputaci nevylepší, když to spíše ukazuje na použití neadekvátně (ne)robustního řešení.

Je jasné, že pro volbu technologické řešení určité služby je třeba dát na váhy jeho robustnost, složitost a pořizovací / provozní náklady na jedné straně a na druhé straně důležitost cílové aplikace, akceptovatelné rizko výpadku, možné délky výpadků služby, riziko ztráty dat a z toho vyplívající rizika ztrát finančních, poškození reputace apod.

T-mobile nyni mluví o dopadu poruchy jen na „podpůrné systémy“. Pravda „core“ služby fungovali, nicméně výpadek koncový zákazník docela pocítil, proto mi přijde, že to TM docela bagatelizuje...

Docela mne zaráží, že TM nepoužil zrcadlení celého diskového pole (ať uz synchronní, či asynchronní, s lokální redundancí čí geo redundancí atd.). Mám zkušenosti s dodávkami určitých telekomunikačních řešení velkým zahraničním telco operátorům a nepamatuji si, že by si troufli u „nepodružných aplikací“ akceptovat nasazení diskového systému bez jednoho z typů mirroringu celého diskového pole. Pamatuji i nezdařený upgrade fw. na primárním diskovém poli v jednom z klíčových systémů jednoho telco operátora, kdy existence synchronně zrcadleného pole zabránila ještě většímu průšvihu (čekat na obnovu z pásek by byl „mega“ průšvih).

11 0
možnosti

P57a44v34e24l 91P30a80k19a

7. 7. 2020 17:48

"služby fungovalY..." - fakt se stydím:-(

0 0
možnosti

standardni storage systemy maji 2 paritni disky, ted s pribyvajici velikosti se uz delaj tri paritni v jedny raidgroupe kvuli tomu, ze prepocitani uz trva klidne pres den, ze vypadnou najednou dva disky v jedny raidgroupe je obrovska nahoda a storage systemy jsou tak nastavene, ze se to cele pole vypne, kdyby padl treti disk, tak by to byl prusvih

1 0
možnosti

na druhou stranu by meli mit nejake spare disky, takze buhvi, co tam ma za storage, tipnu si huawei:-)

2 0
možnosti
  • Nejčtenější

Herečce Slávce Budínové by bylo 100 let. Zemřela opuštěná, bez zájmu veřejnosti

v diskusi je 27 příspěvků

21. dubna 2024

Před 100 lety, 21. dubna 1924, se v Ostravě narodila známá česká herečka Slávka Budínová.

Znovuzrození japonských letadlových lodí. Ve výzbroji budou mít F-35B

v diskusi je 51 příspěvků

19. dubna 2024

Japonsko má ve své ústavě zakázáno vlastnit ofenzivní zbraně, jako jsou letadlové lodě. Doba...

{NADPIS reklamního článku dlouhý přes dva řádky}

{POPISEK reklamního článku, také dlouhý přes dva a možná dokonce až tři řádky, končící na tři tečky...}

Uvidíme v budoucnu na obloze druhý Měsíc? Příčinou může být neobvyklá hvězda

v diskusi je 13 příspěvků

17. dubna 2024

Velmi neobvyklá hvězda éta Carinae v 19. století náhle zjasnila a stala se druhou nejjasnější...

Unikátní exkurze. Nahlédněte do francouzské jaderné ponorky před vyplutím

v diskusi je 16 příspěvků

20. dubna 2024

Není obvyklé, aby reportéři mohli nahlédnout do jaderné ponorky v aktivní službě. Agentura AP nyní...

{NADPIS reklamního článku dlouhý přes dva řádky}

{POPISEK reklamního článku, také dlouhý přes dva a možná dokonce až tři řádky, končící na tři tečky...}

Byla to druhá nejjasnější hvězda. V budoucnu může svítit jako druhý Měsíc

v diskusi je 17 příspěvků

21. dubna 2024

Velmi neobvyklá hvězda éta Carinae v devatenáctém století náhle zjasnila a stala se druhou...

Zázrak! NASA po pěti měsících obdržela od sondy Voyager smysluplnou zprávu

v diskusi je 40 příspěvků

23. dubna 2024  13:37

Když se v únoru letošního roku stále nedařilo navázat smysluplnou komunikaci s jedním z...

Týrají nabíječky a elektroauta, aby pak netrpěl řidič

v diskusi je 22 příspěvků

23. dubna 2024

Prozkoumali jsme speciální laboratoř, kde E.ON v extrémních podmínkách testuje nabíjecí stanice pro...

Proč umělá inteligence lže a proč kvůli ní zhloupneme. Počítačový expert vypráví

v diskusi je 16 příspěvků

22. dubna 2024

Premium Zatímco průmyslová revoluce zaváděla masivní využití strojů, které nahradily lidské svaly, nyní...

Jediný vrtulník, který létal na jiné planetě, se loučí poslední zprávou

v diskusi je 8 příspěvků

22. dubna 2024  17:31

Tři roky poté, co se vůbec poprvé na jiné planetě sluneční soustavy roztočily rotory létajícího...

Akční letáky
Akční letáky

Prohlédněte si akční letáky všech obchodů hezky na jednom místě!