Przyznam, że zajrzałem na Twittera pierwszy raz od ponad roku chyba właśnie z ciekawości "czy to tylko u mnie" ;-)
Leży już od dwóch godzin także właśnie uptime na poziomie 99,99% poszedł się paść
Tweet twittera: https://twitter.com/Twitter/status/1445078208190291973 co ciekawe whatsapp odpisał :P
trzeba przyzanć, że długo leżą...
dziwne, bo u nich działa. Podobno routingi popsuli :-)
@jarekr000000: mnie zainspirował tym routingiem więc z tego co znalazłem wychodzi na to że facebook sobie dropnął prefiksy odpowiedzialne za ich root dnsowe serwery przez co się odcięli i żeby cofnąć zmianę to muszą to robić ludzie fizycznie w DC, a to nie takie proste bo ludzie fizycznie w DC nie mają wjazdu na te urządzenia więc się zastanawiam czy facebook pobije rekord z marca 2019 roku kiedy padł na prawie 12 godzin (:
@WeiXiao: kwestia bezpieczeństwa gdyż "principle of least privilege". Ludzie fizycznie w DC zajmują się tylko montażem tych urządzeń i monitoringiem jeśli np. urządzenie poszło w dół by je fizycznie sprawdzić natomiast konfiguracja jest robiona przez teamy które tego DC na oczy nie widziały dostają tylko wjazd zdalny po konsoli od kolesia fizycznego w DC i tyle. Poza tym w takim stopniu jak to się wywaliło to przywrócenie tego do ładu będzie robione przez najtęższe głowy nie przez kogoś kto montuje fizycznie te urządzenia. Jak wejdziesz na oferty pracy takiego Amazona czy FB to masz taką pozycję jak "Data Centre Technician" i to są ludzie fizycznie w DC, którzy dostarczają fizyczne ręce dla zdalnych teamów.
tak brzmi teoria, a w praktyce pewnie większa fuszerka niż w software developmencie.
chociaż w DC facebooka pewnie ludzie nie pracują za grosze :P
@WeiXiao: haha w DC? Tam nie ma miejsca na fuszerkę szczególnie że jak DC chce mieć jakieś tam certyfikaty bezpieczeństwa (by np. przetwarzać transakcje bankowe) to takie rzeczy by nie przeszły bo mają co chwile robione audyty. Facebook na pewno też ma wysokie standardy bezpieczeństwa w DC, to nie jest biuro że damy kryśce dostęp do tego folderu bo co nam szkodzi.
To tak jeszcze w ramach ciekawostki, jako że FB robi na white boxach (takie urządzenia sieciowe pracujące na open-source lub ichniejszym systemie operacyjnym) mają własnego agenta BGP no i go często aktualizują :) Zanim go wypuszczą lecą automatyczne testy zrobione przez nich i jak wszystko pójdzie ok no to lecim na produkcje więc zapewne aktualizacja przeszła testy wypchnięto updejcik na produkcje i cóż, się zesrało :) Natomiast bardzo dziwi mnie że nie mają jakiegoś automatycznego rollbacka na taki wypadek (jak np. google), no ale jeżeli to rzeczywiście wina ich agenta BGP to raczej się w takowego wyposażą już wkrótce (: Jak ktoś chce poczytać to: https://web.archive.org/web/20210519182333/https://engineering.fb.com/2021/05/13/data-center-engineering/bgp/ (no oryginalna strona nie zadziała :P)
Dziękuje wszystkim za obecność o 23:29 routery w San Jose otrzymały brakujące prefiksy, 10 minut później Polski EPIX również otrzymał brakujace prefiksy i root DNS serwery są dostępne ponownie. Outage: 6h 20 min uptime spadł do 99,93% lipa xd
@pre55: Uptime systemu komputerowego poniżej 99,99 dla wielu to za mało, natomiast, jak dzwoni się do człowieka, to ilość udanych połączeń w stosunku do wszystkich prób (rozmowy, nieodebrane i zajęte razem) nieraz jest poniżej 50%, a jak jest co najmniej 80%, to można uznać, za bardzo dobrą dostępność. Nie pisze tu o systemach, od których zależy zdrowie i życie ludzi, bo to już całkiem inny temat.
@andrzejlisek: Korzystając z chmury 99.99 (outtime 52h minuty) jest nie do osiągnięcia, bo spora część usług z których będzie korzystać system jest poniżej tej wartości. W dodatku z nie ma SLA na działanie całości, więc możesz miec godzinę na bazę danych, godzinę na klaster, usługi katalogowe itd. W dodatku za takie SLA trzeba grubo zapłacić, bo jest ono do uzyskania jedynie przy wykorzystaniu georedundancji. Taki mBank kilka razy w roku wyłącza dostępność swojej platformy na kilkanaście godzin (to akurat jest żenada) planned maintenance. Co nie zmienia faktu, że ponabijać się z globalnej wtopy, firmy z grupy FAANG zawsze miło.
AWS tez mial niezla wpadke ostanio: https://www.theregister.com/2021/09/28/aws_east_brownout/ ale jakos bez echa przeszlo.
To jest dobra okazja nad zastanowieniem się nad tym gdzie używa się FB jako dostawcy tożsamości, mi awaria FB wisiała do momentu gdy nie mogłem zagrać w szachy na chess.com i trzeba było się na lichess przerzucić.
@KamilAdam: to nie lenistwo, tylko wygoda. Jedno hasło mniej do utrzymania. Poza tym wiadomo jakie dane dostawca tożsamości przekazuje. Oczywiście są wady, bo to single point of failure, ale sytuacje kiedy FB czy Google nie działają są rzadsze niż przerwy w dostawie prądu.
@Saalin: wygoda to często dobrze rozumiane lenistwo. Widzę że nieznane są ci trzy cnoty Perla http://threevirtues.com/
Też nie korzystam z logowania się inną stroną, ale w teorii to również poprawia poczucie bezpieczeństwa, bo zakładasz, że taki Fejs czy Google lepiej przechowują dane do logowania niż losowa strona, na którą się logujesz. A potem wycieka jakieś morele i się okazuje, że wyciekł tylko Twój losowy token, a nie hasło plain tekstem, bo ktoś pokpił sprawę. Ale zarówno ten problem jak i problem lenistwa rozwiązują managery haseł, a przy okazji nie dzielisz się z fejsem wiedzą, gdzie się logujesz.
@cerrato: Wygoda i bezpieczeństwo. Wygoda - wiadomo, nie trzeba wklepywać nowego konta. Bezpieczeństwo - nie wiem czy X przechowuje hasła bezpiecznie , dowodów nie mam też w przypadku Google, czy FB, ale jakoś im trochę bardziej ufam. W dodatku mogę sobie włączyć MFA, mam dość rozbudowany mechanizm odzyskiwania hasła, w każdej chwili jestem w stanie zablokować zewnętrzną usługę. Jedyny problem jaki z tym mam, to brak integracji z jakimiś otwartymi usługami.
w teorii to również poprawia poczucie bezpieczeństwa, bo zakładasz, że taki Fejs czy Google lepiej przechowują dane do logowania
- a potem ktoś znajdzie moją karteczkę z hasłem do Google przy monitorze albo podpatrzy jak wpisuję dupadupa12345
i mając moje hasło do FB może wleźć wszędzie.
Nie wiem jak FB - to trochę kwestia mojego podejścia, nie chcę, żeby usługa przeznaczona głównie do dzielenia się filmami pierdzących kotów panoszyła się po moim życiu. W przypadku Google muszę się logować po każdej zmianie hasła, logowanie z nowych urządzeń muszę potwierdzać w aplikacji na telefonie.
@cerrato: widzę, że jesteś bardzo podejrzliwy, ale akurat jeśli chodzi o bezpieczeństwo to Google wysyła powiadomienia o logowaniu: Logowanie na nowym urządzeniu
, podobnie FB wysyła powiadomienia o dziwnej aktywności + można kontrolować logi, bo są dostępne - skąd i kiedy było logowanie. Wg mnie to szukanie dziury w całym.
Zawsze bawi https://twitter.com/pothead_god/status/1445062100443930628