#pandas #python #dane Fun fakt jak detale potrafią zabrać mnóstwo czasu a zarazem po...

ledi12

2024-02-20 20:50
8306 wyświetleń

Fun fakt jak detale potrafią zabrać mnóstwo czasu a zarazem popchnąć w over-engineering.

Stakeholderzy zaczeli zgłaszać, że call do naszego api, z konkretną listą parametrów, zwraca wyniki za późno. Max czas do zaakceptowania to 20 sec, gdyż po tym właśnie czasie ichniejszy system rzuca timeoutem. Zwrotka zajmowała natomiast 30 sekund.

Api to taki ogromny agregat wypluwający dane telemetryczne, bazujący w głównej mierze na pandasie. Po debugu okazało się, że winowajcą jest jedna linia, która tworzy pivota na dużym zbiorze danych.

I tutaj zaczęły się cyrki. Ludzie chcieli już ograniczać dane, bo: "TO WINA DANYCH" albo przepisywać ten moment przy użyciu multiprocesingu (Chunkowanie df na mniejsze i pivotowanie tego paraell a na końcu iteracyjne mergowanie wszystkiego w całość). No niby można, ale po co?

Z tyłu głowy miałem, że pandas (tak jak spark z resztą) z automatu narzuca typ float64 w przypadku wartości numerycznych. Precyzja w przypadku tych danych jest mała, więc float32 zrobił by robotę i podniósł ogólną wydajność. Szybki test i jak się okazało miałem racje. Czas spadł z 30 sekund do 8 :)

Mały detal a zaoszczędził reszcie x dni krwawicy i cudowania jak koń pod górkę :P Niekiedy diabeł po prostu tkwi w szczegółach.

18 głosów Obserwuj Komentuj Udostępnij

Pinek

Nice, widać żeś profesjonalista.

2024-02-21 07:39
0 głosów
Odpowiedz

yarel

Profiling prawdę powie. Czasem analizowanie jakiegoś większego zbioru w pandas, to udręka. Szybciej wrzucić DFa do DuckDB, czy sqlite'a i tam zrobić cięższe operacje, niż umierać wydajnościowo na konwersjach typów.

2024-02-21 09:33
2 głosy
Odpowiedz

ledi12

@yarel: Mam podobne zdanie. Póki to nie cluster sparkowy to powinno to odbywać się bezpośrednio na bazie bo po to te silniki służą. No ale ktoś kiedyś sobie wymyślił tam pandasa i tak to się ciągnie ;P

2024-02-21 10:12
0 głosów
Odpowiedz

PaxMaker

A float64 nie będzie na pewno nigdy potrzebne?

2024-02-21 10:46
0 głosów
Odpowiedz

ledi12

W przypadku obecnych danych nic na to nie wskazuje. Ale wiadomo, wszystko może się zmienić.

2024-02-21 10:51
0 głosów
Odpowiedz

Autysta

Przy projektowaniu sieci neuronowych często się używa nawet 16 bitowej precyzji, bo i tak jest wystarczająca, a tak na CPU więcej takich zmieścimy w pojedynczym cache line i SIMD, a na GPU wychodzi gdzieś 2x lepszy performance.

2024-02-21 11:15
0 głosów
Odpowiedz

sobien88

Co z tym aptiv się stało? Pracuje tam ktoś ?

2024-02-21 19:04
0 głosów
Odpowiedz

johnny_Be_good

@sobien88: zwolnili paru frontasiów i tyle

2024-02-21 20:56
0 głosów
Odpowiedz

LitwinWileński

a jakbyście to napisali w poważnym języku np. na jvm to mielibyście 1 sekundę. Nie rozumiem jak tak powolny język (python) zdobył taką popularność.

2024-02-22 07:53
0 głosów
Odpowiedz

ledi12

Chyba żartujesz z tą poważnością :D

2024-02-22 08:11
1 głos
Odpowiedz

PaxMaker

@LitwinWileński: Ponieważ jest prosty w nauce i wystarczająco dobry dla większości zastosowań firmowych, nie wymagając przy tym zaawansowanej wydajności.

2024-02-22 08:15
0 głosów
Odpowiedz

Pyxis

@LitwinWileński: prosto na to odpowiedzieć pytaniem retorycznym.Czemu w jakimś wolnym jvm, skoro można w języku asemblera?

2024-02-22 10:12
0 głosów
Odpowiedz

Riddle

@LitwinWileński: Zgadzam się z ledi, większość bottlenecków nie zależy od technologii tylko od designu jednak. Powiedziałbym że 99%.

2024-02-22 10:23
1 głos
Odpowiedz

LitwinWileński

@Pyxis: no tylko że pajton jest tak samo wysokopoziomowych językiem jak Java tylko trudniejszym i wolniejszym

2024-02-22 11:14
0 głosów
Odpowiedz

ledi12

Python trudniejszy niż java? Trollujesz, prawda?

2024-02-22 12:23
1 głos
Odpowiedz

Adin

Pandas to zło.

2024-02-22 17:03
0 głosów
Odpowiedz

ToTomki

DZIĘKI ZA RADĘ, wykorzystam (radę, nie Ciebie)

2024-02-22 19:40
0 głosów
Odpowiedz

ToTomki

@ledi12: to chyba Ty żartujesz. Napisanie czegoś dobrego w Pythonie jest bardzo trudne. Języki statycznie typowane bronią Cię przed własną głupotą piszącego, przed niespodziewanymi failami na produkcji itd. Jeśli coś dużego jest napisane w Pythonie, i się nie wypierdala, i handluje wszystkie egzotyczne przypadki - to jest to bardzo trudne. Tak trudne, że jeszcze tego nie widziałem xD

2024-02-22 19:42
0 głosów
Odpowiedz

PaxMaker

Duże rzeczy w pythonie raczej mają jakąś nakładkę z typowaniem jak js z ts xD

2024-02-22 19:49
0 głosów
Odpowiedz

hauleth

@Autysta: Tylko nie używa się IEEE 754 binary16 (gdzie mamy 5 bitów wykładnika i 10 bitów mantysy), tylko najczęściej używa się czegoś co Google nazywa "brain float" i to jest "ucięty" IEEE 754 binary32 (8 bitów wykładnika i 7-15 bitów mantysy, w zależności od implementacji).

2024-02-23 09:16
0 głosów
Odpowiedz

hauleth

@ToTomki: Instagram na ten przykład? Praca z dynamicznym typowaniem nie jest specjalnie trudna, zwłaszcza, że większość języków (w tym Python) ma obecnie również narzędzia do analizy statycznej, najczęściej z gradual typing czy coś w ten deseń.

2024-02-23 09:18
1 głos
Odpowiedz

ledi12

@ToTomki: Nie jest trudne. Wystarczy pisać sensowny kod i używać typowania, które obecnie w pythonie jest na prawdę bogate. Jego dynamiczna natura w tym nie przeszkadza.