Witam, aktualnie jestem w trakcie nauki biblioteki pandas. Moim zadaniem jest pobranie tabeli ze strony internetowej, przekształcenie jej i przesłanie do bazy danych - w tym przypadku do ms-access. Dane pobieram do DataFrame.
Mój problem polega na tym, że wybrana tabela w jednej z kolumn (dotyczącej cen) posiada wartość '-'. Poszukując informacji jak sobie z tym poradzić znalazłem 3 główne możliwości:
- zamiana za pomocą 'replace' znaku '-' na 0. Jednak to rozwiązanie nie spełnia moich oczekiwań gdyż wartość '-' oznacza brak danej a nie jej wartość równą 0
- zamiana '-' na pusty string - to rozwiązanie nie przejdzie, ponieważ po zmianach kolumna posiada typ danych - float
- zamiana '-' na NaN za pomocą - .replace('-',np.nan) - Ta możliwość jest najbliżej rozwiązania mojego problemu, jednak po załadowaniu danych do accessa za pomocą biblioteki pyodbc zamienione rekordy posiadają wartość '1,#QNAN'. Obstawiam, że taki format przyjmuje Access dla typu NaN, jednak problem pojawia się gdy chciałbym wyciągnąć średnią z kolumny za pomocą SQL :
sql SELECT AVG(nazwaKolumny) FROM nazwaTabeli
zwraca komunikat 'Przepełnienie'.
Czy ktoś ma może pomysł co zrobić z wartościami '-'? Czy jest jakiś sposób by pole numeryczne po załadowaniu było po prostu puste?
Wydaje mi się, że bardziej to problem bazodanowy, dlatego temat umieściłem w tym dziale.