Witam,
mam pytanie dotyczące algorytmu PAM i danych kategorycznych. Posiadam zbiór, który posiada takie dane. Moje pytania są następujące:
Czy stosując algorytm PAM danych kategorycznych potrzebne jest wykonanie preprocesingu (np. zamiana danych na numeryczne) ?
Czy jako miary odległości można zastosować te miary: {‘euclidean’: 0, ‘squared euclidean’:1,‘manhattan’: 2,
‘chebyshev’: 3, ‘minkowski’: 4, ‘chi-square’:5,‘canberra’: 6,}?
Jakie są odpowiednie miary dla tego algorytmu?

- Rejestracja:ponad 4 lata
- Ostatnio:ponad rok
- Postów:23
- Rejestracja:ponad 2 lata
- Ostatnio:około 2 lata
- Postów:103
P Pepe napisał(a):
Czy stosując algorytm PAM danych kategorycznych potrzebne jest wykonanie preprocesingu (np. zamiana danych na numeryczne) ?
Czy jako miary odległości można zastosować te miary: {‘euclidean’: 0, ‘squared euclidean’:1,‘manhattan’: 2,
‘chebyshev’: 3, ‘minkowski’: 4, ‘chi-square’:5,‘canberra’: 6,}?
Jakie są odpowiednie miary dla tego algorytmu?
Kategorie muszą mieć jakieś cechy, czy to np. wielkość jakąś jak to zwierzę to mógłbyś mieć masę zwierzęcia i kilka takich cech mając próbujesz przewidzieć do jakiego clustra pasuje.
I najbliższy cluster po wykonaniu miary jest kategorią, którą się przewidziało dla danych.
A dystans możesz różny stosować i sprawdzać z danymi testowymi jak sobie radzi, rysując wykresy, jeden algorytm może w przypadku niektórych danych być lepszym od drugiego.
- Rejestracja:prawie 10 lat
- Ostatnio:około 2 godziny
- Postów:2367
Z opisu https://pl.wikipedia.org/wiki/Algorytm_PAM wynika, że algorytm operuje na metryce Manhattan. A jak dla danych kategorycznych definiujesz odległość? np. Kolor={zielony, żółty, czerwony, niebieski} , Obiekt={samochód, samolot}. Jak bardzo żółty samochód różni się od niebieskiego samolotu?
Po mojemu, to trzeba by te dane zamienić na coś co pozwoli obliczyć odległość w metryce Manhattan, albo użyć innej metryki.
Słowa kluczowe:
- neural autoencoder
- Gower's distance

- Rejestracja:ponad 19 lat
- Ostatnio:2 miesiące
yarel napisał(a):
A jak dla danych kategorycznych definiujesz odległość? np. Kolor={zielony, żółty, czerwony, niebieski} , Obiekt={samochód, samolot}. Jak bardzo żółty samochód różni się od niebieskiego samolotu?
Wg algorytmu PAM: żółty od niebieskiego różni się o 2
, samochód od samolot różni się o 1
razem wychodzi 2+1=3
.
Zawsze dla kategorii można dołożyć wagę: np [5,3]
, wtedy 2*5+3*1=13
Ale skoro ustaliliśmy wagi to już nie musimy się ograniczać do metryki Manhattańskiej, możemy ustalać odległość wg każdej z kategorii, np:
ObiektDistance(a,b) -> abs(a-b);
ColorDistance(a,b) -> (a!=b?1:0);
A na tym użyć dowolną metrykę.
CloudPro