incompatibility według Levenshteina...

Rejestracja:prawie 13 lat
Ostatnio:ponad 10 lat
Postów:271

Pisze prostą wyszukiwarkę plików / zasobów na dysku. Znalazłem podobny temat procentowa zgodność tekstów

polecono tam wykorzystać Algorytm Levenshteina - wyszukałem, zapoznałem się, zaimplementowałem do swoich potrzeb, jednak wyniki jakie uzyskuje nie do końca mnie satysfakcjonują, podam przykład ::

pełna nazwa szukanego pliku na dysku ::

Kopiuj

std::string source_base( "zaawansowane c++ wraz z bibliotekami boost" );

tekst podany w wyszukiwarce

Kopiuj

std::string source_search( "c++ i boost" );

na wyjściu uzyskuje :: compatibility :: 27 %
problem w tym że każdy znak w tekście ma taką samą wagę i pomimo podania 2 słów można je nazwać kluczowymi ( c++, boost ) plik nie zostałby wyszukany z powodu zbyt małej zgodności dla której min ustawiłem na 75 %. Nie chciałbym zmniejszać dopuszczalnego min zgodności więc co mogę zrobić aby dodać mojej wyszukiwarce trochę "inteligencji" ;) ?
Wypróbowałem już opcje z podzieleniem szukanej frazy na części, wrzuceniem tego do std::vector i sprawdzaniu czy podane słowa / znaki występują w oryginale za pomocą std::string::find ale to też się nie sprawdziło...
mogę prosić o podrzucenie jakiegoś pomysłu, wskazówek?

edytowany 2x, ostatnio: emacs 2013-07-20 14:45

Shalom

2013-07-20 20:41

~~Shalom~~2013-07-20 20:41

Rejestracja:ponad 21 lat
Ostatnio:około 3 lata
Lokalizacja:Space: the final frontier
Postów:26433

Dzielenie na słowa + cosine similarity? :)
Albo miara Jaccarda, albo nawet lepiej: zmodyfikowana wersja miary jaccarda gdzie zamiast sumy zbiorów w mianowniku masz rozmiar jednego ze zbiorów (liczysz to dla obu zbiorów a potem bierzesz to dla którego masz większy wynik).

http://en.wikipedia.org/wiki/Cosine_similarity
http://en.wikipedia.org/wiki/Jaccard_index
http://en.wikipedia.org/wiki/Bag-of-words_model

edytowany 3x, ostatnio: ~~Shalom~~ 2013-07-24 21:41

emacs 2013-07-23 14:42

nie wiem czy dobrze rozumiem cosine similarity - należy podzielić przecięcie zbiorów przez ich sumę?

~~Shalom~~ 2013-07-23 16:26

To jest akurat zmodyfikowana miara Jaccarda ;] Cosine similarity to jest zwykłe policzene cosinusa kąta pomiędzy dwoma wektorami z definicji iloczynu skalarnego. Iloczyn skalarny dwóch wektorów podzielony przez iloczyn długości tych wektorów.

emacs 2013-07-24 21:05

Jeżeli w std::vector są liczby to nie ma problemu z cosine similarity ale jak wykonać te obliczenia na tekście? ASCII?

~~Shalom~~ 2013-07-24 21:41

No nie żartujmy sobie... Budujesz po prostu przestrzeń wektorową gdzie każdy wymiar jest określony przez jedno słowo w tekście. Skorzystaj z modelu BOW (link wrzucę do postu).

emacs 2013-07-25 08:18

Dziękuje ;)

Liczba odpowiedzi na stronę

Zarejestruj się i dołącz do największej społeczności programistów w Polsce.

Otrzymaj wsparcie, dziel się wiedzą i rozwijaj swoje umiejętności z najlepszymi.

Utwórz konto

incompatibility według Levenshteina...

emacs

Shalom

Product Engineering Team Lead

React Frontend Developer

PHP + Codeigniter 4 programista, aplikacja do fakturowania

Praca dla programistów

Forum dyskusyjne

Sprawy administracyjne

O nas

Skontaktuj się z nami