Cześć,
Mam taki problem do ogarnięcia i szukam algorytmu, którym to można najprościej ugryźć. Mam bazę, w której powtarzają się pewne dane ze słownika w wierszach. Nazwijmy to patternem. Człowiek tylko spojrzy na dane i widzi od razu 3 patterny (A/B, X oraz Y1/Y2/Y3). Ostatecznie chcę wyciągnąć godzinę startu i końca każdego z patternu.
Problemem jest to, że nie są znane składniki danego słownika/patternu. Godzinowo wyciąłem rożne przedziały, aczkolwiek to może iść całkiem płynnie bez dużych odstępów między patternami, także badanie odstępów czasowych odpada.
Czy znacie jakiś sposób/algorytm, żeby wykrywać zakresy danych, gdzie powtarza się jakiś zakres słów. Dla przykładu w pierwszy patternie A/B występowanie A i B jest całkowicie przypadkowe, patternem jest tylko to, że słownik składa się z A i B. To samo w Y1/Y2/Y3, to który wystąpi, 1, 2 czy 3 jest losowe.
Czyli wynikowo chciałbym uzyskać:
00:05:22 - 00:48:36
13:57:17 - 14:52:24
20:41:01 - 21:46:13
00:05:22 A
00:11:53 A
00:18:37 A
00:23:18 B
00:24:45 A
00:30:54 A
00:41:13 A
00:48:36 B
13:57:17 X
14:07:48 X
14:16:32 X
14:24:52 X
14:27:40 X
14:32:28 X
14:36:25 X
14:41:18 X
14:45:25 X
14:52:24 X
20:41:01 Y 1
20:47:42 Y 2
20:57:40 Y 2
21:04:34 Y 3
21:11:26 Y 3
21:18:36 Y 2
21:28:28 Y 3
21:33:20 Y 1
21:39:59 Y 2
21:46:13 Y 3