Witam. Mam taki problem. Ostatnio słuchałem dużo wywiadów na Spotifaju. Tak to już jest, że raczej pobieżnie się to zapamiętuje i niedokładnie wiadomo co gdzie kiedy i powołując się na jakie źródło zostało powiedziane. Żeby nie przedzierać się znowu przez godzinowe nagrania, pomyślałem sobie, że fajnie byłoby to mieć jako tekst i wynotować sobie to, co mnie ciekawi. Podobnie z YT. Z tego co widzę, aplikacji nawet jest całkiem sporo, tylko raczej webowych. Może dlatego, że same biblioteki dla obsługi takiej aplikacji będą sporo ważyć. Tak czy inaczej jeśli ktoś z Was używa takich narzędzi i mógłby coś polecić, to byłbym wdzięczny. W pierwszej kolejności interesuje mnie obsługa treści po polsku, ale nie tylko. No i w ogóle fajnie by było gdyby tak jak z napisami do filmów, linia tekstu była zapisywana z czasem w jakim pojawia się na nagraniu.
OpenAI Whisper: https://github.com/openai/whisper
Używam go do transkrypcji (język polski) i tłumaczenia napisów do swoich filmów. Nawet przy mojej niewyraźnej mowie radzi sobie bardzo dobrze, zwłaszcza jak się wybierze większy model. Tylko transkrypcja może trwać bardzo długo, jeżeli nie uda Ci się skonfigurować CUDA (u mnie nie chce to zaskoczyć z jakiegoś powodu, więc leci na procesorze samym), albo po prostu nie masz karty nVidii.
Też używam Whispera, można zaciągnąć z pipa, działa raczej bez problemów. Wszystkie języki których używałem działały spoko, funkcja tłumaczenia też. Wiadomo, ze robi błędy, ale rzadko. Nie jest bardzo szybkie, na procesorze i7 i 16GB Ramu około 1-3minuty pracy, żeby przerobić 1minutę tekstu, jak liczyłem. Na maszynie z mniejszą ilością RAMu, były z tym problemy (zawieszka, sypał się też), ale podzielenie na mniejsze fragmenty (5-10 min) przynosiło pozytywny rezultat. CUDA nigdy nie próbowałem konfigurować.
Nie wiem na ile stabilnie będzie to działać, ale Google Docs w przeglądarce Chrome ma opcję dyktowania. Możesz mu puścić to nagranie i on będzie pisał to co usłyszy. Najlepiej by było jakbyś miał możliwość udawania mikrofonu w Twoim systemie - pewnie jest do tego jakieś oprogramowanie. Żeby Google Docs traktował to co puszczasz w systemie jako dźwięk z mikrofonu.
Są online też AI do tłumaczenia filmu, który nie miał napisów. Chyba trafiłem kiedyś na takie co generuje przetłumaczony dźwięk i tekst na podstawie przesłanego pliku. Tylko, że to płatne rozwiązanie dla dłuższych nagrań.
@Spine to nie jest dobry pomysł, ja często to co piszę nie piszę ręcznie ale dyktuję. I on często wpisuje inne słowa niż mówię, a mówię raczej wyraźnie, lecz szybko. Często więc zdania potem mają albo nagle słowo zupełnie inne niż wypowiedziane albo całkowicie błędnie napisane z dosłownymi błędami - bo mam wyłączoną korektę.
Szkoda że ten program Whisper - nie ma jakiegoś programu bardziej wizualnie ogarniętego. Chętnie sam bym z niego korzystał jak teraz o nim poczytałem. Ale by musiał być zrobiony w prostszy sposób dla ludzi mało ogarniętych w kodach i konsolach i czym tam jeszcze.
Jak masz filmy w eng - to możesz wrzucić na YT on sam napisze sobie do nich teksty, a potem można je pobrać już jako paczkę z napisami.
Cimron napisał(a):
Jak masz filmy w eng - to możesz wrzucić na YT on sam napisze sobie do nich teksty, a potem można je pobrać już jako paczkę z napisami.
Mam po tajsku, też da radę?
Te napisy się pobierze w YouTube Studio, czy trzeba jakoś w youtube-dl?
Czy Chat GPT w wersji premium zrobi mi to?
Chat GPT premium sobie ze wszystkim radzi - nawet z zastepowaniem seniorow.