Procesowanie dużego pliku, wydajność

tomek1221

2019-02-04T15:16:00+01:00

Rejestracja: dni
Ostatnio: dni
Postów: 84

Cześć,

Mam duży plik CSV na dysku (ponad 2GB), chcę w jak najkrótszym czasie:

czytam wiersz
tnę go, żeby mieć dostęp do każdej wartości
wsadzam w jakiś model
wrzucam na kolejke

Jak to zrobić, żeby było szybko i dobrze? Myślałem, żeby użyć parallel streamów

Kopiuj

public void processFile() {

        try {
            Stream<String> lines = Files.lines(Paths.get(path, fileName));
            lines.parallel().forEach( csvRow -> {
                csvRow.split(";");
                // ... i dalej wsadzanie wartości w obiekt, następnie obiekt wysyłany na kolejke
            });
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

Będę wdzięczny za rady

scibi92

2019-02-04T16:00:47+01:00

Rejestracja: dni
Ostatnio: dni
Lokalizacja: Warszawa
Postów: 3573

@tomek1221:
1)Ja bym zamiast tego try zrobił try-with-resources

Kopiuj

try(Stream<String> lines = Files.lines(path)) {
 //code
} catch(IOException e) {
//handle with an exception
}

2). To jakaś aplikacja webowa? To CRON odpalany w nocy? Musisz wiedzieć że parallel stream będzie korzystać ze wspólnej puli watków...

vpiotr

2019-02-04T17:39:18+01:00

Rejestracja: dni
Ostatnio: dni

https://stackoverflow.com/questions/11098873/how-to-split-a-csv-file-into-multiple-chunks-and-read-those-chunks-in-parallel-i
https://dzone.com/articles/how-to-read-a-big-csv-file-with-java-8-and-stream

Liczba odpowiedzi na stronę

Zarejestruj się i dołącz do największej społeczności programistów w Polsce.

Otrzymaj wsparcie, dziel się wiedzą i rozwijaj swoje umiejętności z najlepszymi.

Utwórz konto