[Spark Streams, Scala] - działanie stream i foreachRdd

Rejestracja:ponad 10 lat
Ostatnio:około 5 lat
Postów:47

0

Chciałbym się dowiedzieć kilku rzeczy związanych ze streamami w Sparku :

Jak dokładnie pracują streamy w Sparku ? Czy kolejne batche są dołączane do tego samego strumienia, czy to działa w ten sposób że w strumieniu jest tylko ostatni batch (chyba że zastosujemy funkcje okienkowe) ?
Jak pracuje foreachRdd w takim razie ? Wczytuje cały batch (jeśli w strumieniu mamy tylko ostatni batch) czy ze strumienia wczytuje to co aktualnie doszło (jeśli batche są kolejno dołączane w strumieniu) ?

edytowany 1x, ostatnio: ast44 2018-08-14 18:02

yarel 2018-08-14 22:04

A co u Ciebie jest źródłem danych dla strumienia?

ast44 2018-08-14 22:16

To chyba bez znaczenia, ale dla przykładu odbieram dane z portu przez StreamingContext i socketTextStream

yarel

2018-08-14 23:34

yarel2018-08-14 23:34

Rejestracja:prawie 10 lat
Ostatnio:około 3 godziny
Postów:2370

0

Ja rozumiem tak:

W StreamingContext określasz "batchDuration", tj. przedział czasu, który będzie dzielił dane wejściowe na "batche", taki batch to RDD (podstawowy koncept sparka), zaś sekwencja RDD to DStream (czyli strumień). Jak źródło coś wyprodukuje, to Reciever (skojarzony ze strumieniem) zapisuje to "coś" w pamięci sparka. Grupa "cosi" wyprodukowanych w okresie "batchDuration" składa się na RDD/batch.

Teraz jak przetwarzasz te dane, to masz 2 opcje przetwarzania:

Bezstanowe - przetwarzasz pojedynczy batch/RDD i nie masz żadnych zależności do innych RDD
"Stanowe" - dla przetwarzanego RDD masz możliwość zajrzenia do wcześniejszych RDD (dla tego przypadku definiujesz okienko, które pozwala zaglądać w przeszłość, "sliding window", które zwraca Ci DStream obejmujący okres ["teraz"-"długość okna"; "teraz"])

Nie wiem jak spark wewnętrznie ogarnia RDD, które przestały być potrzebne, ale zakładam, że jeśli nie ma np. okienek które zaglądają dalej niż 1h, to spark postawiony przed faktem rychłego braku pamięci usuwa RDD "starsze niż" 1h.

Uwaga, mogę to źle rozumieć :-)

edytowany 1x, ostatnio: yarel 2018-08-14 23:35

ast44

2018-08-15 09:22

ast442018-08-15 09:22

Rejestracja:ponad 10 lat
Ostatnio:około 5 lat
Postów:47

0

No właśnie zastanawiam się jak to dokładnie działa, a czy konkretniej w ten sposób (zakładając że nie używam funkcji okienkowej):
a) załóżmy że zbieram dane na batch-a przez 1 s i dodaję do strumienia
b) potem na tym strumieniu wykonuję foreachRdd i w nim operacje które zajmują 2.5 s
c) w czasie przetwarzania pierwszego batcha do strumienia zostały dodane dwa kolejne
d) po przetworzeniu pierwszego batch-a z pierwotnego strumienia jest on usuwany i przetwarzane są następne w kolejce

EDIT: d) ewentualnie kolejne batche nie siedzą w kolejce tylko są wykonywane operacje na nich równolegle, ale potem są i tak usuwane ze strumienia

edytowany 1x, ostatnio: ast44 2018-08-15 12:58

yarel

2018-08-16 07:47

yarel2018-08-16 07:47

Rejestracja:prawie 10 lat
Ostatnio:około 3 godziny
Postów:2370

1

Jak spojrzysz na imaplementację DStreama:

RDD trzymane są w mapie [Time, RDD[T]]
https://github.com/apache/spark/blob/master/streaming/src/main/scala/org/apache/spark/streaming/dstream/DStream.scala#L87
foreachRDD tworzy ForEachDStream:
https://github.com/apache/spark/blob/master/streaming/src/main/scala/org/apache/spark/streaming/dstream/DStream.scala#L651
ForEachDStream generuje joba na określony punkt w czasie w określony sposób:
https://github.com/apache/spark/blob/master/streaming/src/main/scala/org/apache/spark/streaming/dstream/ForEachDStream.scala#L47

Kopiuj

 override def generateJob(time: Time): Option[Job] = {
    parent.getOrCompute(time) match {
      case Some(rdd) =>
        val jobFunc = () => createRDDWithLocalProperties(time, displayInnerRDDOps) {
          foreachFunc(rdd, time)
        }
        Some(new Job(time, jobFunc))
      case None => None
    }
  }
}

...jak dla mnie foreachRDD wykona się dla RDD z określonego batch intervalu (czyli "aktualnie" przetwarzanego)
I będzie się wykonywać co batch interval, tzn. job będzie tworzony.

W opisanym przypadku nowy RDD co sekundę, przetwarzanie 2.5 sekundy, pewnie ilość jobów będzie rosła...

ast44 2018-08-16 20:49

Zastanawiam się jeszcze jak jest jest z tymi RDD, które zostały już obsłużone. Czy są one usuwane ze strumienia na którym pracuje foreachRdd ?

yarel

2018-08-17 07:14

yarel2018-08-17 07:14

Rejestracja:prawie 10 lat
Ostatnio:około 3 godziny
Postów:2370

1

Stare RDD usuwane są via DStream.clearMetadata, które dla określenia "stare" uwzględnia coś co się nazywa "rememberDuration" (zależne od slideDuration/checkpointDuration). Jak określisz okno, to strumień będzie pamiętał to co potrzebne do obsługi okna, może nawet więcej, jeśli chceckpointDuration jest większe niż to wynikające z okna.

Nie doszukiwałem się, gdzie wywoływane jest to clearMetadata, podejrzewam, że po zakończeniu przetwarzania joba.

ast44

2018-08-17 10:30

ast442018-08-17 10:30

Rejestracja:ponad 10 lat
Ostatnio:około 5 lat
Postów:47

0

A jakby działało coś takiego ?

Kopiuj

val x = dstream.foreach{ x => ...}
val y = dstream.reduceByWindow(...)

slideDuration musiałoby być nie większe niż rememberDuration, ale w takim razie foreach nie mógłby wywalać tych RDD. Czyli Spark sam by musiał ustalić ten warunek zanim wykonał się jeszcze foreach ?

yarel

2018-08-17 10:52

yarel2018-08-17 10:52

Rejestracja:prawie 10 lat
Ostatnio:około 3 godziny
Postów:2370

1

Ten dstream, którego używasz w przykładzie nie wziął się ot tak z nicości, wcześniej musiał zostać zainicjalizowany i mieć ustawione to rememberDuration.
Jak robisz coś na streamie, to najczęściej dostajesz nowy stream, dla którego "parentem" jest ten wyjściowy, i ten potomny mówi parentowi "hej, potrzebuję RDD za okres X", parent stream sprawdza sobie czy aktualnie obejmuje pamięcią dłuższy okres, czy krótszy i w razie potrzeby "zwiększa" okres zapamiętywania.

[Spark Streams, Scala] - działanie stream i foreachRdd

ast44

yarel

ast44

yarel

yarel

ast44

yarel

DevOps Engineer - migracja serwerów (Kubernetes,Docker,RoR)

PHP + Codeigniter 4 programista, aplikacja do fakturowania

React Frontend Developer

Praca dla programistów

Forum dyskusyjne

Sprawy administracyjne

O nas

Skontaktuj się z nami