Tak sobie patrze na DataSet w Sparku i denerwuje mnie że to wszystko opiera się na stringach w nazwach kolumn i dziwnych funkcjach rodem z SQL.
Najpierw sobie zrobiłem klasę do której zmapowałem dane, więc chciałbym sobie wygodnie to posortować na przykład, a tu żądane jest podanie nazwy kolumny w Stringu.
W RDD:
.sortBy(_.field, ascending = false)
W DataSet:
.sort($"field".desc)
Co sądzicie o DataSetach? Czy w kolejnych wersjach to jakoś poprawią? Czego się używa komercyjnie?
Jakoś mam awersję do całego Spark SQL i pisania w Stringach, czy to komend, czy nazw kolumn. Czemu miało by się tego używać gdy można coś robić w sposób typowany?