Obecnie takie dane są dostępne jako dane publiczne na:
https://www.danepubliczne.gov.pl/dataset/prng#
Państwowy Rejestr Nazw Geograficznych - miejscowości
Państwowy Rejestr Nazw Geograficznych (PRNG)
https://www.geoportal.gov.pl/dane/panstwowy-rejestr-nazw-geograficznych
To można łączyć z SIMC.
coord_simc_merge.zip
Opis:
Po złączeniu danych z PRNG i SIMC mamy 1318 brakujących rekordów z 102 779 wszystkich. Parowanie po symbolu (id) miejscowości z SIMC. Niestety niektóre miejsca mają inny identyfikator w starszych wersjach SIMC z których korzystano przy opracowaniu PRNG (niektóre rekordy 82 rok, inne 2012, z tego co widać w zbiorze danych) oraz nieco inne nazwy. Np. dzielnica Warszawy Wesoła ma id gminy 1 w starym SIMC/PRNG a w nowym każda dzielnica Warszawy ma własne id gminy. Albo Praga południe jest pisana Praga-południe. Pewnie trzeba jakieś API, żeby to uzupełnić - chociaż te dane często są w PRNG tylko mają inne nazwy i id, to trochę kłopot i nie znalazłem żadnej uniwersalnej zależności żeby napisać skrypt uzupełniający.
Dodatkowo jest z 1000 miejscowości o takich samych nazwach, id_woj, id_powiatu, id_gminy, rodzaju gminy i rodzaju miejscowości ale innym id miejscowości i nieco różnych współrzędnych geograficznych. Np. 2 miejscowości Jeziora w Kujawsko-Pomorskim, są obok siebie i w aktualnym SIMC obydwie są uznane za Osady leśne a w PRNG jedna jest Osadą a druga Osadą leśną (tą wersję z PRNG obecnie wyświetla Google).
kolumny:
id_miejsowości, id_miejscowości nadrzędnej, nazwa, id_woj, id_pow, id_gmi, id_rodzaju_gminy, id_rodzaju_miejscowości, (tutaj dodatkowe dwa pola z PRNG określające miejsce/typ mogące się przydać w przypadkach jak opisany wyżej "Jeziora w Kujawsko-Pomorskim"), współrzędne goeograficzne.
Tu zrzut ekranu z jakiejś strony, już nie pamiętam adresu, która dobrze opisuje id rodzajowe:
Są 3 pliki, główny jak opisany, w miejsce brakujących wsp. jest "", drugi w którym są tylko brakujące rekordy i trzeci będącym 2 + wrzucone nazwy obok id dla ułatwienia wyszukania brakujących danych.
edit. Można zrobić to co robi np. Google dla niektórych z miejscowości - wyświetlać lokalizację miejscowości nadrzędnej. Po takim parowaniu + parowaniu nieznalezionych rekordów (niemających miejs. nadrzędnej określonej w bazie) po nazwie miejsc. oraz id woj.,pow., i gminy można uzyskać ok. 78 brakujących rekordów pomijając te z rodzajem dzielnica oraz delegatura aby ich nie rozmywać do Miasta. Po uzupełnieniu ręczym tych brakujących rekordów (czasami też miejs. nadrzędnymi/ wsp. gminy z braku danych w internecie) mamy 0 braków. Trochę nie ideał jakościowo ale cóż:
simc+coords.zip
*Zapis współrzędnych jest w stopniach, minutach i sekundach, przy czym niektóre wsp. mają te liczby z rozwinięciem po kropce wynikające z konwersji i braku zaokrąglania.
GUS - Bank danych lokalnych, LUDNOŚĆ - STAN LUDNOŚCI -
To można łączyć z TERYT.
TERYT + ludność bez podziału na płeć, posortowane po ludnośsci.
teryt+ludność.zip
Kolumny:
id_woj, id_pow, id_gmi, id_rodzaju (zdj.), nazwa, ludność.
Jak rekord nie ma id_woj, id_pow, id_gmi, id_rodzaju to jest to Polska
jak rekord nie ma id_pow, id_gmi, id_rodzaju to jest to województwo
itd.
*Pliki z TERYT i SIMC wzięte najnowsze w dniu dodania postu - 30 grudnia 2021. No i to z PRNG też wzięte to co jest bo nie ma żadnych wersji po dacie.