Dplyr – manipulacja data frame

W dziesiejszym poście zapoznamy Was z biblioteką dplyr, która w łatwy sposób pozwala manipulować zmiennymi typu data frame. Do naszego przykładu wykorzystamy wykaz pól powierzchni geodezyjnych, który możecie pobrać tutaj w ramach otwartych danych.

Zainicjujmy bibliotekę:

Wczytajmy dane:

W pierwszej kolejności wykorzystamy narzędzie filter pozwalające na wyselekcjonowanie wierszy spełniających zadane kryterium. W naszym przypadku będą to powiaty dla których TERYT ma 5 znaków:

W wyniku otrzymujemy:

Dodajmy do naszej poprzedniej linijki kodu jeszcze funkcję mutate za pomocą której możemy wyliczyć nową wartość (kolumnę). My wyznaczymy na podstawie TERYTu powiatu TERYT województwa (TERYT_woj) przy użyciu funkcji substr:

W wyniku mamy:

Za pomocą funkcji select wybieramy interesujące nas kolumny:

I mamy:

Wykonany wcześniej select wykorzystamy do dodanie do naszych powiatów nazw województw, korzystając z left_join z grupy funkcji join:

Uzupełniona tabela wygląda następująco:

Na końcu w naszej długiej linijce kodu dodamy select tylko interesujących nas w wynikowej tabeli kolumn (TERYT, Nazwa jednostki, Powierzchnia i Nazwa województwa). Nadamy im nowe nazwy (TERYT, Nazwa, Pow, Woj). Wynik zapiszemy do zmiennej dt:

Zmienna dt powinna zawierać takie dane:

Dla utworzonej tabeli wyliczymy minimalną, średnią i maksymalną powierzchnię powiatów z wykorzystaniem narzędzia summarise:

W przypadku gdy chcemy wyliczyć te wartości dla województw naszą linjkę należy uzupełnić o funcję grupującą group_by:

Dodajmy jeszcze liczbę powiatów:

I na koniec posortujmy nasze wyniki po liczbie powiatów używając funkcji arrange:

Wiesze zostały posortowane od najmniejszej do największej liczby powiatów w województwach. Odwrotne sortowanie uzyskamy dodając na końcu naszego kodu:

Zaprezentowaliśmy Wam na przykładzie jak działają najczęściej używane funkcje z biblioteki dplyr:

  • select – wybór kolumn,
  • filter – wybór wierszy na podstawie wyrażenia,
  • mutate – wyliczenie nowych danych na podstawie istniejących,
  • left_join – łączenie dwóch tabel (jest wiele innych rodzajów),
  • summarise – wyliczanie zestawień z wartości,
  • group_by – grupowanie po wartościach w kolumnie,
  • arrange – sortowanie wierszy po wartościach w kolumnach.

Biblioteka zawiera wiele innych funkcji z którymi musicie zapoznać się sami.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.

Translate using Google Translate»
Social media & sharing icons powered by UltimatelySocial

Podoba Ci się nasza strona? Odwiedź nasz profil