TidyR – uporządkuj swoje dane

Dzisiaj zapoznamy Was z podstawowymi funkcjami biblioteki TidyR, która służy do zmiany kształtu i hierarchi zbioru danych. Zaczniemy jak zawsze od załadowania biblioteki:

Do naszego przykładu użyjemy danych, które sami sobie wygenerujemy. Weźmy np. liczbę mężczyzn i kobiet w regionach A i B w dwóch latach 2020 i 2021. Do utworzenia tabeli z takimi danymi wykorzystamy funkcję tibble:

Nasze dane wyglądają następująco:

Pierwsza funkcja jaką poznamy to gather, która zamienia kolumny w rzędy:

Funkcja ta nasze dwie kolumny 2020 i 2021 zamienia na jedną kolumnę o nazwie count i dodatkowo dodaje kolumnę year zawierającą nazwy pierwotnych kolumn:

Funcja spread zamienia natomiast wiersze na kolumny. My rozdzielimy nasze dane z tabeli g po płci:

TidyR ma dodatkowo przydatne funkcje do czyszczenia naszych zbiorów z braku danych NA. Dodajmy sobie do naszej tabeli dt brak danych:

Funkcja drop_na usuwa z naszej ramki danych wiersze z brakami:

Wiersz z brakiem danych został usunięty:

Funkcja fill uzupełnia brak danych wartościami z góry lub z dołu w danej kolumnie:

Brakująca wartość została dodana z dolnego wiersza:

Replace_na służy do zastąpienia braku wartości daną zdefiniowaną przez użytkownika:

A co w przypadku, gdy nasze dane w jednej kolumnie zostały zapisane jako ciąg liczb przedzielony separatorem:

Użyjemy funkcji seperate_rows:

Do rozdzielenia naszych kolumn na oddzielne wiersze:

Lub też funkcji separate:

Do rozdzielenia danych na dwie kolumny:

Powrót do zapisu z separatorem umożliwia funkcja unite:

Narzędzia biblioteki tidyR są bardzo przydatne do uporządkowania naszych danych tak abyśmy mogli prowadzenić na nich analizy czy też tworzyć na ich podstawie wykresy.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.

Translate using Google Translate»
Social media & sharing icons powered by UltimatelySocial

Podoba Ci się nasza strona? Odwiedź nasz profil