Podstawy R – Analiza danych cz.2 „Eksploracja”

Pierwsza część analizy dany w R prezentowała jak wczytać nasze pliki do środowiska. Teraz trzeba te dane zweryfikować, w celu wyeliminowania wszystkich błędów mogących wpłynąć na wynik naszej analizy. Do ćwiczenia przygotowaliśmy zmodyfikowany plik z ludnością w powiatach do którego specjalnie wprowadziliśmy kilka błędów (pobierz).

Zacznijmy od wczytania pliku z danymi:

Przyjrzyjmy się zapisanym w tabeli data danym. Wyświetlamy pierwsze wiersze z tabeli:

Wiersze możemy przeglądać jeden po drugim:

Jak również pojedyncze kolumny na dwa sposoby:

Sposoby przeglądania szerzej zaprezentowane zostały w części kursu dotyczącej przechowywania danych.

Czasami nie wiemy w jakiej postaci przechowywane są dane w zmiennej. Sprawdzić to możemy korzystając z funkcji class, która zwróci nam typ kontenera danych:

Nasza zmienna data to ramka danych zawierająca w kolumnach różne typy wartości.

Wróćmy do weryfikacji wczytanych przez nas danych. Wiemy, że zawierają liczbę ludności w poszczególnych powiatach. W Polsce jest 380 powiatów. Posiadając taką informację możemy sprawdzić, czy liczba wierszy naszych danych jest równa tej liczbie. Napiszmy wyrażenie sprawdzające, czy liczba wierszy tabeli jest równa 380 i wykonajmy je:

Wyrażenie zwraca nam wartość FAŁSZ co znaczy, że nie mamy 380 wierszy. Mamy ich 381:

Oznacza to, że jakiś wiersz się powtarza. Sprawdźmy, który używając funkcji duplicated na kolumnie identyfikator:

Funkcja zwraca wektor zawierający wartości PRAWDA/FAŁSZ dla każdego z elementów kolumny. W przypadku, gdy któryś z elementów się powtarza drugi raz otrzymuje wartość PRAWDA. W naszym zbiorze łatwo jest odnaleźć powtarzające się wartości, co w przypadku, gdy mamy bardzo duży zbiór danych? Możemy sprawdzić, czy którakolwiek wartość przyjmuje wartość PRAWDA przy wykorzystaniu funkcji any:

Wiemy, już że mamy powtórzenie w danych, ale gdzie? Do tego służy funkcja wskazująca pozycję elementu which:

Wiersz 135 jest powtórzeniem innego wiersza w tabeli. Wyświetlmy go:

Identyfikator tego powiatu to 616. Wybierzmy numery wierszy, które mają taki identyfikator do zmiennej sel:

I wyświetlmy je:

Powiat rycki występuje dwa razy w naszej tabli. Teraz go usuniemy w podobny sposób jak go wyświetlamy, tylko dodamy minus i zapiszemy go do zmiennej data:

Usunęliśmy powtarzający się wiersz. Sprawdzamy jeszcze raz czy mamy powtórzenia:

W kolumnach numerycznych takich jak np. ludność wiemy, że nie powinno być wartości ujemnych i równych zero. Możemy to sprawdzić tworząc wyrażenie:

Otrzymaliśmy z wyrażenia wartość PRAWDA to znaczy, że wartość mniejsza bądź równa zero występuje w danych. Zapisujemy pozycję błędnego wiersza do zmiennej sel:

Wyświetlamy wiersz:

Korzystając z pozycji wiersza zapisanego w sel poprawiamy błędną wartość w kolumnie ludność:

Wyświetlamy wiersz ponownie i sprawdzamy poprawność zmiany:

Poprawiliśmy błąd. W komórkach tabeli może również nie być danych. Brak danych zapisywany jest jako NA. Wyszukać tego typu miejsc możemy poprzez funkcję is.na:

Mamy taki element w kolumnie ludność. Znajdźmy, który to wiersz:

Wyświetlamy go:

Poprawiamy:

Sprawdzamy zmianę:

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.

Translate using Google Translate»
Social media & sharing icons powered by UltimatelySocial

Podoba Ci się nasza strona? Odwiedź nasz profil