Podstawy R – Analiza danych cz.3 “Statystyki”

Wczytaliśmy dane i sprawdziliśmy ich poprawność. Poznajmy kilka funkcji pozwalających je w prosty sposób przeanalizować. Do analizy wykorzystamy plik z ludnością w powiatach, który wczytywaliśmy w części pierwszej (pobierz). Wczytajmy go ponownie:

Najpierw chcemy znaleźć w kolumnie ludność maksymalną liczbę ludności w powiecie. Służy do tego funkcja max:

Nazwę powiatu o największej liczbie ludności możemy wyświetlić z wykorzystaniem wyrażenia, którego używaliśmy już w poprzednim poście:

Minimalną liczbę ludności wyświetlimy funkcją min:

Najmniej zaludniony powiat to:

W przypadku, gdy chcemy za jednym rzutem poznać minimalną i maksymalną wartość danych możemy skorzystać z funkcji range:

Do wyliczenia średniej wartości służy funkcja mean:

Medianę policzymy dzięki funkcji median:

Odchylenie standardowe da nam funkcja sd:

A wariancję var:

Kwartyle policzymy używając funkcji quantile, dla której zdefiniować musimy, który z nich chcemy wyznaczyć:

Wyświetlić podstawowe statystyki dla konkretnych wartości możemy funkcją summary:

Przydatna do analizy będzie również funkcja aggregate pozwalająca na analizę wartości w grupach. W naszym przypadku np. po województwach. Policzmy średnią liczbę ludności w powiatach z podziałem na województwa używając tej funkcji. Jako argumenty musimy podać wartości, po czym będziemy grupować obliczenia jako listę (by) oraz jaką funkcję chcemy wykorzystać w obliczeniach (FUN).

R ma bardzo wiele funkcji przydatnych analizie danych, ponieważ do tego w szczególności został stworzony. My chcieliśmy pokazać tylko te podstawowe. Osoby zainteresowane pogłębieniem wiedzy w tym zakresie odsyłamy do dokumentacji zawierającej bardzo szczegółowe opisy każdej z funkcji. W następnym poście pokażemy jak prezentować dane na wykresach.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.

Translate using Google Translate»
Social media & sharing icons powered by UltimatelySocial

Podoba Ci się nasza strona? Odwiedź nasz profil