Podstawy R – Przechowywanie danych

Wychodząc naprzeciw potrzebom wskazanym przez naszych czytelników w ankiecie rozpoczynamy krótki kurs wprowadzający do R. Naszą przygodę zaczniemy od poznania sposobu przechowywania danych (kontenerów danych) w tym języku. Dla osób, które nie zdążyły zapoznać się jeszcze ze środowiskiem w którym będziemy pracować odsyłam do wpisów poświęconych instalacji i pierwszym krokom w R.

Pierwszym sposobem przechowywania danych jest wektor. W wektorze możemy przechowywać dane tylko jednego typu np. numeryczne. Stwórzmy przykładowy wektor w zawierający cztery liczby:

Wyświetlamy utworzony wektor w w konsoli:

W przypadku gdy chcemy wyświetlić konkretny element wektora musimy wpisać:

Możemy również wyświetlić więcej elementów:

Teraz stwórzmy wektor zawierający kolejne liczby od 1 do 5:

Wektor może zawierać też ciągi znaków np. z pięcioma imionami:

A co gdy chcemy przechowywać różnego typu zmienne w jednym obiekcie? Możemy skorzystać z obiektu list, który umożliwia przechowywanie różnego typu danych w swoich elementach. Stwórzmy listę zawierającą dowolne trzy wartości o różnym typie:

Wyświetlamy w konsoli utworzoną zmienną:

W celu wyświetlenia drugiego elementu listy musimy wpisać:

W przypadku dwuwymiarowych danych, np. rastrów wartości poszczególnych pikseli przechowane są w macierzy. Dowolną macierz tworzymy funkcją matrix podając wartość jaką ma ją wypełniać oraz liczbę wierszy i kolumn:

Możemy również wstawić do macierzy dowolny wektor, który ma liczbę elementów równą liczbie wierszy lub wszystkich pól macierzy:

Wybór dowolnego elementu w macierzy dokonuje się poprzez podanie numeru wiersza i kolumny:

Wybrać można również cały wiersz lub kolumnę:

Macierz tak jak wektor może przechowywać dane tylko jednego typu.

W R można również używać wielowymiarowych macierzy zwanych array. Tworzone są poprzez podanie wartości w niej przechowywanych oraz wymiaru:

Innym rodzajem przechowywania danych jest factor. Pokażemy jak on działa na przykładzie. Utwórzmy sobie wektor zawierający nazwy miast:

Zmieńmy ten wektor na factor i wyświetlmy go:

Jak widzimy pojawił nam się wektor oraz poziomy będące nazwami miast, żeby pokazać jak to działa zróbmy przekształcenie factora na wektor numeryczny:

Jak widzimy factor jest ciągiem liczb, do których przypisane są wartości z Levels. Jak dana wartość się powtarza w ciągu występuje ta sama liczba. A tak naprawdę w czym nam może się to przydać, poza zmniejszoną liczbą miejsca potrzebną na przechowywanie tego typu danych. Na przykład przy zliczaniu występowania danego elementu:

Ostatnim rozpatrywanym przez nas zmienną, w której możemy przechowywać dane jest data frame. W najprostszy sposób można ją opisać jako arkusz Excel przechowujący dane w kolumnach i wierszach. W każdej z kolumn możemy przechowywać inny rodzaj danych. Utwórzmy prosty data frame:

Mieliśmy już do czynienia z tym typem danych przy analizie plików wektorowych, bo to właśnie tabela atrybutów warstwy SHP jest wczytywana w takiej postaci. Z data frame możemy wyciągać tak jak dla macierzy kolumny:

lub wiersze:

Każdy wiersz i kolumna ma też swoją nazwę, które możemy wykorzystać do selekcji:

Możemy też je wyświetlić:

Wybór metody przechowywania danych jest uzależniony, od sposobu w jakim są one zapisane w plikach. Tak jak wspomnieliśmy dla rastrów będzie to np. macierz, a dla wczytywanych arkuszy kalkulacyjnych data frame. W kolejnym etapie kursu pokażemy jak posługiwać się pętlami na danych.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.

Translate using Google Translate»
Social media & sharing icons powered by UltimatelySocial

Podoba Ci się nasza strona? Odwiedź nasz profil