Centrum Analiz Statystycznych - Dane

Jak przygotować dane dla CAS?

Aby analizy były prowadzone sprawnie, konieczne jest dostarczenie do CAS gotowego do użycia zbioru danych. Zbiór ten powinien być przygotowany wg poniższych zasad. Dotyczą one na razie typowego układu danych, w którym wyróżniamy zmienne objaśniane oraz zmienne objaśniające. W innych przypadkach strukturę zbioru danych będziemy ustalać wspólnie ze zgłaszającymi potrzebę przeprowadzenia analizy.
Uwaga! Dane nie mogą zawierać danych personalnych. Jeśli konieczne jest przypisanie danych do poszczególnych osób, dane personalne proszę zastąpić innymi, dowolnymi identyfikatorami.

Zasady przygotowania zbioru danych:

  • Format pliku z danymi – Excel (xlsx lub xls).
  • Pierwszy arkusz w przesłanym pliku Excel powinien być nazwany „Legenda” oraz zawierać rozwinięcia użytych nazw zmiennych i przypadków (lub wyjaśnienie zasad ich tworzenia), ze wskazaniem, które zmienne są:
    • objaśniane
    • objaśniające
  • Zmienne to kolumny, a wiersze to przypadki.
  • Nazwy przypadków i zmiennych powinny być jak najkrótsze (najlepiej nie dłuższe niż 12 znaków).
  • W nazwach należy używać alfabetu łacińskiego, cyfr, myślnika i podkreślnika, czyli bez „ą”, „ć” itp., a także bez znaków specjalnych, jak np. „$”, „#” itp.
  • Arkusze danych powinny zawierać wyłącznie dane, które będą wykorzystywane w analizach.
  • Identyfikatory/etykiety/nazwy przypadków (jeśli są) powinny być zawarte w pierwszej kolumnie.
  • Następne kolumny powinny zawierać zmienne objaśniane, a kolejne - zmienne objaśniające.
  • Brak danej to pusta komórka - nie należy wprowadzać tam myślników lub oznaczeń braku danych typu „BD” itp.
  • W przypadku analizy (np. porównania) grup wartości danej zmiennej objaśnianej X (np. ciśnienia krwi) nie powiązanych ze sobą (np. pomiarów na próbach ludzi chorych na pewne choroby A, B, C i D) wszystkie wartości zmiennej X powinny być w jednej kolumnie (czyli kolejne grupy jedna pod drugą), a kody chorób (czyli zmiennej objaśniającej) powinny być w kolumnie kolejnej. Ewentualne inne zmienne objaśniające powinny być zawarte w kolejnych kolumnach.
Nr X Chor Wiek
x1 130 A 40
x2 140 A 32
x3 135 A 49
x4 145 B 38
x5 115 B 67
x6 100 C 56
x7 110 C 63
x8 120 D 55
x9 115 D 49

 

  • W przypadku analizy danych powiązanych, np. zmian ciśnienia krwi PRZED i PO leczeniu w danej grupie pacjentów (z rozróżnieniem kobiet (K) i mężczyzn (M)) dotyczących jednego pacjenta, dane takie powinny być zawarte w jednym wierszu.
Nr PRZED PO PLEC
y1 130 120 K
y2 140 140 M
y3 150 140 M
y4 170 110 K
y5 150 150 K
y6 145 160 M
y7 150 115 K
y8 145 140 M

Wszelkie uwagi, propozycje są bardzo potrzebne i mile widziane.
Sukcesywnie zasady te będziemy uzupełniać informacjami dotyczącymi innych rodzajów analiz.