4 データ確認

4.1 列ごと

4.1.1 欠損列を含む列を表示

disease %>% 
  summarise(across(everything(), ~sum(is.na(.)), .names = "{.col}_na"))

4.1.2 ユニークデータ数

drug %>% 
  n_distinct(id)

4.1.3 列の型

  • mode, typeof
disease %>% 
  summarise(across(everything(), ~mode(.)))

disease %>% 
  summarise(across(everything(), ~typeof(.)))

4.1.4 列ごとに型、重複無し数、欠損数を表示

disease %>% map_df(~(data.frame(class = class(.x), n_distinct = n_distinct(.x), isna = sum(is.na(.x)))), .id = "variable")

4.2 dataframeの概要

4.2.1 dataframeの次元(行数と列数)

dim(disease)

4.2.2 package

  • summarytools::descr(), summarytools::dfSummary()
  • skimr::skim()