4 データ確認
4.1 列ごと
4.1.1 欠損列を含む列を表示
disease %>%
summarise(across(everything(), ~sum(is.na(.)), .names = "{.col}_na"))4.1.2 ユニークデータ数
drug %>%
n_distinct(id)4.1.3 列の型
- mode, typeof
disease %>%
summarise(across(everything(), ~mode(.)))
disease %>%
summarise(across(everything(), ~typeof(.)))4.1.4 列ごとに型、重複無し数、欠損数を表示
disease %>% map_df(~(data.frame(class = class(.x), n_distinct = n_distinct(.x), isna = sum(is.na(.x)))), .id = "variable")4.2 dataframeの概要
4.2.1 dataframeの次元(行数と列数)
dim(disease)4.2.2 package
- summarytools::descr(), summarytools::dfSummary()
- skimr::skim()