4 データ確認
4.1 列ごと
4.1.1 欠損列を含む列を表示
%>%
disease summarise(across(everything(), ~sum(is.na(.)), .names = "{.col}_na"))
4.1.2 ユニークデータ数
%>%
drug n_distinct(id)
4.1.3 列の型
- mode, typeof
%>%
disease summarise(across(everything(), ~mode(.)))
%>%
disease summarise(across(everything(), ~typeof(.)))
4.1.4 列ごとに型、重複無し数、欠損数を表示
%>% map_df(~(data.frame(class = class(.x), n_distinct = n_distinct(.x), isna = sum(is.na(.x)))), .id = "variable") disease
4.2 dataframeの概要
4.2.1 dataframeの次元(行数と列数)
dim(disease)
4.2.2 package
- summarytools::descr(), summarytools::dfSummary()
- skimr::skim()