ICD code を扱う R パッケージ

Author

nissinbo

Published

June 23, 2023

略語集

CCI: Charlson Comorbidity Index
GEMs: General Equivalence Mappings

この資料について

医療情報 DB を用いた研究などでは、ICD code を使って疾患の特定を行うことが多い。
ここでは、ICD code のハンドリングや疾患名の付与、CCI の算出といった作業に便利な R パッケージを紹介する。

ICD code とは

WHO から発出されている疾病の分類コード
コードの検索は例えばicd10data.com が便利である。
ICD-9, ICD-10 といったバージョン違いの他に、米国では ICD-10-CM が用いられるなど、それらの差異には注意が必要である。

事前準備として tidyverse を読み込んでおく。

Code

library(tidyverse)

`coder` パッケージ

rOpenSci プロジェクトに入っており、今後も開発が進んでいくことが期待される。
ICD code の他にも薬剤コードの一種である ATC code についても対応している。

Code

library(coder)

ICD code を含むサンプルデータ

サンプルデータとして ex_people, ex_icd10, ex_atc が準備されている。

`categorize()`

coder パッケージには、データフレームを結合する codify()、併存疾患を抽出する classify()、CCI を算出する index() という関数があるが、基本的には categorize() で一気に行う。
以下ではドキュメントを参考にしたサンプルコードを示す。

Code

categorize(
  x = ex_people, codedata = ex_icd10, 
  cc = "charlson", id = "name", code = "icd10")

Classification based on: icd10

x には重複のない患者 ID 列を含むデータフレームを指定する
cc に入るオプションは以下で確認できる

Code

all_classcodes()

classcodes: 算出するスコア
- console に ?charlson などと入力してドキュメントを見ると、出自の文献を確認できる
- console に elixhauser などと入力して Classcodes object から対象疾患を確認できる
regex: 対応するコード(ICD-10 など)
indices: 重みづけの方法

併存疾患を選択するための time window を指定したい場合は、以下のようにする。

Code

ch <- 
  categorize(
    x = ex_people, codedata = ex_icd10, cc = "charlson", id = "name", code = "icd10",
    index       = c("quan_original", "quan_updated"),  # 同時に複数の重みづけで算出
    codify_args = list(
      date      = "surgery",   # ex_people 中の指標日にあたる列
      code_date = "admission", # ex_icd10 中の診断日にあたる列
      days      = c(-90, -1)   # Time window を指定(この例では1-90日前)
    )
  )

Classification based on: icd10

Code

ch  # Time window 中に レコードが 1 つも存在しない場合、スコアは NA となることに注意

Code

# 分布の確認
ch |> 
  mutate(across(starts_with("quan"), ~replace_na(., 0))) |>   # NA を 0 に変換
  pivot_longer(cols = c(quan_original, quan_updated), names_to = "weight_method", values_to = "score") |> 
  ggplot() +
  aes(score, fill = weight_method) + 
  geom_bar(position = "dodge", width = 0.5)

`comorbidity` パッケージ

頻繁にレポジトリが更新されており、2022年には CRAN で 1.0.0 がリリースされている。

併存疾患の抽出、CCI の算出

comorbidity() で ICD code から併存疾患を抽出し、score() で CCI を算出する。
以下に vignette を改変したサンプルコードを示す。

Code

library(comorbidity)

# サンプルデータ作成
set.seed(1)
df <- data.frame(
  id = sample(seq(100), size = 10000, replace = TRUE),
  code = sample_diag(n = 100)) |>   # generate ICD-10 code at random
  tibble() |> 
  arrange(id, code)

# CCI の疾患の集計
charlson_df <- df |> 
  comorbidity(id = "id", code = "code", 
              map = "charlson_icd10_quan", assign0 = FALSE)

# CCI の計算
cci_df <- charlson_df |> 
  mutate(id, 
         original_cci = score(charlson_df, weights = "charlson", assign0 = FALSE), 
         quan_cci = score(charlson_df, weights = "quan", assign0 = FALSE), 
         .keep = "none") 

# Elixhauser Comorbidity Index: ECI の疾患の集計
elixhauser_df <- df |> 
  comorbidity(id = "id", code = "code", 
              map = "elixhauser_icd10_quan", assign0 = FALSE)

# ECI の計算
eci_df <- elixhauser_df |> 
  mutate(id, 
         vanwalraven_eci = score(elixhauser_df, weights = "vw", assign0 = FALSE), 
         sharma_eci = score(elixhauser_df, weights = "swiss", assign0 = FALSE), 
         .keep = "none")

CCI は2つの重みづけが利用可能
Charlson 1987
Quan 2011
Elixhauser Comorbidity Index は2つの重みづけが利用可能
van Walraven 2009
Sharma 2021

`touch` パッケージ

ICD-9 と ICD-10 の相互変換を行うには、GEMs を用いる方法がある。R で実現するには touch パッケージが唯一の選択肢である。
使用する際は RDocumentation がわかりやすい。

GEMs とは

概要

CMS.gov が開発した ICD code 変換の対応表
- 2018年版が最終確定版
GEMs User’s Guide や Documentation for Technical Users に変換規則が記載

GEMs の特徴

コードの変換は 1:1 マッピング(50%)の他に 1:n, n:1, n:n マッピングや対応がないものもある
9→10 (Forward) と 10→9 (Backward) の辞書は鏡像の関係ではない
AHIMA がわかりやすい

GEMs を用いた変換に対する批判

GEMs による ICD-9-CM → ICD-10-CM 変換には批判も多く存在するため、注意が必要

AHIMA GEMs
- GEMs は単純な crosswalk: 横断歩道ではない
- 1:n の時にすべての値を残すか、妥協点として無理やり 1:1 にするかは目的次第
- 見たい 9-CM が少なければ、GEMs を使う必要はなく、コードを直接検索するのが速く簡単で正確である
Reeves 2020
- GEMsを単独で使用しても、包括的かつ正確には変換できない
  - 9-CM と 10-CM の比較可能性を確保するための確実な選択肢は、各コードの手動レビューである

GEMs を用いた変換の精度を検証した論文

Turer 2015
- 医療記録のプロが 598 の 9-CM を 10-CM に手動変換「GEMs と一致したのは85.2%」
Columbo 2018
- 心血管イベントのコードを医師が検証「GEMs は便利だけど、手動で検証する必要がある」
Simeone 2020
- 医師・コーダーが手動変換して検証「手動のほうが包括的である」
Mainor 2020
- 2015年の 9-CM と 10-CM の切り替え前後で、GEMs で翻訳されたコードの診断頻度が大きく変動していた（=疾患の増減とは考えづらく、変換が不完全であることの現れ）

ICD-9 と ICD-10 の相互変換

icd_map() を使う。

Code

library(touch)

icd9codes <- c("0011", "001.1", "316", "29383", "E9808", "V90")

icd_map(icd9codes)

[1] "A001"  "A001"  "F54"   "F0630" ""      ""

method で 4 つの変換方法を指定可能
- gem
  - 9→10 の辞書を用いて 9→10 に変換
  - 多くの論文ではこの方法
- reverse-gem
  - 10→9 の辞書を用いて 9→10 に変換
- both
  - forward と reverse-forward の結果の和集合
- multi-stage
  1. 10→9 の辞書を用いて 9→10 に変換
  2. 1 の結果を 9→10 の辞書を用いて 10→9 に変換
  3. 2 の結果を 10→9 の辞書を用いて 9→10 に変換

`icd` パッケージ

現在 CRAN に収載されておらず、上記のパッケージで代替できる機能を使う理由は見当たらないが、ICD code から傷病名を付与する explain_code() は便利である。

インストール

CRAN にないため、GitHub からインストールする。

Code

remotes::install_github("jackwasey/icd")

# icd を初めて使う場合は以下を実行する
icd::set_icd_data_dir()

`explain_code()`

Code

library(icd)

df_icd10 <- tibble(icdcode = c("A00", "A000", "C63.0", "C64"))

df_icd10 |> 
  mutate(name = explain_code(icdcode))

まとめ

rOpenSci の coder はシンプルな関数群と、豊富なリファレンスがあることより一押し
comorbidity は、CCI 算出が目的であれば十分
icd は explain_code() が他のパッケージで代替できない関数となっている
GEMs を用いた iCD-9-CM → ICD-10-CM の変換には touch が便利

--- title: "ICD code を扱う R パッケージ " author: "nissinbo" date: "`r Sys.Date()`" format: html: toc: true toc-location: left df-print: paged code-fold: show code-tools: true theme: Minty --- ```{r setup, include=FALSE} knitr::opts_chunk$set(warning = FALSE) library(tidyverse) ``` ::: {.callout-note} ## 略語集 CCI: Charlson Comorbidity Index GEMs: General Equivalence Mappings ::: # この資料について医療情報 DB を用いた研究などでは、ICD code を使って疾患の特定を行うことが多い。ここでは、ICD code のハンドリングや疾患名の付与、CCI の算出といった作業に便利な R パッケージを紹介する。 ::: {.callout-tip} ## ICD code とは WHO から発出されている**疾病**の分類コードコードの検索は例えば[icd10data.com](https://www.icd10data.com/) が便利である。 ICD-9, ICD-10 といったバージョン違いの他に、米国では ICD-10-CM が用いられるなど、それらの差異には注意が必要である。 ::: 事前準備として tidyverse を読み込んでおく。 ```{r eval = FALSE} library(tidyverse) ``` # [`coder`](https://github.com/ropensci/coder) パッケージ [rOpenSci](https://ropensci.org/) プロジェクトに入っており、今後も開発が進んでいくことが期待される。 ICD code の他にも薬剤コードの一種である ATC code についても対応している。 ```{r} library(coder) ``` ## ICD code を含むサンプルデータサンプルデータとして `ex_people`, `ex_icd10`, `ex_atc` が準備されている。 ::: {.panel-tabset} ## ex_people ```{r echo=FALSE} ex_people ``` ## ex_icd10 ```{r echo=FALSE} ex_icd10 ``` ## ex_atc ```{r echo=FALSE} ex_atc ``` ::: ## `categorize()` `coder` パッケージには、データフレームを結合する `codify()`、併存疾患を抽出する `classify()`、CCI を算出する `index()` という関数があるが、基本的には `categorize()` で一気に行う。以下では[ドキュメント](https://docs.ropensci.org/coder/)を参考にしたサンプルコードを示す。 ```{r} categorize( x = ex_people, codedata = ex_icd10, cc = "charlson", id = "name", code = "icd10") ``` - `x` には重複のない患者 ID 列を含むデータフレームを指定する - `cc` に入るオプションは以下で確認できる ```{r} all_classcodes() ``` - `classcodes`: 算出するスコア - `console` に `?charlson` などと入力してドキュメントを見ると、出自の文献を確認できる - `console` に `elixhauser` などと入力して Classcodes object から対象疾患を確認できる - `regex`: 対応するコード(ICD-10 など) - `indices`: 重みづけの方法併存疾患を選択するための time window を指定したい場合は、以下のようにする。 ```{r} ch <- categorize( x = ex_people, codedata = ex_icd10, cc = "charlson", id = "name", code = "icd10", index = c("quan_original", "quan_updated"), # 同時に複数の重みづけで算出 codify_args = list( date = "surgery", # ex_people 中の指標日にあたる列 code_date = "admission", # ex_icd10 中の診断日にあたる列 days = c(-90, -1) # Time window を指定(この例では1-90日前) ) ) ch # Time window 中にレコードが 1 つも存在しない場合、スコアは NA となることに注意 # 分布の確認 ch |> mutate(across(starts_with("quan"), ~replace_na(., 0))) |> # NA を 0 に変換 pivot_longer(cols = c(quan_original, quan_updated), names_to = "weight_method", values_to = "score") |> ggplot() + aes(score, fill = weight_method) + geom_bar(position = "dodge", width = 0.5) ``` # [`comorbidity`](https://github.com/ellessenne/comorbidity) パッケージ - 頻繁にレポジトリが更新されており、2022年には CRAN で 1.0.0 がリリースされている。 ## 併存疾患の抽出、CCI の算出 `comorbidity()` で ICD code から併存疾患を抽出し、`score()` で CCI を算出する。以下に [vignette](https://cran.r-project.org/web/packages/comorbidity/vignettes/A-introduction.html) を改変したサンプルコードを示す。 ```{r} library(comorbidity) # サンプルデータ作成 set.seed(1) df <- data.frame( id = sample(seq(100), size = 10000, replace = TRUE), code = sample_diag(n = 100)) |> # generate ICD-10 code at random tibble() |> arrange(id, code) # CCI の疾患の集計 charlson_df <- df |> comorbidity(id = "id", code = "code", map = "charlson_icd10_quan", assign0 = FALSE) # CCI の計算 cci_df <- charlson_df |> mutate(id, original_cci = score(charlson_df, weights = "charlson", assign0 = FALSE), quan_cci = score(charlson_df, weights = "quan", assign0 = FALSE), .keep = "none") # Elixhauser Comorbidity Index: ECI の疾患の集計 elixhauser_df <- df |> comorbidity(id = "id", code = "code", map = "elixhauser_icd10_quan", assign0 = FALSE) # ECI の計算 eci_df <- elixhauser_df |> mutate(id, vanwalraven_eci = score(elixhauser_df, weights = "vw", assign0 = FALSE), sharma_eci = score(elixhauser_df, weights = "swiss", assign0 = FALSE), .keep = "none") ``` - CCI は2つの重みづけが利用可能 - [Charlson 1987](https://doi.org/10.1016/0021-9681(87)90171-8) - [Quan 2011](https://doi.org/10.1093/aje/kwq433) - Elixhauser Comorbidity Index は2つの重みづけが利用可能 - [van Walraven 2009](https://doi.org/10.1097/mlr.0b013e31819432e5) - [Sharma 2021](https://doi.org/10.1186/s12913-020-05999-5) # [`touch`](https://github.com/cran/touch) パッケージ ICD-9 と ICD-10 の相互変換を行うには、GEMs を用いる方法がある。R で実現するには `touch` パッケージが唯一の選択肢である。使用する際は [RDocumentation](https://www.rdocumentation.org/packages/touch/) がわかりやすい。 ## GEMs とは ### 概要 - CMS.gov が開発した ICD code 変換の対応表 - [2018年版](https://www.cms.gov/Medicare/Coding/ICD10/2018-ICD-10-CM-and-GEMs)が最終確定版 - [GEMs User’s Guide](https://ftp.cdc.gov/pub/health_statistics/nchs/publications/ICD10CM/2018/Dxgem_guide_2018.pdf) や [Documentation for Technical Users](https://ftp.cdc.gov/pub/health_statistics/nchs/publications/ICD10CM/2018/GemsTechDoc_2018.pdf) に変換規則が記載 ### GEMs の特徴 - コードの変換は 1:1 マッピング(50%)の他に 1:n, n:1, n:n マッピングや対応がないものもある - 9→10 (Forward) と 10→9 (Backward) の辞書は鏡像の関係ではない - [AHIMA](https://library.ahima.org/doc?oid=106975) がわかりやすい ### GEMs を用いた変換に対する批判 GEMs による ICD-9-CM → ICD-10-CM 変換には批判も多く存在するため、注意が必要 - [AHIMA GEMs](https://library.ahima.org/PB/GEMs#.Ylg36ujP200) - GEMs は単純な crosswalk: 横断歩道ではない - 1:n の時にすべての値を残すか、妥協点として無理やり 1:1 にするかは目的次第 - 見たい 9-CM が少なければ、GEMs を使う必要はなく、コードを直接検索するのが速く簡単で正確である - [Reeves 2020](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7059548/) - GEMsを単独で使用しても、包括的かつ正確には変換できない - 9-CM と 10-CM の比較可能性を確保するための確実な選択肢は、各コードの手動レビューである ### GEMs を用いた変換の精度を検証した論文 - [Turer 2015](https://academic.oup.com/jamia/article/22/2/417/697375) - 医療記録のプロが 598 の 9-CM を 10-CM に手動変換「GEMs と一致したのは85.2%」 - [Columbo 2018](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6501611/) - 心血管イベントのコードを医師が検証「GEMs は便利だけど、手動で検証する必要がある」 - [Simeone 2020](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC8120674) - 医師・コーダーが手動変換して検証「手動のほうが包括的である」 - [Mainor 2020](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6535377/) - 2015年の 9-CM と 10-CM の切り替え前後で、GEMs で翻訳されたコードの診断頻度が大きく変動していた（=疾患の増減とは考えづらく、変換が不完全であることの現れ） ## ICD-9 と ICD-10 の相互変換 `icd_map()` を使う。 ```{r} library(touch) icd9codes <- c("0011", "001.1", "316", "29383", "E9808", "V90") icd_map(icd9codes) ``` - `method` で 4 つの変換方法を指定可能 - gem - 9→10 の辞書を用いて 9→10 に変換 - 多くの論文ではこの方法 - reverse-gem - 10→9 の辞書を用いて 9→10 に変換 - both - forward と reverse-forward の結果の和集合 - multi-stage 1. 10→9 の辞書を用いて 9→10 に変換 2. 1 の結果を 9→10 の辞書を用いて 10→9 に変換 3. 2 の結果を 10→9 の辞書を用いて 9→10 に変換 # [`icd`](https://github.com/jackwasey/icd) パッケージ現在 CRAN に収載されておらず、上記のパッケージで代替できる機能を使う理由は見当たらないが、ICD code から傷病名を付与する `explain_code()` は便利である。 ## インストール CRAN にないため、GitHub からインストールする。 ```{r eval=FALSE} remotes::install_github("jackwasey/icd") # icd を初めて使う場合は以下を実行する icd::set_icd_data_dir() ``` ## `explain_code()` ```{r} library(icd) df_icd10 <- tibble(icdcode = c("A00", "A000", "C63.0", "C64")) df_icd10 |> mutate(name = explain_code(icdcode)) ``` # まとめ - rOpenSci の `coder` はシンプルな関数群と、豊富なリファレンスがあることより一押し - `comorbidity` は、CCI 算出が目的であれば十分 - `icd` は `explain_code()` が他のパッケージで代替できない関数となっている - GEMs を用いた iCD-9-CM → ICD-10-CM の変換には `touch` が便利

この資料について

coder パッケージ

ICD code を含むサンプルデータ

categorize()

comorbidity パッケージ

併存疾患の抽出、CCI の算出

touch パッケージ

GEMs とは

概要

GEMs の特徴

GEMs を用いた変換に対する批判

GEMs を用いた変換の精度を検証した論文

ICD-9 と ICD-10 の相互変換

icd パッケージ

インストール

explain_code()

まとめ

`coder` パッケージ

`categorize()`

`comorbidity` パッケージ

`touch` パッケージ

`icd` パッケージ

`explain_code()`