Mar 08, 2023
임상의에게 기계 학습을 중요하게 만들기: 의학적 결정에서 모델 실행 가능성
npj 디지털 의학 볼륨
npj 디지털 의학 6권, 기사 번호: 7(2023) 이 기사 인용
4602 액세스
1 인용
23 알트메트릭
측정항목 세부정보
머신러닝(ML)은 환자 치료와 결과를 변화시킬 수 있는 잠재력을 가지고 있습니다. 그러나 실제로 ML 모델의 성능을 측정하는 것과 현장 진료에서의 유용성 사이에는 중요한 차이가 있습니다. 초기 개발 과정에서 모델을 평가하는 데 사용할 수 있는 렌즈 중 하나는 실행 가능성인데, 이는 현재 과소평가되어 있습니다. 우리는 교정 평가와 궁극적으로 결정 곡선 분석 및 순이익 계산 전에 사용하기 위한 실행 가능성 측정 기준을 제안합니다. 우리의 지표는 모델의 가능한 임상 영향을 식별하는 실용적인 도구의 수를 늘리기 위한 포괄적인 노력의 일부로 보아야 합니다.
의료계의 많은 미해결 문제에 머신러닝(ML)을 적용하는 데 엄청난 관심이 쏠리고 있습니다. 게시된 모델은 임상의의 인식을 강화하고, 진단 작업을 수행하고, 임상 관련 이벤트를 예측하고, 임상 의사 결정 프로세스를 안내할 수 있습니다1. 그러나 엄청난 약속과 투자에도 불구하고 이러한 모델을 관심 대상으로 옮기는 데는 상대적으로 제한적이었습니다2. 이러한 구현 실패는 실제 결과에 대해 모델 효율성을 평가하는 능력을 제한하므로 문제가 됩니다.
ML 도입이 부족한 이유는 다원적입니다3. 리소스 제약(예: 데이터 가용성 부족, 기술 인프라, 특정 치료 옵션 및 임상 챔피언) 외에도 ML 채택에 대한 중요한 장벽 중 하나는 현재 모델 성능을 평가하고 보고하는 데 사용되는 많은 지표(예: F1 점수, 수신기 작동 곡선 아래 영역, 교정, 차별 등)은 모델이 의학적 의사 결정을 어떻게 강화하는지 반영하지 않습니다4. 임상적으로 적용 가능한 것보다 전통적인 성능 측정 기준을 최적화하는 데 집착하는 것은 모델이 임상적 딜레마에 직면한 임상의에게 실행 가능한지 여부를 이해할 수 있는 기회를 놓치는 것입니다.
우리는 실행가능성을 임상의의 판단에만 비해 의학적 의사결정을 강화하는 능력을 반영하는 모델의 특성으로 봅니다. 모델의 임상적 유용성을 측정하는 가장 좋은 단일 지표는 순 이익5이며, 이는 결정과 질병의 확률 임계값 범위에 걸쳐 모델의 이익과 해로움 사이의 관계를 추정합니다. ML 또는 기타 예측 모델이 테스트/치료를 위한 다른 모델 또는 기타 전략(예: 모든 환자 테스트/치료)과 비교하여 실행될 경우 더 높은 유용성(즉, 순 이익)을 추정하는 결정 곡선을 구성할 수 있습니다. 주어진 모델이 대안에 비해 더 높은 순 이익을 갖는 경우, 차이의 크기에 관계없이 관련 임상 결정을 내리기 위해 모델을 사용하면 대안에 비해 임상 결과가 향상될 것입니다. 불행하게도 현재 순 이익은 활용도가 낮은 지표이므로 거의 모든 ML 모델에 대해 이를 보고해야 독자가 현장에서 잠재적인 유용성을 더 잘 이해할 수 있다고 생각합니다.
그러나 결정 곡선 분석은 모델 평가의 최종 단계에서 개선된 모델에 사용하기 위한 것입니다. 따라서 초기 모델 개발 중에는 일상적으로 사용되지 않습니다. 이 문서에서는 보정 평가, 최종적으로 결정 곡선 분석 및 순이익 계산에 앞서 개발 초기에 모델의 실행 가능성을 식별하는 데 도움이 될 수 있는 측정 기준을 제안합니다. 우리의 의도는 임상적 유용성을 위해 필요하지만(충분하지는 않음) 순 이익을 대체하기 때문에 전통적인 모델 성능 측정 기준을 대체하는 것이 아닙니다. 오히려 우리는 측정항목을 일부 모델이 모델 개발 초기에 통과해야 하는 임상 지향 필터로 간주합니다. 보다 광범위하게, 우리는 모델의 잠재적 임상 영향을 전체적으로 평가하는 데 사용할 수 있는 도구를 확장하려고 합니다.