Mar 07, 2023
임상 연구에서 기계 학습의 남용과 오용을 방지하기 위한 단계
자연의학 28권,
Nature Medicine 28권, 페이지 1996–1999(2022)이 기사 인용
28,000회 액세스
11 인용
291 알트메트릭
측정항목 세부정보
기계 학습 알고리즘은 의료 분야의 강력한 도구이지만 때로는 기존 통계 기법보다 더 나은 성능을 발휘하지 못하는 경우도 있습니다. 환자에게 진정한 이익을 제공하려면 알고리즘이 남용되거나 오용되지 않도록 조치를 취해야 합니다.
의료 분야의 많은 기계 학습(ML) 시스템의 성능 저하가 잘 문서화되어 있습니다1,2. 다른 분야와 마찬가지로 의료 분야에서도 AI 알고리즘은 편향된 데이터세트로 훈련할 때 성차별, 인종차별과 같은 인간의 편견을 영속시킬 수도 있습니다3.
임상 연구에서 인공지능(AI)과 ML의 급속한 수용과 그 영향력이 가속화됨에 따라 SPIRIT-AI, CONSORT-AI, 그리고 최근에는 DECIDE-AI와 같은 지침4,5이 제정되어 임상 연구에서 ML의 사용을 규제하고 있습니다. 임상 연구는 규제 공백을 메우는 데 도움이 되었습니다.
그러나 이러한 임상 연구 지침은 일반적으로 연구 연구에 ML 기술을 사용하기로 결정한 후 사후에 ML을 사용하는 것과 관련이 있습니다. 이 지침은 의료 환경에서 AI 또는 ML 기술의 필요성이나 적절성에 대한 질문을 제기하지 않습니다.
코로나19 팬데믹이 시작될 때, SARS-CoV-2를 탐지하기 위한 신뢰할 수 있는 현장 진단 분석법이 널리 채택되기 전, 매우 활발하게 진행된 연구 분야 중 하나는 감염 확률을 추정하기 위한 ML 알고리즘 개발과 관련이 있었습니다. 이러한 알고리즘은 흉부 방사선 사진과 같은 전자 건강 기록에 포착된 다양한 데이터 요소를 기반으로 예측합니다.
유망한 초기 검증 결과에도 불구하고, 흉부 엑스레이에 대해 훈련된 수많은 인공 신경망의 성공은 다른 병원 환경에 적용될 때 대부분 복제되지 않았습니다. 부분적으로는 모델이 코로나19의 실제 기본 병리학을 학습하거나 이해하지 못했기 때문입니다. 대신 그들은 측방성 마커, 환자 위치 또는 방사선 투영의 차이와 같은 이미지 획득의 생물학적으로 의미 없는 변화를 반영하는 지름길이나 가짜 연관성을 활용했습니다6. 이러한 ML 알고리즘은 설명할 수 없었고 최첨단인 것처럼 보이지만 RT-PCR과 같은 기존 진단 기술보다 열등하여 유용성이 사라졌습니다. 코로나19에 대해 200개 이상의 예측 모델이 개발되었으며 일부는 ML을 사용했지만 사실상 모두 보고가 부족하고 편향 위험이 높습니다7.
'과용'이라는 용어는 대안적이거나 신뢰할 수 있거나 우수한 방법론이 이미 존재하는 상황에서 AI 또는 고급 ML 기술을 불필요하게 채택하는 것을 의미합니다. 이러한 경우 AI 및 ML 기술의 사용이 반드시 부적절하거나 불건전한 것은 아니지만 그러한 연구의 정당성은 불분명하거나 인위적입니다. 예를 들어 의미 있는 새로운 답변을 제공하지 않는 새로운 기술이 제안될 수 있습니다.
많은 임상 연구에서는 AUC(곡선 아래 면적) 값이 0.80에서 0.90 사이, 또는 심지어 >0.90(상자 1)으로 표시되는 것처럼 훌륭하거나 인상적인 성능을 달성하기 위해 ML 기술을 사용했습니다. ML 모델이 과적합될 수 있으므로 높은 AUC가 반드시 품질을 의미하는 것은 아닙니다(그림 1). 전통적인 회귀 기법을 적용하고 ML 알고리즘과 비교할 때, 보다 정교한 ML 모델은 종종 미미한 정확도 이득만 제공하므로 모델 복잡성과 정확도 사이에 의문스러운 균형이 나타납니다1,2,8,9,10,11,12. AUC가 매우 높더라도 전체 이벤트 비율이 1% 미만인 0.99의 AUC가 가능하며 모든 부정적인 사례가 올바르게 예측되는 반면 소수의 긍정적인 이벤트는 그렇지 않았기 때문에 견고성이 보장되지 않습니다.
데이터 포인트(녹색 점)와 실제 효과(검은색 선)가 있는 데이터세트가 주어지면 통계 모델은 실제 효과를 추정하는 것을 목표로 합니다. 빨간색 선은 근접한 추정을 보여주는 반면, 파란색 선은 이상값에 지나치게 의존하는 과적합 ML 모델을 예시합니다. 이러한 모델은 이 특정 데이터 세트에 대해 탁월한 결과를 제공하는 것처럼 보이지만 다른(외부) 데이터 세트에서는 제대로 작동하지 않을 수 있습니다.