일반의료 인공지능을 위한 기초 모델

소식

홈페이지홈페이지 / 소식 / 일반의료 인공지능을 위한 기초 모델

Jun 08, 2023

일반의료 인공지능을 위한 기초 모델

자연 616권, 페이지

Nature 616권, 259~265페이지(2023)이 기사 인용

92k 액세스

5 인용

638 알트메트릭

측정항목 세부정보

매우 유연하고 재사용이 가능한 인공 지능(AI) 모델의 매우 빠른 개발은 의학 분야에서 새로운 기능을 가져올 가능성이 높습니다. 우리는 GMAI(Generalist Medical AI)라고 부르는 의료 AI의 새로운 패러다임을 제안합니다. GMAI 모델은 작업별 레이블이 지정된 데이터를 거의 또는 전혀 사용하지 않고 다양한 작업 세트를 수행할 수 있습니다. 크고 다양한 데이터 세트에 대한 자체 감독을 통해 구축된 GMAI는 영상, 전자 건강 기록, 실험실 결과, 유전체학, 그래프 또는 의료 텍스트의 데이터를 포함하여 다양한 의료 양식 조합을 유연하게 해석합니다. 모델은 자유 텍스트 설명, 음성 추천 또는 고급 의학적 추론 능력을 보여주는 이미지 주석과 같은 표현력 있는 출력을 생성합니다. 여기서 우리는 GMAI에 대한 영향력이 큰 잠재적 응용 프로그램 세트를 식별하고 이를 활성화하는 데 필요한 특정 기술 역량과 교육 데이터 세트를 배치합니다. 우리는 GMAI 지원 애플리케이션이 의학용 AI 장치를 규제 및 검증하기 위한 현재 전략에 도전하고 대규모 의료 데이터 세트 수집과 관련된 관행을 바꿀 것으로 기대합니다.

최신 세대의 AI 모델인 기초 모델은 대규모의 다양한 데이터 세트에서 훈련되며 수많은 다운스트림 작업에 적용될 수 있습니다1. 이제 개별 모델은 텍스트에 대한 질문에 답하는 것부터 이미지 설명 및 비디오 게임 플레이에 이르기까지 다양한 문제에 대해 최첨단 성능을 달성할 수 있습니다2,3,4. 이러한 다양성은 특정 작업을 한 번에 하나씩 해결하도록 설계된 이전 세대의 AI 모델과 완전히 다른 변화를 나타냅니다.

데이터세트 증가, 모델 크기 증가, 모델 아키텍처 발전에 힘입어 기초 모델은 이전에는 볼 수 없었던 기능을 제공합니다. 예를 들어, 2020년에 언어 모델 GPT-3은 텍스트 설명(또는 '프롬프트')을 통해 학습함으로써 모델이 명시적으로 학습한 적이 없는 완전히 새로운 작업을 수행하는 상황 내 학습이라는 새로운 기능을 잠금 해제했습니다. ) 몇 가지 예가 포함되어 있습니다5. 또한 최근의 많은 기초 모델은 다양한 데이터 양식의 조합을 받아들이고 출력할 수 있습니다4,6. 예를 들어, 최근 Gato 모델은 채팅, 이미지 캡션, 비디오 게임, 로봇 팔 제어 등을 수행할 수 있으므로 일반 에이전트로 설명됩니다2. 특정 기능은 가장 큰 모델에서만 나타나기 때문에 더 큰 모델에서도 무엇을 달성할 수 있을지 예측하는 것은 여전히 ​​어렵습니다7.

의료 기반 모델을 개발하려는 초기 노력이 있었지만8,9,10,11 대규모의 다양한 의료 데이터 세트에 접근하는 어려움, 의료 영역의 복잡성 및 최신 기술로 인해 이러한 변화는 아직 의료 AI에 널리 침투하지 못했습니다. 이 발전. 대신 의료용 AI 모델은 여전히 ​​모델 개발에 대한 작업별 접근 방식을 사용하여 개발됩니다. 예를 들어, 흉부 X선 해석 모델은 모든 이미지가 폐렴에 대한 양성 또는 음성으로 명시적으로 라벨이 지정된 데이터세트에서 훈련될 수 있으며, 이는 아마도 상당한 주석 작업이 필요할 수 있습니다. 이 모델은 폐렴만 감지할 뿐 포괄적인 방사선 보고서를 작성하는 완전한 진단 작업을 수행할 수 없습니다. 이러한 좁은 작업별 접근 방식은 훈련 데이터 세트와 해당 레이블에 의해 사전 정의된 작업을 수행하는 것으로 제한되는 유연하지 못한 모델을 생성합니다. 현재 실제로 이러한 모델은 일반적으로 다른 데이터 세트에 대한 재교육 없이는 다른 작업(또는 동일한 작업에 대한 다른 데이터 분포)에 적응할 수 없습니다. 식품의약국(FDA)의 승인을 받은 500개 이상의 임상 의학용 AI 모델 중 대부분은 1~2개의 좁은 작업에 대해서만 승인되었습니다12.

여기서는 기초 모델 연구의 최근 발전이 이러한 작업별 패러다임을 어떻게 혼란에 빠뜨릴 수 있는지 간략하게 설명합니다. 여기에는 명시적 레이블(예: 언어 모델링15 및 대조 학습16)을 없애는 다중 모달 아키텍처13 및 자기 지도 학습 기술14의 등장과 상황 내 학습 기능5의 출현이 포함됩니다.

. Recommended next steps: "./p>