"의사보다 낫네"…챗 GPT에 소아과 진료 물었더니

머니투데이 박건희 기자 2024.09.10 17:06

글자크기

[3분 곰국] 영국 에든버러 왕립병원 연구팀, AI와 인간 수련의 대상으로 소아 호흡기 질환 진단 테스트…유럽 호흡기 학회서 결과 발표

편집자주 곰국과 논문의 공통점은 전문가들이 오랜 시간 공들여 내놓는 결과라는 점입니다. 누구나 간편하게 즐길 수 있도록 포장한 게 '3분 요리'라면, 누구나 쉽고 재미있게 읽을 수 있도록 정리한 게 '3분 곰국(거꾸로 읽어보세요)'입니다

영국 어든버러대 왕립 아동·청소년 병원 연구팀은 낭성 섬유증, 천식, 수면 호흡 장애 등 소아 호흡기 질환에 대해 AI와 인간 수련의가 각각 진단을 내리도록 했다. /사진=게티이미지뱅크

AI(인공지능)와 인간 수련의(인턴)에게 각각 소아과 주요 호흡기 질환을 진단하게 한 후 그 결과를 평가했더니 AI가 월등히 높은 성적을 얻었다.

영국 에든버러대 왕립 아동 및 청소년 병원 연구팀이 7일부터 11일까지 오스트리아에서 열리는 유럽 호흡기 학회(ERS)에서 이같은 연구 결과를 발표했다.

연구팀은 소아 호흡기 관련 전문의 6명이 선별한 낭성 섬유증, 천식, 수면 호흡 장애 등 소아 호흡기 질환에 대해 AI와 인간 수련의가 각각 병의 징후를 설명하고 질병을 판정하도록 했다. 이는 의학에서 일반적으로 '의사 진단'이라 부르는 행위로, 의사면허를 취득한 의사가 환자를 대상으로 수행하는 주요 역할이다.

연구팀은 진단 대상으로 선별된 질환에 대해 "어린이 환자에게 자주 발생하지만, 명백한 진단을 내리기 위한 전문가 합의나 지침은 아직 마련되지 않은 질환"이라고 설명했다.

진단 테스트에는 소아과 임상 경험이 4개월 미만인 수련의 10명이 참여했다. 테스트 시작 전 인터넷 검색은 허용됐지만, 챗봇은 활용할 수 없었다. 테스트는 200~400단어 내에서 질환에 대한 진단을 서술하는 방식으로 진행됐다. 같은 방식으로 오픈AI의 챗 GPT-3.5, 구글의 바드(Bard), 마이크로소프트의 빙(Bing)도 각각 답변을 작성했다.

이어 소아 호흡기 전문의 6명이 수련의 10명과 챗봇 3개가 제출한 답변을 평가했다. 평가자는 자신이 평가하는 답변을 누가 작성했는지 알지 못했다. 답변의 정확성, 진단의 일관성과 타당성 등이 점수를 매기는 기준이 됐다.

그 결과, 오픈AI의 '챗 GPT'가 선두를 차지했다. 챗 GPT의 진단은 정확성, 일관성, 타당성에서 좋은 평가를 받으며 9점 만점에 평균 7점을 얻었다. 구글의 '바드'는 평균 6점을 받았다. 진단의 일관성 측면에서는 수련의의 평균 답변보다 뛰어났지만, 타당성과 정확성 측면에서는 큰 차이가 없다는 평가를 받았다. 수련의 10명은 평균 4점을 받으며 마이크로소프트의 '빙'과 같은 점수를 기록, 가장 낮은 순위에 머물렀다.

이 시각 인기 뉴스

연구팀은 이어 평가자에게 각 답변이 누구에 의해 작성됐는지 추정하도록 했다. 평가자들은 바드와 빙이 제출한 답변에 대해선 "AI가 작성했다"며 확신했지만 챗 GPT가 쓴 글은 수련의와 구분하지 못한 것으로 나타났다.

연구를 이끈 만지스 나라야난 에든버러대 박사는 "이번 연구는 실제 임상을 경험한 수련의와 AI를 비교해 테스트한 최초의 연구"라며 "AI가 어떻게 의료 현장의 부담을 덜어줄 수 있을지 보여준다"고 밝혔다.

다만 "이번 결과는 AI가 환자를 직접 대면하는 환경에선 어떻게 작동하는지에 대해선 반영하지 않았다"며 "(AI가 의사의 역할을 대체하기보다는) 본 진단에 들어가기 전 환자의 증상을 일차적으로 검토해 분류하는 수련의나 간호사의 업무를 도울 수 있을 것"이라고 덧붙였다.

이 기사의 관련기사

네이버에서 MT추천기사 편하게 보기

다음 언론사 홈에서 머니투데이 구독

"의사보다 낫네"…챗 GPT에 소아과 진료 물었더니

[3분 곰국] 영국 에든버러 왕립병원 연구팀, AI와 인간 수련의 대상으로 소아 호흡기 질환 진단 테스트…유럽 호흡기 학회서 결과 발표

이 기사의 관련기사

실시간

많이본

연예·영상

이슈패키지