영국 어든버러대 왕립 아동·청소년 병원 연구팀은 낭성 섬유증, 천식, 수면 호흡 장애 등 소아 호흡기 질환에 대해 AI와 인간 수련의가 각각 진단을 내리도록 했다. /사진=게티이미지뱅크
영국 에든버러대 왕립 아동 및 청소년 병원 연구팀이 7일부터 11일까지 오스트리아에서 열리는 유럽 호흡기 학회(ERS)에서 이같은 연구 결과를 발표했다.
연구팀은 진단 대상으로 선별된 질환에 대해 "어린이 환자에게 자주 발생하지만, 명백한 진단을 내리기 위한 전문가 합의나 지침은 아직 마련되지 않은 질환"이라고 설명했다.
이어 소아 호흡기 전문의 6명이 수련의 10명과 챗봇 3개가 제출한 답변을 평가했다. 평가자는 자신이 평가하는 답변을 누가 작성했는지 알지 못했다. 답변의 정확성, 진단의 일관성과 타당성 등이 점수를 매기는 기준이 됐다.
그 결과, 오픈AI의 '챗 GPT'가 선두를 차지했다. 챗 GPT의 진단은 정확성, 일관성, 타당성에서 좋은 평가를 받으며 9점 만점에 평균 7점을 얻었다. 구글의 '바드'는 평균 6점을 받았다. 진단의 일관성 측면에서는 수련의의 평균 답변보다 뛰어났지만, 타당성과 정확성 측면에서는 큰 차이가 없다는 평가를 받았다. 수련의 10명은 평균 4점을 받으며 마이크로소프트의 '빙'과 같은 점수를 기록, 가장 낮은 순위에 머물렀다.
이 시각 인기 뉴스
연구팀은 이어 평가자에게 각 답변이 누구에 의해 작성됐는지 추정하도록 했다. 평가자들은 바드와 빙이 제출한 답변에 대해선 "AI가 작성했다"며 확신했지만 챗 GPT가 쓴 글은 수련의와 구분하지 못한 것으로 나타났다.
연구를 이끈 만지스 나라야난 에든버러대 박사는 "이번 연구는 실제 임상을 경험한 수련의와 AI를 비교해 테스트한 최초의 연구"라며 "AI가 어떻게 의료 현장의 부담을 덜어줄 수 있을지 보여준다"고 밝혔다.
다만 "이번 결과는 AI가 환자를 직접 대면하는 환경에선 어떻게 작동하는지에 대해선 반영하지 않았다"며 "(AI가 의사의 역할을 대체하기보다는) 본 진단에 들어가기 전 환자의 증상을 일차적으로 검토해 분류하는 수련의나 간호사의 업무를 도울 수 있을 것"이라고 덧붙였다.