공동 연구팀에 따르면 첫 번째 실험에서는 국어, 영어, 수학 영역의 정답률을 측정했으며, ChatGPT 4.0은 특히 국어와 수학에서 이전 버전에 비해 뚜렷한 성능 향상을 보이는 것을 확인할 수 있었다. 국어, 영역에서 3.5 버전은 34%의 정답률을 기록했지만, 4.0 버전은 48%로 기존 대비 약 41%의 성능 향상률을 보였다. 수학 영역에서는 3.5 버전이 27%의 정답률을 보여주었던 반면, 4.0 버전은 48%의 정답률을 달성하며 78%의 성능 향상률을 보였다.
두 번째 실험에서는 난이도가 높은 것으로 알려진 2024년 수능과 2023년 수능을 비교하여 수능의 난이도 변화를 분석했다. 국어, 영어, 수학 영역을 중심으로 ChatGPT 4.0의 결과를 확인한 결과 국어 영역은 6점 상승, 영어 영역은 9점 하락, 수학 영역은 5점 하락 등 2024년 수능에서는 국어 과목을 제외한 전반적인 과목의 문항이 어려워진 것으로 판단되며, ChatGPT 역시 정답을 찾아내는 데 어려움을 겪었다.
또한 ChatGPT 4.0의 오답 유형을 확인한 결과 문자의 순서 파악, 논리적 전개 파악 등에 어려움을 겪는 것으로 보였으며, 난이도가 높은 문제에서는 정답을 맞혔지만, 상대적으로 쉬운 문제에서도 이해를 하지 못해 오답을 내놓는 현상이 나타났다.
결론적으로 ChatGPT 4.0은 이전 버전인 3.5에 비해 뚜렷한 성능 향상을 보이며 최근 LLM 기술의 급격한 발전을 증명하고 있다. 또한 '불수능'이라 불릴 만큼 어려웠던 2024년 수능과의 비교를 통해 수능 응시자가 어려움을 겪는 부분이 ChatGPT에게도 어려움을 줬다는 것과, ChatGPT가 특별히 문제를 해결하는 데 어려움을 겪는 영역을 정량적으로 정의하고 평가할 수 있음을 보여줬다.
이러한 연구를 주도한 김시호 교수는 "이번 결과는 ChatGPT와 같은 생성형 인공지능 모델의 성능을 평가하고 객관적인 기준을 제시했다는 데 매우 큰 의의가 있으며, 향후 생성형 인공지능의 객관적인 성능 평가에 활용할 수 있는 평가 메트릭을 개발했다는 데 의미가 있다"며 "현재까지 사람의 주관적인 요소가 개입된 평가 지표(HumanEval)를 대체하고 정량적이고 객관적인 생성형 모델의 성능 평가가 가능하도록 하는 데 큰 기여를 할 수 있을 것으로 기대된다"고 말했다.
[저작권자 @머니투데이, 무단전재 및 재배포 금지]