수학, 잘 해야 반타작…'챗GPT' 중국판 수능 굴욕

머니투데이 김재현 전문위원 | 2024.06.21 13:03
생성형 인공지능(AI) 챗GPT가 대학수학능력시험(수능)을 본다면 몇 점을 받을까? 중국에서 올해 중국판 수능인 가오카오(高考)를 대상으로 AI의 점수를 테스트한 결과가 나왔다고 20일 중국 제일재경이 보도했다.

/로이터=뉴스1
상하이AI랩은 오픈AI의 챗GPT(GPT-4o)를 비롯한 7개 생성형 AI의 언어 모델을 대상으로 지난 7~8일 진행된 가오카오를 실시한 결과를 19일 발표했다. 주요 과목인 어문(중국어), 수학, 영어 세 과목을 테스트한 결과, 전반적으로 어문, 영어 성적은 양호했으나 수학은 모두 불합격으로 최고 점수가 75점(만점 150점)에 불과했다.

어문, 수학, 영어 세 과목의 만점은 420점이다. 테스트 결과를 보면 알리바바의 '퉁이 치엔원2-72B'가 총 303점으로 1등을 차지했으며 오픈AI의 'GPT-4o'가 296점으로 2등을 기록했다. 상하이AI랩의 '서생·포어 2.0'은 295.5점으로 3등을 차지했으며 위의 3개 언어 모델은 정답률이 70%를 돌파했다.

알리바바의 퉁이 치엔웬2-72B가 1등을 차지한 데는 124점을 받은 어문(중국어)의 영향이 컸다. GPT-4o는 어문에서 111.5점을 받는 데 그쳤다. 영어는 GTP-4o가 111.5점으로 최고 점수를 받으며 퉁이 치엔원2-72B(109점)을 앞섰다. 수학은 상하이AI랩의 서생·포어 2.0이 75점으로 최고 점수를 받았으며 GPT-4o은 73점으로 2등을 차지했다.

중국판 수능의 AI별 취득 점수/그래픽=윤선정
신문은 수학에서 생성형 AI의 언어 모델이 향상될 여지가 많다며 수학의 복잡한 추리능력이 AI가 직면한 난제라고 전했다.

상하이AI랩은 객관식·주관식 문제가 모두 포함된 가오카오 시험지는 가오카오 채점 경력이 있는 고등학교 교사가 채점했으며 채점자에게는 생성형 AI가 정답을 작성했다는 사실을 알리지 않고 일반 수험생과 동일한 조건에서 채점했다고 밝혔다.


교사들이 내놓은 생성형AI 언어 모델에 대한 각 과목 시험 평가도 재밌다.

어문에서 교사들은 생성형AI의 현대문 독해 능력이 전반적으로 우수하나 고문(문언문)은 모델별로 이해능력의 차이가 크다고 평가했다. 작문은 생성형AI가 마치 문답식처럼 썼으며 논점은 직설적이나 구체적 사례와 치밀한 논증 능력이 부족하다고 논평했다. 다수의 모델이 실체, 비유와 은유를 이해하지 못했고 암시적인 말도 완벽하게 이해하지 못했다.

수학에서는 상대적으로 주관식 문제에서 생성형AI가 정답을 맞히기 어려웠고, 풀이 과정이 틀렸지만 정답을 맞히는 경우도 있는 등 전반적으로 혼란스러웠다고 교사들은 설명했다.

영어는 전반적으로 좋은 성적을 거뒀지만, 작문에서는 글자 수 제한을 초과해서 감점되는 현상이 보편적으로 발생했다. 실제 수험생들이 글자 수가 모자라서 감점 받는 것과 정반대 현상이다.

베스트 클릭

  1. 1 [단독]허웅 전 여친, 이선균 공갈사건 피고인과 같은 업소 출신
  2. 2 "허웅이 낙태 강요…두 번째 임신은 강제적 성관계 때문" 전 여친 주장
  3. 3 '청담동 주식부자' 이희진 결혼 상대는?…걸그룹 '리브하이' 레아
  4. 4 "비싸도 살 수만 있다면" 15시간 줄 섰다…뉴욕 한복판에 수백명 우르르[뉴스속오늘]
  5. 5 '사생활 논란' 허웅 측, 故이선균 언급하더니 "사과드린다"