#. GPT-4에 밀가루·계란·버터·우유를 찍은 사진을 주고 "이 재료들로 무엇을 만들 수 있어?"라고 질문하니 △팬케이크나 와플 △크레페 △프렌치토스트 △오믈렛 또는 프리타타 등을 열거하며 "이는 단지 몇 가지 사례로, 가능성은 끝이 없다"고 안내한다. GPT-3.5는 문자만 이해하는 언어모델(LLM)이었으나, GPT-4는 사진까지 입력할 수 있는 '멀티모달'로 진화했다.
신데렐라를 알파벳 A-Z로 시작하는 단어로 요약해달라고 한 모습./사진=오픈AI 캡처
테드 샌더스 오픈AI 개발자는 "GPT가 장난감에서 업무도구로 전환했다"(Truly turning from toy to tool)고 말했다.
변호사시험 하위권에서 상위 10%로…AI의 진화오픈AI는 GPT-4가 전작을 뛰어넘어 '인간 수준의 성능을 갖췄다'고 강조한다. 모의 변호사시험에서 GPT-3.5가 응시자의 하위 10% 점수를 받은 반면, GPT-4는 상위 10%를 기록한 게 대표적이다. 미국 대학입학자격시험(SAT) 읽기와 수학 과목에선 각각 93, 89번째 백분위수를 기록, 상위 10% 안에 들었다.
이 시각 인기 뉴스
이를 위해 오픈AI는 6개월간 챗GPT 이용자와 50여명의 전문가 피드백을 바탕으로 GPT-4의 안전성과 일관성 제고에 주력했다. 또 마이크로소프트(MS)의 애저 AI 슈퍼컴퓨터로 학습시켰다. 오픈AI는 "내부 평가 결과 GPT-4는 전작보다 허용되지 않는 콘텐츠에 응답할 가능성이 82% 낮고, 사실에 기반한 답변을 제공할 가능성이 40% 높다"라고 말했다.
영어가 아닌 언어에도 강하다. MMLU(대규모다중작업언어이해) 번역 테스트에서 전세계 26개 언어 중 한국어를 포함한 24개가 GPT-3.5 영어 서비스보다 높은 성능을 나타냈다. 구글의 '팜'(PaLM), 딥마인드의 '친칠라'(Chinchilla) 등 다른 언어모델보다도 우수한 수준이다. 다만 초거대 AI 성능을 결정짓는 파라미터(매개변수)가 몇 개인지는 공개되지 않았다.
MMLU 번역 테스트 결과. /사진=오픈AI
그러나 오픈AI는 GPT-4를 완전히 신뢰해선 안 된다고 경계한다. 오픈AI는 "위험도가 높은 상황에서 사용하려면 사람의 검토, 추가 근거 제시 등 주의를 기울여야 한다"고 조언했다.
GPT-4가 적용된 '챗GPT 플러스'(유료) 이용자 사이에선 "GPT-3.5 기반의 무료버전보다 느린 데다, 답변 수준에 큰 차이가 없어 강점을 모르겠다"는 반응도 나온다. 현재 챗GPT 플러스에서도 이미지를 입력할 수 없고, 4시간마다 100개 질문 제한을 뒀기 때문이다. 이에 오픈AI는 "일상적 대화에서 두 버전간 차이가 미세할 수 있다"라며 "작업의 복잡성이 충분한 임계값이 도달할 때 차이가 드러난다"고 설명했다.
한편 이날 구글클라우드는 개발자가 생성형 AI로 앱이나 모델을 구축할 수 있도록 구글 워크페이스에 새로운 AI 제품과 기능을 선보였다. 원하는 주제를 입력하면 초안이 완성되고, 이를 자동으로 요약·수정하는 기능이다. 글로벌 빅테크의 경쟁이 본격화된 셈이다. 최근 오픈AI에 100억달러(약 13조원)을 투자한 MS도 '빙'에 GPT-4를 적용하고 구글이 점령한 검색엔진 시장에 도전장을 낸다.