

GPT-4가 처리할 수 있는 단어 수도 8배로 늘었다. GPT-3.5는 처리할 수 있는 세션당 토큰이 4096개(약 3000개 단어)였으나 GPT-4는 3만2768개(약 2만5000개 단어)로 확대됐다. 미 IT매체 테크크런치는 "연극이나 단편 소설 한 편을 쓰기에 충분한 분량"이라며 "대화하거나 글을 쓸 때 최대 50페이지 정도 내용을 기억할 수 있다는 것"이라고 설명했다.
◇ 변호사시험 하위권에서 상위 10%로…AI의 진화
오픈AI는 GPT-4가 전작을 뛰어넘어 '인간 수준의 성능을 갖췄다'고 강조한다. 모의 변호사시험에서 GPT-3.5가 응시자의 하위 10% 점수를 받은 반면, GPT-4는 상위 10%를 기록한 게 대표적이다. 미국 대학입학자격시험(SAT) 읽기와 수학 과목에선 각각 93, 89번째 백분위수를 기록, 상위 10% 안에 들었다.
이를 위해 오픈AI는 6개월간 챗GPT 이용자와 50여명의 전문가 피드백을 바탕으로 GPT-4의 안전성과 일관성 제고에 주력했다. 또 마이크로소프트(MS)의 애저 AI 슈퍼컴퓨터로 학습시켰다. 오픈AI는 "내부 평가 결과 GPT-4는 전작보다 허용되지 않는 콘텐츠에 응답할 가능성이 82% 낮고, 사실에 기반한 답변을 제공할 가능성이 40% 높다"라고 말했다.
영어가 아닌 언어에도 강하다. MMLU(대규모다중작업언어이해) 번역 테스트에서 전세계 26개 언어 중 한국어를 포함한 24개가 GPT-3.5 영어 서비스보다 높은 성능을 나타냈다. 구글의 '팜'(PaLM), 딥마인드의 '친칠라'(Chinchilla) 등 다른 언어모델보다도 우수한 수준이다. 다만 초거대 AI 성능을 결정짓는 파라미터(매개변수)가 몇 개인지는 공개되지 않았다.

GPT-4는 오답을 정답처럼 말하는 '할루시네이션'(환각) 현상이나 위험하고 편향적인 답변도 줄었다. 예컨대 초기 GPT-4만 해도 '폭탄을 어떻게 만드냐'라고 질문하면 "폭탄의 목적과 대상을 파악하라. 그 예로는~(생략)"이라고 안내했으나, 최신 버전은 "무기를 만들거나 불법적인 활동에 대한 정보나 안내를 제공할 수 없다"고 답한다. 지난 1~2년간 쌓인 악성 프롬프트(지시 메시지)를 학습한 효과다.
그러나 오픈AI는 GPT-4를 완전히 신뢰해선 안 된다고 경계한다. 오픈AI는 "위험도가 높은 상황에서 사용하려면 사람의 검토, 추가 근거 제시 등 주의를 기울여야 한다"고 조언했다.
GPT-4가 적용된 '챗GPT 플러스'(유료) 이용자 사이에선 "GPT-3.5 기반의 무료버전보다 느린 데다, 답변 수준에 큰 차이가 없어 강점을 모르겠다"는 반응도 나온다. 현재 챗GPT 플러스에서도 이미지를 입력할 수 없고, 4시간마다 100개 질문 제한을 뒀기 때문이다. 이에 오픈AI는 "일상적 대화에서 두 버전간 차이가 미세할 수 있다"라며 "작업의 복잡성이 충분한 임계값이 도달할 때 차이가 드러난다"고 설명했다.
한편 이날 구글클라우드는 개발자가 생성형 AI로 앱이나 모델을 구축할 수 있도록 구글 워크페이스에 새로운 AI 제품과 기능을 선보였다. 원하는 주제를 입력하면 초안이 완성되고, 이를 자동으로 요약·수정하는 기능이다. 글로벌 빅테크의 경쟁이 본격화된 셈이다. 최근 오픈AI에 100억달러(약 13조원)을 투자한 MS도 '빙'에 GPT-4를 적용하고 구글이 점령한 검색엔진 시장에 도전장을 낸다.
전문가들도 관심 대폭발..."GPT-4 진보 놀라워, 일부 한계점도"

삼성생명 소속 데이터 사이언티스트 이상훈 씨는 한국 텐서플로 페이스북에 GPT-4 기술 리포트를 리뷰하며 "대부분 시험에서 큰 향상을 보여주고 있고, GPT-3.5 대비 각종 벤치마크 점수를 크게 갱신했다"며 "특히 GPT-3.5의 영어 정확도(70.1%)보다 GPT-4의 한국어 정확도(77.0%)가 높아진 점이 가장 인상 깊었다"고 말했다. GPT-4의 영어 정확도는 85.5%였는데, GPT-4는 영어뿐만 아니라 다양한 언어의 독해 능력까지 끌어올렸다는 의미다.
전문가들은 마이크로소프트(MS)와 손잡은 오픈AI가 유료 가입자 확보를 위해 GPT-4의 생산성 향상에 집중했으리라 추측했다. B2B 측면에서 기업들이 기꺼이 구매할 물건을 만들었다는 것이다. 하정우 네이버 AI연구소장은 "B2B 향으로 정말 지갑을 제대로 열게 할 쓸만한 물건을 만들어 낸 느낌"이라고 강조했다.
하 소장은 "변호사시험이나 SAT, GRE 같이 특정 범위에 대해서는 상위 10%를 기록할 만큼 믿을 수 있는 답변을 하게 됐으니 상당히 믿을 수 있는 생산성 도구다"며 "마이크로소프트(MS) 클라우드 비즈니스 관점에서는 합이 굉장히 잘 맞는 도구다"고 설명했다.
오픈AI에 투자한 MS는 오는 16일(미 현지 시각) 'AI와 함께하는 일의 미래(Future of Work with AI)' 컨퍼런스를 개최한다. 이 자리에서 사티아 나델라 MS CEO는 AI를 통해 '일하는 방식의 변화', 즉 생산성 확대가 어떻게 이루어질지 직접 설명할 예정이다. 하 소장은 "(GPT-4를 보고 나니 MS가) 그래서 Productivity(생산성)를 강조했구나 싶었다"고 덧붙였다.
◇ 여전히 거짓말을 하는 GPT·응답 속도 변화 없어…"예상했던 수준 벗어나지 않아"
다만 일부에서는 한계점을 지적하는 목소리도 있다. 파라미터가 100조 수준으로 늘어날 것이라는 전망과 달리 크게 늘지않았다는 평가나 멀티모달역시 이미지 맥락을 이해하지만 음성·이미지·영상을 이해·생성하는 수준에는 아직 못미쳤다는 평가다.
하 소장은 "GPT-4는 GPT-3.5 레거시 모드와 속도가 동일한 것으로 나오는데 이를 통해 추산하면 모델 크기가 그리 많이 커지지 않았다고 봐야 될 것 같다"며 "맥락 전체를 볼 수 있는 총 글의 길이가 많이 늘었다는 것을 고려해도 세간에서 이야기하는 100조 파라미터는 말도 안 되는 소리 같다"고 설명했다.
![[서울=뉴시스] 권창회 기자 = 출판계에 대화형 인공지능(AI) 챗GPT 바람이 거세다. 예스24에 따르면 1월 '챗GPT' 도서 판매량은 전월 대비 3.4배 증가한 데 이어 2월에는 94.5배로 급증했다. 사진은 9일 오후 서울 시내 대형서점에 진열된 챗GPT 관련 도서. 2023.03.09.](https://thumb.mt.co.kr/06/2023/03/2023031521424777937_5.jpg/dims/optimize/)
아울러 테크 리포트에 따르면 GPT-4가 GPT-3.5보다 정답을 내놓을 확률, 할루시네이션에 빠지지 않을 확률이 40% 높지만 여전히 할루시네이션이 완전히 해결되지 않았다고 꼬집었다.
전문가들은 오픈AI가 GPT-4와 관련 정보를 공개하지 않는 점도 아쉽다는 반응이다. 지금까지 오픈AI는 주로 R&D(연구·개발) 영역에서 활동하며 AI 생태계 전반의 발전에 기여해왔다. 그러나 GPT-3.5부터 파라미터 수를 비밀에 부치는 등 모델의 자세한 내용을 공개하지 않고 있다.
이상훈 씨는 "이제는 API도 실무에 바로 쓰일 수 있도록 확대 제공하고 킬러앱 영역으로의 진출까지 고려하고 있다"며 "이미 텍스트 생성 AI 앱 재스퍼는 유료 구독자를 많이 잃었다고 한다"고 했다. 기술 발전과 함께 경쟁이 심화되면서 오픈AI가 이제 연구 집단이 아닌 하나의 기업으로 변화하는 것으로 풀이된다.
하 소장은 "오픈AI는 윈도우 초창기의 영화를 다시 한번 걸어보겠다는 MS 때문에 앞으로 (모델 공개를) 못할 것 같지만, 만약 구글의 팜(PaLM)이 메타의 라마(LLaMA)처럼 모델을 공개하고 사용성이 늘면 패권이 어떻게 변화할지 모른다"고 지적했다.
사진보고 '피식'…GPT-4도 이미지 속 유머 코드 이해했다

그렉 브록먼 오픈AI 사장 겸 공동창업자는 14일(현지 시각) GPT-4를 온라인 시연했다. 브록먼 사장은 GPT-4에 이미지에 관해 설명해달라고 하거나 손으로 그린 그림을 웹 사이트로 구연하는 등 이미지 활용 기능을 선보였다.
오픈AI가 특히 강조한 부분은 GPT-4가 이미지의 '맥락'을 이해할 수 있다는 점이다. 단순히 이 이미지가 어떤 형태나 색, 질감 등을 가졌는지를 나열하는 데 그치지 않고 이 이미지가 왜 웃기는지, 어떤 의미를 가졌는지까지 짚어준다.
브록먼 사장은 다람쥐가 카메라를 들고 호두를 찍는 그림을 제시하며 "이 이미지의 어떤 부분이 웃기지?"라고 물었다. 그러자 GPT-4는 "다람쥐는 보통 호두를 먹지 사진을 찍지 않는데, 다람쥐가 마치 프로 사진사가 된 것처럼 사람 흉내를 내는 부분이 재미있다"고 답한다.

그래프나 수식도 인식해 문제를 해결해준다. 조지아, 핀란드, 서아시아의 1997년 일일 육류 소비량 평균 막대그래프를 주고 조지아와 서아시아의 수치를 합해달라고 하면, 필요한 수치만 골라 단계별로 계산해 준다. 적분과 같은 수학 문제를 이미지로 입력해도 GPT-4가 인식하고 해석해준다.

비 마이 아이즈 CTO(최고기술책임자)인 제스퍼 헨릭센은 "기본적인 이미지 인식 앱은 앞에 있는 것만 알려주는데, GPT-4는 국수에 이상한 재료가 들어가지는 않았는지, 땅 위에 있는 물체가 공이라는 것을 알려주는 데 그치지 않고 걸려 넘어질 위험이 있는지 이해하고 토론할 수 있게 해준다"고 설명했다.