/그래픽=PADO
/그래픽=The Economist, PADO
적잖은 위험 요소들이 사람들의 뇌리를 사로잡고 있다. 스타트업인 오픈AI가 개발한 챗봇 챗GPT 등 '대규모언어모델'(LLM)에 관심이 많이 쏠리고 있다. 이 모델들은 인터넷에서 텍스트 데이터를 대량 수집하고 학습해 인간 수준의 글쓰기와 다양한 주제에 관한 지적인 대화가 가능하다. AI거버넌스센터의 로버트 트래거는 이런 소프트웨어가 "다양한 작업을 용이하게 해서 그걸 할 수 있는 사람들이 더 많아지는" 리스크가 있다고 설명한다.
고성능 검색 엔진과 마찬가지로, 챗봇은 정보 수집과 이해에 도움을 준다. 이는 양날의 칼이 될 수 있다. 지난 4월 파키스탄 법원은 보석 허가 결정을 내리는 데 GPT-4를 활용했다. 판결문에는 GPT-4와의 대화 기록도 들어갔다. 카네기멜런대학의 연구진은 4월 11일 "이부프로펜 합성"과 같은 간단한 명령어를 입력하면 인터넷을 검색하고 전구체 화학 물질에서 진통제를 생산하는 방법을 출력하는 시스템을 설계했다고 아카이브에 게재한 논문 프리프린트를 통해 밝혔다. 그러나 그런 프로그램이 유익한 약물에만 사용되리란 법은 없다.
한편 더 큰 염려를 갖는 연구자도 있다. 위너의 글에 나왔던 '(과잉)일치 문제'(alignment problems)가 그중 하나로, 괴테의 마법 빗자루처럼 AI가 사용자 설정 목표에 몰두한 나머지 그 과정에서 의도치 않게 해를 끼칠 수 있다는 것. 이와 관련한 가장 대표적 사례로는 2003년 철학자 닉 보스트롬이 제시한 사고 실험인 '종이클립 생산 극대화'가 있다. AI에 종이 클립을 최대한 많이 생산하라는 지시를 내려 보는 것이다. '이디오 사방'인 AI는 지구를 종이클립 공장으로 덮어야 극대화를 이루는 방법이라 여기고 그 목표 달성 과정에서 인류를 멸종시키는 등 어떤 조치든 취할 수도 있다. 누군가는 더글러스 애덤스 소설에 나올 법한 이야기라고 치부할 수도 있다. 하지만 AI임팩츠의 여론조사가 보여주듯, AI 연구자들은 디지털 초지능의 행동에 대해 걱정하지 않는 건 안일하다고 생각한다.
어찌해야 할까? 좀 더 익숙한 문제부터 해결하는 편이 용이하다. 오픈AI는 최신 챗봇 버전 기술인 GPT-4를 출시하기 전, 사고와 오용의 위험을 줄이기 위해 여러 접근법을 사용했다. 그중 하나는 2017년에 발표된 한 논문에 실린 것으로 '인간피드백 기반 강화학습'(RLHF)이다. AI 모델이 명령어에 적절하게 반응하는지 인간에게 피드백을 요청하는 방식이다. 그런 다음 그 피드백을 바탕으로 모델을 업데이트한다. 향후 유사한 명령어가 표시될 경우, 유해한 콘텐츠를 줄이는 걸 목표로 한다. 이 방법의 한 가지 분명한 단점은 인간들 내에서 "적절한 것"이 무엇인지에 대해 종종 의견이 갈린다는 부분이다. 역설적으로 브레이크 역할을 위한 RLHF가 챗GPT와 같은 AI모델의 대화 능력 향상에 오히려 도움이 됐고 인공지능 경쟁을 가속화했다고 말하는 연구원도 있다.
그밖에도 워게임에서 차용한 '레드팀' 방식이 있다. 오픈AI가 비영리단체 ARC와 함께 여러 시험 단계를 거쳐 내놓은 접근법이다. 여기에서는 레드팀이 일부러 AI모델이 해서는 안 될 일을 유도하는 식으로 공격을 해, 현실에서 발생할 수 있는 문제를 예측한다.
(계속)
PADO 웹사이트에서 해당 기사의 전문을 읽을 수 있습니다. 국제시사·문예 매거진 PADO는 통찰과 깊이가 담긴 롱리드(long read) 스토리와 문예 작품으로 우리 사회의 창조적 기풍을 자극하고, 급변하는 세상의 조망을 돕는 작은 선물이 되고자 합니다.