AI 챗봇 '챗GPT'에 '훈민정음에 대해 알려줘'라고 질문하니 황당한 대답이 돌아왔다. 훈민정음이 15세기인 1443년에 창제된 건 맞지만, 이를 만든 건 중국의 이황이 아니라 세종대왕이다. 우리에게 익숙한 퇴계 이황은 중국인도 아닐뿐더러 훈민정음 창제 후인 1501년에 태어났다. 또 다른 질문에선 챗GPT가 '훈민정음은 중국 고대 어휘'라고 설명한 것으로 나타났다.
생성 AI의 고질병인 '할루시네이션'(hallucination·환각)의 대표 사례다. AI가 오류가 있는 데이터를 학습해 잘못된 정보를 사실인 양 알려주는 것이다. 사실과 오류가 교묘히 섞여 쉽게 오답을 알아차리기도 쉽지 않다. 문제는 생성 AI가 교육·의료·금융·쇼핑·미디어 등 전 분야에서 활용되면서 각종 편견과 가짜뉴스를 담은 잘못된 정보가 확대 재생산될 수 있다는 점이다.
특히 데이터가 부족한 한국어 서비스에선 이런 오류가 더 빈번히 나타날 수 있다. 실제 챗GPT에 신사임당에 관해 묻자, '조선의 23번째 왕'이라거나, '남편이 이순신 장군'이라고 답하는 등 오답을 쏟아냈다. 또 신사임당의 아들이 율곡 이이가 아닌 퇴계 이황이라고 답하기도 했다. 반면 영어로 같은 질문을 했을 땐 정답을 말했다.
샘 알트먼 오픈AI CEO(최고경영책임자)는 "중요한 일을 챗GPT에 의존하는 것은 실수"라며 "우리는 견고성과 진실성에 대해 할 일이 많이 남았다"라고 경고한 건 유명한 일화다. 프라바카르 라그하반 구글 수석부사장도 바드의 할루시네이션 가능성을 인정하며 바드를 빠르게 상용화하지 않는 이유로 "분명히 긴급함을 느껴지면 큰 책임감도 느낀다"라며 "대중을 오도하고 싶지 않다"고 설명했다.
━
이 답변, 어디서 참고했니?…"출처공개로 투명성 높여야" ━
챗GPT가 참조·인용한 출처를 밝혀 투명성을 높이는 방안도 있다. 실제 네이버는 올 상반기 챗GPT와 같은 '서치GPT'를 선보이면서 최신 데이터를 출처와 제공키로 했다. 예컨대 챗GPT에 '서울 지하철 요금이 얼마야?'라고 문의하면 '카드(환승) 1450원, 카드(일반) 1750원, 현금(일반) 2000원'(현재 카드 1250원, 현금 1350원)이라는 엉터리 대답을 내놓는다. 어떻게 이런 답변이 나오게 됐는지도 불분명하다.
반면 네이버는 지하철 요금을 행정안전부 등 출처 및 기준일과 함께 공개할 전망이다. 최수연 네이버 대표는 "서치GPT를 네이버 검색 결과에 직접 적용시키는 보다는 기존 생성형 AI 단점을 해결하는 방법을 실험할 것"이라며 "이용자의 만족도나 데이터가 충분히 쌓이면 특히 정보성 검색에 대해서는 포털 검색 결과에 넣는 방안을 검토할 예정"이라고 말했다.
[저작권자 @머니투데이, 무단전재 및 재배포 금지]