[우보세]챗GPT의 투자 내역이 빠뜨린 한 가지

머니투데이 김하늬 기자 2023.06.05 05:20
글자크기

편집자주 뉴스현장에는 희로애락이 있습니다. 그 가운데 기사로 쓰기에 쉽지 않은 것도 있고, 곰곰이 생각해봐야 할 일도 많습니다. '우리가 보는 세상'(우보세)은 머니투데이 시니어 기자들이 속보 기사에서 자칫 놓치기 쉬운 '뉴스 속의 뉴스' '뉴스 속의 스토리'를 전하는 코너입니다.

지난해 개발비용 5억4000만달러(7074억원), 운영비 70만달러(9억3000만원), 추가 투자예정금액 100억달러(12조 3000억 원). 올해 생성형 AI(인공지능) 신드롬의 주인공 챗GPT(ChatGPT)를 설명하는 숫자다.

"한 대에 3만달러(4200만원)에 달하는 엔비디아의 AI플랫폼 H100 시스템을 1만대 구입해 돌릴 수 있는 기업은 거의 없다"며 외신은 일제히 스타트업 자본이 챗GPT에 쏠리는 현상을 주목하고 있다. 시작은 기술이, 다음은 자본이 이끌 시장 선점 효과도 기대해볼 만 해서다.



그런데 계산서를 자세히 보면 빠진 게 있다. 생성형 AI의 완성도를 높이는 데 쓰인 콘텐츠 비용은 언급이 없다. 이미 미국 월스트리트 저널(WSJ)과 CNN 방송은 일찌감치 이 부분을 주목했다. 지난 2월 블룸버그통신에 따르면 WSJ은 기사를 무단으로 훈련에 사용한 정황을 확인했다며 소송 검토 입장을 밝혔다. CNN도 오픈AI가 네트워크 서비스 약관을 위반했다며 법적 문제를 논의할 것이라 전했다.

미 언론인 프란체스코 마르코니가 2월15일 자신의 트위터에 올린 챗GPT의 답변/사진=프란체스코 마르코니 트위터미 언론인 프란체스코 마르코니가 2월15일 자신의 트위터에 올린 챗GPT의 답변/사진=프란체스코 마르코니 트위터


'소송의 서막' 시작점은 아이러니하게도 챗GPT의 '자백'이었다. 미국의 한 언론인 프란체스코 마르코니가 챗GPT에 훈련 방식에 대한 질문을 입력한 결과, "언어 모델은 여러 종류의 뉴스, 논문, 그리고 출판물 등을 통해 훈련되고 있다"며 "나의 트레이닝 데이터는 로이터, 뉴욕타임즈, 가디언, BBC, 월스트리트저널, CNN, 알자지라, 워싱턴포스트..."라며 20여개 언론사 이름을 언급했다.



예견된 논란이라는 평가가 많다. 생성형 AI는 인터넷으로 다양한 정보를 긁어오는 '크롤링'의 방법으로 텍스트를 수집하고 학습한다. 언론사의 뉴스는 객관화된 정보 뿐 아니라 시대별 단어나 용례, 트렌드까지 체계적으로 수집할 수 있는 최적의 모델이다.

특히 최근 글로벌 대기업들이 줄줄이 챗GPT의 사내 사용 금지를 선언하면서 오픈AI는 인터넷의 '크롤링' 비중을 낮추기도 쉽지 않은 상황이다. 월스트리트저널(WSJ)에 따르면 애플, 버라이즌, 아마존 등 IT그룹 뿐 아니라 뱅크오브아메리카, JP모건체이스, 씨티뱅크, 골드만삭스 등 주요 금융 그룹이 사내에서 챗GPT를 사용하지 못하도록 공지했다. 사용자 데이터가 노출되는 걸 막기 위해서다.

경험치가 있다면 대응은 생각보다 어렵지 않을 수 있다. 우리 정부는 이미 수년 전부터 국가주도 AI 관련 지원사업에 온라인 콘텐츠 크롤링 비용을 항목에 넣어왔다. 스타트업이나 중소기업은 정부 지원으로 언론사뿐 아니라 이용자가 많은 인터넷 커뮤니티, 전자책, 포털 등 다양한 콘텐츠 생성·유통 플랫폼과 수년간의 텍스트를 제공받아 AI 훈련을 시킬 수 있었다.


화두를 던져볼 만한 '테이블'도 준비됐다. 오는 9일 샘 알트만 오픈AI 최고경영자(CEO)가 한국을 방문한다. 이 흐름을 어떻게 주도하느냐에 따라 생성형AI 플랫폼 개발을 서두르고 있는 네이버, 카카오도 국내 콘텐츠 활용에 필요한 정확한 '명세서'를 뽑아낼 수 있다.
TOP