24일 IT(정보기술) 업계에 따르면 문화체육관광부는 생성형 AI에 학습시킨 저작물에 대한 추적·관리 기술을 2026년 완료 목표로 오는 4월 개발에 들어간다. 생성형 AI가 내놓은 결과물에서 학습 데이터를 추적할 수 있는 기술도 개발한다. 이를 위해 문체부는 지난 12일 과제 공모를 통한 사업자 선정에 나섰다.
문체부가 이같은 기술 개발에 나선 이유는 생성형 AI 학습 데이터 저작권 문제가 꾸준히 제기되고 있어서다. 생성형 AI는 주로 인터넷에 올라온 정보를 학습하는데 이 정보 자체에는 저작권이 있지만 생성형 AI가 해당 정보의 저작권까지 학습하진 않는다.
최수연 네이버 최고경영자(CEO)가 팀 네이버 콘퍼런스 단23에서 ‘생성형 AI 시대, 모두를 위한 기술 경쟁력’의 주제로 기조연설을 하고 있다./뉴스1
업계에 따르면 네이버가 국내 언론사들과 뉴스 기사 사용 계약을 쉽사리 맺지 못하는 것은 하이퍼클로바X가 뉴스 기사를 얼마나 학습하는지 명확히 알 수 없어서다. 생성형 AI가 내놓은 결과물에 뉴스 기사 기여도가 어느 정도 되는지 지금까지 나온 기술로는 판단이 불가능하다.
이 시각 인기 뉴스
한국신문협회는 네이버 등 AI 기업들이 국내 언론사와 라이선스 계약을 체결해야 한다는 입장이다. 최근 입장문을 통해 이같이 밝힌 협회는 "AI 기업은 정당한 라이선싱을 통해 고품질 콘텐츠를 안정적으로 공급받을 수 있다. 학습에 사용된 데이터 공개도 의무화할 필요가 있다"고 했다.
실제로 최근 글로벌 빅테크 기업들은 각국 언론사와 뉴스 기사 이용 제휴 계약을 맺고 있다. 외신에 따르면 챗GPT를 개발한 오픈AI는 AP통신, 악셀 스프링어와 저작권 관련 계약을 체결했고 CNN, 폭스, 타임 등 미국 언론사와도 계약을 추진 중이다. 구글은 뉴욕타임스와 3년간 1300억원 규모의 콘텐츠 제휴 계약을 체결했다.
네이버 관계자는 "뉴스 기사 무단 학습 논란이 일어 지난해 6월부터 뉴스 기사를 통한 AI 학습을 중단했다"며 "한국신문협회나 여러 현업 단체들의 의견을 청취하고 공식적으로 만나서 논의할 수 있는 자리를 마련하는 등 바람직한 방향으로 나아갈 수 있도록 노력할 계획"이라고 말했다.