![/사진=게티이미지뱅크](https://thumb.mt.co.kr/06/2023/08/2023080213460769988_3.jpg/dims/optimize/)
2일 업계에 따르면 구글·MS(마이크로소프트)·메타(구 페이스북)·아마존·오픈AI 등 미국의 7개 빅테크 기업이 지난달 21일 생성형 AI(인공지능)가 만든 콘텐츠에 자발적으로 '워터마크'를 삽입하기로 했다. 미 국방성(펜타곤)이 공격받는 이미지 등 생성형 AI로 만든 가짜뉴스가 미 증시에 충격을 주는 사건까지 발생하며 정부의 규제 압박이 한층 강해지자 자발적으로 안전조치를 취하기로 한 것이다.
생성형 AI는 사람이 사용할 가능성이 높은 단어를 선택하고 문장을 작성한다. 방대한 학습 데이터를 통해 어떤 상황에서 어떤 단어가 어떤 확률로 사용됐는지를 알고 있기 때문이다. 예를 들어 미국의 테니스 선수 세리나 윌리엄스에 대한 문장을 작성할 때, LLM 학습 결과 사람들은 'Serena Williams,' 바로 다음에 21%의 확률로 'the', 16%의 확률로 'who', 6%의 확률로 'a'를 사용해왔다.
![메릴랜드대 연구진이 발표한 논문 'LLM을 위한 워터마크'. /자료=arxiv](https://thumb.mt.co.kr/06/2023/08/2023080213460769988_2.jpg/dims/optimize/)
이를테면 세상에 100개의 단어만 있다고 가정하고 이 중 절반인 50개를 특별단어로 분류하면 사람이 글을 쓰면서 특별단어를 사용할 확률은 약 50%가 된다. 사람과 같은 패턴을 학습한 생성형 AI도 똑같은 비율을 보일 것이다. 반면, 워터마크 조치를 통해 특별단어들에 가중치를 두면, AI가 쓴 글에서는 특별단어 사용 비율을 70%까지 끌어올릴 수 있다. 특별단어를 40개로 분류하면 사람이 쓴 글에 특별단어가 사용될 확률은 약 40%가 되고, 워터마크 조치를 한 AI가 쓴 글에서는 60~65%의 확률로 특별단어를 발견할 수 있게 된다.
뉴욕타임스는 어학사전처럼 인간이 사용할 수 있는 거의 모든 단어를 목록으로 만들고 그중 절반을 특별단어로 분류하면 이 '워터마크' 기술이 성공적으로 작동할 수 있다고 설명했다. 뉴욕타임스는 "만약 누군가 텍스트를 편집해 워터마크를 제거하려고 해도, 특별단어 목록이 길고 방대하기 때문에 어떤 단어를 바꿔야 할지 모를 것"이라며 "특별단어를 빼내는 데 성공한다 해도 아주 작은 비중만 줄일 수 있을 것"이라고 강조했다.
이 시각 인기 뉴스
한국 기업들도 생성형 AI가 만든 콘텐츠에 워터마크를 삽입하는 방안을 고민 중이다. 오는 8월 말 새 LLM 하이퍼클로바X를 선보이는 네이버(NAVER), 이미지 생성 모델 칼로를 운영하는 카카오, 엑사원 모델을 운영 중인 LG 모두 해당 문제에 대해 내부 논의 중이다.