챗GPT 판별 위한 '워터마크'…텍스트에 어떻게 넣을까

머니투데이 배한님 기자 2023.08.02 20:00

글자크기

/사진=게티이미지뱅크

LLM(초거대 언어모델) 연구가 발전하면서 챗GPT 등 생성형 AI 작성 여부를 판별할 수 있는 '워터마크'를 텍스트 콘텐츠에도 적용할 수 있을 전망이다.

2일 업계에 따르면 구글·MS(마이크로소프트)·메타(구 페이스북)·아마존·오픈AI 등 미국의 7개 빅테크 기업이 지난달 21일 생성형 AI(인공지능)가 만든 콘텐츠에 자발적으로 '워터마크'를 삽입하기로 했다. 미 국방성(펜타곤)이 공격받는 이미지 등 생성형 AI로 만든 가짜뉴스가 미 증시에 충격을 주는 사건까지 발생하며 정부의 규제 압박이 한층 강해지자 자발적으로 안전조치를 취하기로 한 것이다.

오픈AI 등 기업들은 생성형 AI가 텍스트를 만들 때 특정 단어에 가중치를 주거나 문장에 패턴을 넣는 방식으로 워터마크를 삽입하는 방식을 개발 중이다. 해당 방법은 메릴랜드대의 톰 골드스타인 박사 등 연구진이 지난 2월 처음 발표한 논문을 통해 공개됐다. 메릴랜드대 연구진은 '특별단어 목록'을 만들고 사람이 사용할 가능성이 높은 단어보다 목록 내에 있는 단어를 더 많이 사용하도록 유도하면 된다고 설명한다.

생성형 AI는 사람이 사용할 가능성이 높은 단어를 선택하고 문장을 작성한다. 방대한 학습 데이터를 통해 어떤 상황에서 어떤 단어가 어떤 확률로 사용됐는지를 알고 있기 때문이다. 예를 들어 미국의 테니스 선수 세리나 윌리엄스에 대한 문장을 작성할 때, LLM 학습 결과 사람들은 'Serena Williams,' 바로 다음에 21%의 확률로 'the', 16%의 확률로 'who', 6%의 확률로 'a'를 사용해왔다.

메릴랜드대 연구진이 발표한 논문 'LLM을 위한 워터마크'. /자료=arxiv

메릴랜드대 연구진은 여기서 'who'를 특별단어 목록에 넣어 가중치를 주고, 학습결과와 달리 AI가 'the' 대신 who'를 선택하도록 유도하면 된다고 설명한다. 그리고 '가중치를 둔 특별단어의 사용 빈도'가 바로 '워터마크'가 되는 것이다. 인간이 자연스럽게 글을 쓸 때보다 더 높은 빈도로 특별단어가 사용됐다면 AI가 작성한 글이라고 분류할 수 있다는 의미다. 오픈AI의 정렬성(Alignment) 관련 책임연구원인 얀 라이케는 오픈AI가 고안 중인 워터마킹 방법이 메릴랜드대가 발표한 방법과 유사하다고 했다.

이를테면 세상에 100개의 단어만 있다고 가정하고 이 중 절반인 50개를 특별단어로 분류하면 사람이 글을 쓰면서 특별단어를 사용할 확률은 약 50%가 된다. 사람과 같은 패턴을 학습한 생성형 AI도 똑같은 비율을 보일 것이다. 반면, 워터마크 조치를 통해 특별단어들에 가중치를 두면, AI가 쓴 글에서는 특별단어 사용 비율을 70%까지 끌어올릴 수 있다. 특별단어를 40개로 분류하면 사람이 쓴 글에 특별단어가 사용될 확률은 약 40%가 되고, 워터마크 조치를 한 AI가 쓴 글에서는 60~65%의 확률로 특별단어를 발견할 수 있게 된다.

뉴욕타임스는 어학사전처럼 인간이 사용할 수 있는 거의 모든 단어를 목록으로 만들고 그중 절반을 특별단어로 분류하면 이 '워터마크' 기술이 성공적으로 작동할 수 있다고 설명했다. 뉴욕타임스는 "만약 누군가 텍스트를 편집해 워터마크를 제거하려고 해도, 특별단어 목록이 길고 방대하기 때문에 어떤 단어를 바꿔야 할지 모를 것"이라며 "특별단어를 빼내는 데 성공한다 해도 아주 작은 비중만 줄일 수 있을 것"이라고 강조했다.

이 시각 인기 뉴스

한국 기업들도 생성형 AI가 만든 콘텐츠에 워터마크를 삽입하는 방안을 고민 중이다. 오는 8월 말 새 LLM 하이퍼클로바X를 선보이는 네이버(NAVER), 이미지 생성 모델 칼로를 운영하는 카카오, 엑사원 모델을 운영 중인 LG 모두 해당 문제에 대해 내부 논의 중이다.

네이버에서 MT추천기사 편하게 보기

다음 언론사 홈에서 머니투데이 구독

챗GPT 판별 위한 '워터마크'…텍스트에 어떻게 넣을까

실시간

많이본

연예·영상

이슈패키지