과학기술정보통신부는 유회준 카이스트(KAIST ) PIM반도체연구센터·인공지능반도체대학원 교수 연구팀이 400㎽(밀리와트)의 초저전력을 소모하면서도 0.4초 만에 LLM(거대언어모델)을 처리할 수 있는 AI반도체 '상보형-트랜스포머'를 삼성전자 28나노(㎚·1㎚는 10억분의1m) 공정을 통해 세계 최초로 개발했다고 6일 밝혔다. 작은 AI반도체 칩 1개만으로 GPT 등 LLM을 구현할 수 있게 됐다.
연구팀은 인간 뇌의 신경세포(뉴런)와 연결(시냅스)을 모방해 설계한 컴퓨팅 시스템인 '뉴로모픽 컴퓨팅' 기술을 활용했다. 연구팀이 활용한 것은 뉴로모픽 컴퓨팅 기술 중에서도 'SNN'(스파이킹뉴럴네트워크)다. 실시간으로 복잡한 시계열 데이터를 분석하는데 적합한 정보처리 방식이다.
기존 뉴로모픽 컴퓨팅 기술은 이미지인식, 비디오분석 등 시각적 데이터 처리에 사용하는 딥러닝(심화학습) 모델인 'CNN'(합성곱신경망)보다 부정확하며 간단한 이미지 분류만 가능했다. 이번 논문의 제1저자인 김상엽 카이스트박사는 뉴로모픽 컴퓨팅 기술의 정확도를 CNN 수준으로 높이고 다양한 응용까지 가능한 'C-DNN'(상보형-심층신경망'(상보형-심층신경망) 기술을 지난 2월에 열린 국제고체회로설계학회(ISSCC)에서 처음 시연했다. 이번 연구는 이 기술을 LLM에 적용해 초저전력·고성능의 온디바이스 AI가 가능하다는 것을 입증했다.
연구팀은 뉴로모픽 네트워크 기반 AI가 문장생성·번역·요약 같은 고도의 언어처리를 성공적으로 수행할 수 있는지 확인했다. 이를 통해 GPT-2 거대모델의 7억800만개에 달하는 파라미터(매개변수)를 약 1억9100만개로 줄였다. 기존 4억200만개 파라미터를 사용한 번역용 T5(Text-to-Text Transfer Transformer)모델에선 파라미터 개수를 7600만개로 줄였다.
파라미터가 압축되면서 언어모델의 파라미터를 외부 메모리로부터 불러올 때 소모되는 전력은 약 70% 줄었다. 이는 엔비디아가 개발한 A100 대비 전력소모량을 625배 줄이면서도 0.4초 만에 GPT-2 모델을 활용한 언어생성이 가능한 정도다. 연구를 이끈 유회준 교수는 "이번 연구는 AI반도체의 전력소모 문제를 해소했을 뿐 아니라 GPT-2 같은 실제 LLM 응용을 성공적으로 구동했다는데 큰 의의가 있다"고 말했다.
[저작권자 @머니투데이, 무단전재 및 재배포 금지]