연구팀이 개발한 스텔라트레인 프레임워크 모식도. GPU 활용률을 극대화하고 학습 시간을 단축하기 위해 CPU 기반 그래디언트를 최적화하는 한편 네트워크 상황에 따라 학습 내용의 크기를 실시간으로 조절하는 동적 최적화 기술을 적용했다. /사진=KAIST
KAIST(카이스트)는 한동수 전기및전자공학부 교수가 이끄는 연구팀이 미국 UC어바인대 연구팀과 함께 제한된 네트워크 환경에서도 AI 모델 학습 능력을 100배 이상 가속할 수 있는 기술을 개발했다고 19일 밝혔다.
AI 모델 학습을 위해선 엔비디아 H100 등 값비싼 고성능 서버용 GPU와 이들을 연결하기 위한 400Gbps(초당 기가비트)급 고속 네트워크를 갖춘 고가 인프라가 필요하다. 비용 문제는 IT 분야 중소기업 및 대학연구팀이 연구 인프라를 구축하는 데 가장 큰 걸림돌이라고 알려졌다.
저가 GPU를 사용할 때 AI 학습 속도가 느려지는 이유는 GPU의 메모리가 작고 네트워크 속도에 제한이 있기 때문이다. 연구팀은 CPU(중앙처리장치)와 GPU를 병렬로 활용해 학습 속도를 높였다. CPU와 GPU가 학습 내용을 작업 단계별로 나눠 병렬적으로 처리할 수 있도록 한 것. 또 GPU 간 데이터 전송량을 주변 네트워크 환경에 맞춰 유동적으로 줄이거나 늘릴 수 있도록 했다. 그 결과 고속 네트워크 없이도 여러 대 저가 GPU를 통한 빠른 학습이 가능해졌다.
연구를 이끈 한 교수는 "이번 연구는 대규모 AI 모델 학습에 누구나 쉽게 접근할 수 있도록 하는 데 크게 기여할 것"이라며 "앞으로도 저비용 환경에서도 대규모 AI 모델을 학습할 수 있는 기술을 계속 개발하겠다"고 밝혔다.
이번 연구는 지난 8월 호주 시드니에서 열린 'ACM SIGCOMM 2024'에서 발표됐다. 과학기술정보통신부 중견연구사업과 정보통신기획평가원(IITP) 정보통신·방송기술개발사업 및 표준개발지원사업, 차세대통신클라우드리더십구축사업, 삼성전자 (63,100원 ▼1,300 -2.02%)의 지원을 받았다.
이 시각 인기 뉴스
한동수 KAIST 전기및전자공학부 교수 /사진=KAIST