[산업일보]
빅테크 업체들의 NVIDIA 칩에 대한 수요는 2025년에도 강력하게 지속될 전망이나 방대한 워크로드로 비용 부담이 발생하는 연산에 있어서는 ASIC을 활용해 효율화를 추구해나갈 것이라는 전망이 제시됐다.
DS투자증권의 ‘ASIC 칩과 커스텀 HBM의 구조적 성장’ 보고서에 따르면, 애플은 자사의 AI 모델 훈련에 구글의 TPU와 AWS의 Trainium2를 사용하고 있다. ASIC 칩은 특정 작업에 특화된 설계가 가능하며, 범용 GPU 대비 전력 소비와 비용 측면에서 효율적이고, 실시간으로 AI 처리를 필요로 하는 엣지 디바이스에서의 AI 활용에도 필수적이라고 해당 보고서는 밝히고 있다.
생성형 AI 서비스는 일반 검색 엔진과 비교해 최대 30배 많은 전력을 필요로 하여 에너지 효율성이 필수 과제로 대두된다. 빅테크 업체들은 AI GPU의 과도한 전력 소모 및 높은 가격 등의 문제로 자체 칩 개발에 대한 투자를 지속해왔다는 것이 해당 보고서의 주장이다.
범용성을 목표로 하는 GPU와 달리 추론용 ASIC 칩은 불필요한 회로를 제거하고 추론 작업에서 가장 많이 사용되는 연산 단위만 포함해 효율성을 극대화하였다.
추론 작업은 모델이 이미 학습된 상태에서 고정된 가중치를 사용하여 입력 데이터를 처리하기 때문에 훈련보다 계산 패턴이 일정하다. 훈련 작업처럼 가중치를 반복적으로 업데이트할 필요가 없으므로 ASIC은 메모리와 연산 구조를 간소화해서 설계가 가능하다. 또한 특정 AI 프레임워크에 맞춘 설계가 가능하여 소프트웨어와 하드웨어 간의 밀접한 통합으로 성능을 극대화할 수 있다.
초기 AI 기술은 대규모 데이터셋을 학습하고 최적의 모델을 개발하는 훈련 과정에 주로 초점이 맞춰져 있었다. 그러나 생성형 AI 기술이 발달하면서 기업들은 점차 사전 학습된 LLM이나 이미지 생성 모델을 활용해 실제 서비스를 제공하는 데 주력해 추론 작업으로의 전환이 이뤄질 것이다.
생성형 AI 모델은 이제 실제 응용 단계(텍스트 생성, 이미지 생성, 추천 시스템 등)에서 사용자 요청에 빠르게 반응해야 한다. 이로 인해 데이터센터의 주요 작업은 복잡한 학습 알고리즘 실행에서 즉각적인 추론 결과를 제공하는 실시간 연산 작업으로 이동할 것이라 게 해당 보고서의 내용이다.
해당 보고서를 작성한 DS투자증권의 이수림 연구원은 보고서를 통해 “훈련에서 추론으로의 워크로드 이동은 데이터센터 운영 방식을 근본적으로 바꾸게 될 것”이라며 “훈련 작업은 대규모 배치(batch) 처리를 통해 긴 시간 동안 실행되지만, 추론은 낮은 지연 시간과 높은 처리량을 요구한다. 앞으로 데이터센터는 사용자 경험의 질을 좌우하는 실시간 AI 서비스의 성공 여부에 따라 성능과 효율성을 평가받게 될 것”이라고 전망했다.