27일 업계에 따르면 구글 리서치는 최근 AI 압축 알고리즘 터보퀀트를 발표했다. 대규모언어모델(LLM)의 임시 기억장치인 'KV 캐시'를 3비트 수준으로 압축해 메모리 사용량을 6배가량 줄이는 게 핵심이다.
계산 중간값 과정도 생략된다. 필요할 때만 다시 계산하는 형태라 메모리 사용량이 줄고 연산량은 늘어난다. 문제 역시 압축된 형태로 변환하기 때문에 같은 문제를 더 작은 수식으로 풀 수 있게 된다.
시장에서는 터보퀀트 기술이 상용화될 경우 메모리 수요가 현재의 6분의 1 수준이 될 거라는 해석이 나온다. 특히 기존 알고리즘 대비 더 적은 오류로 데이터를 압축하는 동시에 AI 처리 속도를 8배 이상 끌어올릴 수 있다. AI의 가장 큰 병목으로 지적됐던 메모리 이슈를 해소한 만큼 AI 대중화에 주효할 역할을 할 것으로 관측된다.
터보퀀트의 등장으로 AI 발전에 속도가 붙으면 메모리 시장에는 호재가 될 수 있다는 관측도 있다. 이영진 삼성증권 연구원은 "터보퀀트 알고리즘이 활용되면 추론 비용이 하락을 달성할 수 있지만 수요는 폭발할 것"이라며 "속도·퀄리티 하향 없이 장기 컨텍스트 윈도 및 대규모 배치의 활용이 가능하다"고 말했다.
AI 기술이 고도화되면서 메모리 수요 자체도 다변화될 수 있다. 고대역폭메모리(HBM)나 D램 이외에도 S램을 기반으로 한 추론용 AI칩 등의 메모리 수요가 늘어날 것으로 보인다. 이영진 연구원은 "터보퀀트로 추론 비용이 적어질 경우 장문맥 처리와 대규모 배치 활용이 가능해진다"며 "전체 추론 수요는 오히려 증가할 것"이라고 분석했다.
<저작권자 © ‘존중받는 개인, 부강한 대한민국’ 시대, 무단전재 및 재배포 금지>