김동훈 NHN클라우드 대표는 26일 서울 중구 더플라자 호텔에서 열린 간담회에서 차세대 AI 인프라 중심의 성장 전략을 소개하며 이같이 밝혔다. NHN클라우드가 이날 공개한 핵심 카드는 차세대 AI 풀스택 브랜드 '팩토리X'(FactoryX)다.
팩토리X는 ▲AI 워크로드에 최적화된 물리 '인프라' ▲GPU 자원 효율을 극대화하는 '플랫폼' ▲기업용 AI 에이전트를 실행하는 '서비스' 등 3가지 레이어가 하나의 흐름으로 연결된 통합 AI 실행 환경이다.
강민수 최고정보책임자(CIO)는 AI 인프라 구축 현장을 '물리적 전쟁터'로 표현하며 인프라 레이어의 경쟁력을 소개했다. 통상 GPU 인프라 구축에는 최소 52주 이상이 소요되지만 자사는 이 한계를 극복하고 즉시 공급 가능한 자원을 확보했다는 설명이다.
강 CIO는 팩토리X 인프라의 핵심 차별점으로 '수랭식 데이터센터를 통한 발열 관리'를 꼽았다. 엔비디아의 제품 발열이 호퍼(700W)에서 출시를 앞둔 루빈(1500W)까지 기하급수적으로 폭증하고 있기 때문이다.
회사는 수랭식 GPU 냉각 시스템을 통해 기존 공랭식 대비 GPU 연간 장애율을 1%대로 3배가량 낮추고 평균 무고장 시간 역시 약 2.6배 늘리며 안정성을 높였다.
팩토리X 인프라는 '서비스형 GPU(GPUaaS)'와 '구축형 AI 인프라' 두 축으로 성장한다. 강 CIO는 "산업, 기업 규모, 워크로드 특성 등 여러 요건을 고려해 기업의 다양한 니즈에 맞춰서 인프라를 설계하고 플랫폼을 하나의 패키지로 함께 제공할 것"이라고 했다.
━
AI 도입 기업 95%가 제자리걸음…'프로젝트X'로 돌파구 찾는다━
김 CTO는 "H100 1장당 유휴 상태가 지속될 때 시간당 2.1달러(약 3000원)가 낭비된다"며 "1000장 규모의 클러스터를 가동하는 고객이 GPU를 50%만 활용할 경우 연간 약 920만달러(약 140억원)의 재무적 손실이 발생하지만 대부분 인지하지 못한다"고 분석했다.
이를 해결하기 위해 NHN클라우드는 확보한 GPU를 최대한의 효율로 사용하는 GPU 통합 관리 플랫폼 'GPU 라이브'를 도입했다. GPU 라이브는 학습·추론 워크로드를 자동 분리하고 동적 자원 할당과 에너지 효율 기반 스케줄링을 통해 GPU 활용을 극대화하고 유휴 자원을 최소화한다.
김 CTO는 "GPU의 평균 이용률을 2배 이상 높였으며 동일 시간에 1.4배 많은 요청을 처리할 수 있다"며 "일부 환경에서는 처리량 증가와 콜드 스타트 지연 감소 효과도 확인되고 있다"고 강조했다.
여기에 컨테이너 기반 개발 플랫폼인 'AI 이지메이커'(AI EasyMaker)를 결합해 모델 학습부터 배포까지 원스톱으로 지원한다. 김 CTO는 "기업은 GPU 자원 관리의 복잡성과 운영 비용 부담을 줄이고 AI 개발과 서비스 운영에 보다 집중할 수 있는 환경을 확보하게 될 것"이라고 밝혔다.
안 대표는 AI 에이전트가 직원처럼 자율적으로 일하는 환경을 만들기 위해 사내 데이터 접근권을 주되 정보가 외부로 유출되지 않는 '보안'이 필수적이라고 강조했다.
이에 따라 회사는 AI 에이전트 실행 서비스 '프로젝트X'(Project X)를 공개했다. 올해 하반기 출시 예정인 '프로젝트X'는 비개발자도 자연어를 기반으로 기업 업무에 최적화된 맞춤형 AI 에이전트를 손쉽게 설계할 수 있는 솔루션이다. 기업이 데이터 통제권을 갖고 에이전트의 작업 범위를 관리할 수 있어 안전한 업무 자동화를 구현할 수 있는 것이 특징이다.
안 대표는 "프로젝트 X를 통해 기업이 보안과 통제를 유지하면서도 AI 에이전트의 자율성을 극대화할 수 있는 새로운 클라우드 표준을 제시하겠다"고 포부를 밝혔다.
<저작권자 © ‘존중받는 개인, 부강한 대한민국’ 시대, 무단전재 및 재배포 금지>