자율주행 로봇은 주변 환경을 인식하고 다양한 작업을 처리하기 위해 여러 개의 인공지능(AI) 인코더를 함께 사용해 왔다. 인코더는 로봇이 카메라, 라이다(LiDAR) 등의 센서를 통해 수집한 데이터를 AI 모델이 처리할 수 있는 형태로 변환하는 장치다.
디바인은 이때 필요한 여러 인코더들을 하나로 통합한 범용 인코더로 이미지 이해부터 공간 및 사람 인식까지 다양한 시각 AI 기능을 모두 지원할 수 있다.
기존에는 위치 추정, 깊이 계산, 공간 이해, 사람 인식 등 작업마다 각각의 AI 모델이 별도의 인코더를 활용해 동일한 입력 데이터를 여러 번 중복 처리해 메모리 사용량과 연산량이 과도하게 증가하는 문제점이 있었다.
네이버랩스 유럽은 각 전문 인코더가 학습한 정보 처리 능력의 핵심을 하나의 인코더에 통합하는 '다중 교사 증류(multi-teacher distillation)' 방식을 활용해 이 문제를 해결했다.
다중 교사 증류는 이미지, 공간, 사람 인식 등 각 분야에 특화된 전문가 교사 모델들로부터 핵심적인 지식만 추출해 하나의 학생 모델에 이식하는 방식이다.
또한 디바인은 하나의 인코더로 다양한 AI 작업을 처리할 수 있게 해 제한된 컴퓨팅 자원으로도 로봇이 주변 환경을 빠르게 인식할 수 있도록 돕는다.
기존의 로봇용 AI 모델은 방대한 연산량으로 인해 주로 서버 환경이나 고성능 컴퓨팅 장비에서 구동됐지만 디바인은 적은 메모리와 연산량으로도 이러한 AI 기능을 실행할 수 있어 온보드 환경에서의 활용성을 높인다.
새로운 AI 기능도 쉽게 추가할 수 있도록 설계돼 AI 모델이 업그레이드될 때마다 해당 모델이 적용된 새로운 로봇을 도입하지 않더라도 기존 로봇에 탑재된 디바인을 업데이트하면 성능을 손쉽게 끌어올릴 수 있다.
이동환 네이버랩스 비전그룹 리더는 "전세계적으로 피지컬 AI의 상용화를 위해 로봇 두뇌 경량화가 주요 화두로 떠오르고 있다"며 "디바인은 일상 및 산업 현장 전반에 걸쳐 AI 로봇 도입 장벽을 낮추는 데 기여할 것"이라고 말했다.
<저작권자 © ‘존중받는 개인, 부강한 대한민국’ 시대, 무단전재 및 재배포 금지>