엑사원 4.5는 LG AI연구원이 2021년 12월 국내 최초 멀티모달 AI 모델 '엑사원 1.0'을 개발하며 축적한 기술력을 바탕으로 자체 개발한 비전 인코더와 거대언어모델(LLM)을 하나의 구조로 통합한 비전-언어 모델(VLM)이다. 독자 AI 파운데이션 모델 프로젝트에 개발 중인 'K-엑사원' 모달리티 확장을 위한 준비 단계이기도 하다.
엑사원 4.5는 계약서·기술 도면·재무제표·스캔 문서 등 산업 현장에서의 복합 문서를 정확하게 읽고 추론하는 능력에 강점이 있다. LG AI연구원은 엑사원 4.5 멀티모달 AI 모델의 시각 처리와 추론 성능을 평가하는 벤치마크 점수 결과를 공개하며 경쟁력을 입증했다.
엑사원 4.5는 STEM(과학·기술·공학·수학) 성능을 측정하는 5개 지표 평균 77.3점을 기록해 미국 오픈AI 지피티5-mini(73.5점), 앤트로픽 클로드 소넷 4.5(74.6점), 중국 알리바바 큐웬3 235B(77.0점)를 모두 앞섰다.
일반 시각 이해를 측정하는 3개 지표, 이미지와 텍스트가 결합된 인포그래픽을 비롯한 전문 문헌 속 복합 정보를 읽어내는 문서 이해 및 추론 성능 평가 지표 5개 등 13개 지표 평균 점수에서도 지피티5-mini와 클로드 소넷 4.5, 큐웬3-VL을 상회했다.
특히 코딩 성능 대표 지표인 라이브코드벤치 v6에서는 81.4점으로 구글의 최신 모델 젬마 4(80.0점)를 넘었으며 복잡한 차트를 분석하고 추론하는 능력을 평가하는 ChartQA 프로에서는 62.2점으로 동급 모델과의 비교에서 글로벌 경쟁력을 입증했다.
이날 LG AI연구원은 엑사원 4.5를 글로벌 오픈소스 플랫폼인 허깅페이스에 연구·학술·교육 목적으로 사용할 수 있도록 공개했다. LG는 이달 초 엑사원 경량화 모델 개발을 주제로 청년 AI 전문가 육성 프로그램 'LG 에이머스' 해커톤을 진행하며 엑사원을 교육 자원으로 활용한 바 있다.
향후 LG AI연구원은 오는 8월 프로젝트 2차수 종료 이후 3차수 진출이 확정되면 본격적으로 모달리티 확장에 나설 계획이며 궁극적으로 엑사원을 가상 환경을 넘어 물리적 세계를 이해하고 판단하는 피지컬 인텔리전스로 발전시킬 방침이다.
이진식 LG AI연구원 엑사원랩장은 "엑사원 4.5는 LG AI가 텍스트를 넘어 시각 정보까지 이해하는 멀티모달 시대로 진입했음을 보여주는 모델"이라며 "이번 모델을 시작으로 음성과 영상·물리 환경까지 AI의 이해 범위를 확장해 산업 현장에서 실질적으로 판단하고 행동하는 AI를 만들어가겠다"고 전했다.
<저작권자 © ‘존중받는 개인, 부강한 대한민국’ 시대, 무단전재 및 재배포 금지>