미디어젠이 RGB(Red·Green·Blue)3 채널을 이용한 음성 스펙트럼을 개발했다는 소식에 강세다.
21일 오전 9시49분 현재 미디어젠은 전일 대비 1600원(11.73%) 오른 1만5240원에 거래되고 있다.

이날 미디어젠에 따르면 회사는 한국전자통신연구원(ETRI)의 연구 인력 현장 지원 프로그램을 통해 기존에 음성 스펙트럼 채널이 1개인 것을 보완해 RGB 3채널을 이용한 음성 스펙트럼을 개발했다. E2E(End to End) 시대를 맞아 인식 성능 면에서 정점에 오른 심층 학습망 기반의 음성 인식 시스템은 트랜스포머 알고리즘에 기반을 두고 있다.


현재 가장 널리 사용되는 음성 인식 특징은 '로그 멜 스펙트럼'이지만 이 특징은 음성 신호의 다양한 생성 과정을 포함하지 못한다는 단점이 있다. 또 심층 학습망의 특성상 입력이 되는 특징이 다양한 음성의 특징적 요소를 각각 표현해줄 수 있어야 이를 바탕으로 더 지능적인 학습을 진행할 수 있다.

미디어젠은 ETRI 연구 인력 현장 지원 프로그램을 통해 음성 발성 모델을 활용, 분석된 성도 필터 정보와 신호 정보를 채널화함으로써 RGB 구성 요소를 갖는 컬러 스펙트럼을 개발했다.

일반적으로 성도 필터 정보는 음소를 표현하기에 적합하다는 평가를 받고 있다. 이와 함께 배경 잡음에 상대적으로 강인한 특성이 있고 신호 정보는 음성 정보뿐만 아니라 발성 개인의 특성을 잘 표현해주는 특성이 있다.


컬러 스펙트럼에서는 이런 정보를 분석한 뒤 특징화해 음성 인식 시스템을 학습할 때 이를 심층 학습망에 알려줌으로써 인공지능이 음성 인식에 필요한 특징 정보를 선택하도록 도움을 준다.