미디어젠-ETRI, RGB 3채널 이용한 컬러 음성 스펙트럼 개발

기존 음성 스펙트럼에 시각화를 위해 색상을 입혔으나 채널이 1개뿐이기 때문에 다양한 색을 표현하지 못하고 있다(제공:미디어젠)

미디어젠은 한국전자통신연구원(ETRI)의 연구 인력 현장 지원 프로그램을 통해 기존에 음성 스펙트럼 채널이 1개인 것을 보완해 RGB 3채널을 이용한 음성 스펙트럼을 개발했다고 21일 밝혔다.

미디어젠에 따르면 ETRI 연구 인력 현장 지원 프로그램을 통해 음성 발성 모델을 활용, 분석된 성도 필터 정보와 신호 정보를 채널화함으로써 RGB 구성 요소를 갖는 컬러 스펙트럼을 개발했다.

일반적으로 성도 필터 정보는 음소를 표현하기에 적합하며 배경 잡음에 상대적으로 강인한 특성이 있고, 신호 정보는 음성 정보뿐만 아니라 발성 개인의 특성을 잘 표현해주는 특성이 있다. 컬러 스펙트럼에서는 이런 정보를 분석한 뒤 특징화해 음성 인식 시스템을 학습할 때 이를 심층 학습망에 알려줌으로써 인공지능이 음성 인식에 필요한 특징 정보를 선택하도록 도움을 준다.

이를 증명하기 위해 수행된 텐서플로(Tensorflow) 기반 딥스피치2(DeepSpeech2) 음성 인식 시스템 실험에서 기존 로그 멜 스펙트럼 음성인식 시스템보다 20% 이상의 ERR 성능 향상이 나타나는 것을 확인했다.

한편 미디어젠은 E2E 시대를 맞아 눈부신 성능 향상을 이루며 인식 성능 면에서 정점에 오른 심층 학습망 기반의 음성 인식 시스템은 트랜스포머 알고리즘에 기반을 두고 있으며, 트랜스포머 알고리즘은 많은 양의 학습 데이터를 소화하며 그 성능을 향상해 왔다며, 그러나 초거대 용량의 학습 데이터 출현으로 그 성능 향상 정도는 어느 정도 포화 상태에 이른 상황으로, 음성 인식 성능을 높이기 위해 음성 인식 특징을 추출하는 새로운 방법을 모색하는 등 네트워크 아키텍처뿐만 아니라 다양한 기술 분야의 연구가 요구되고 있다고 설명했다.

현재 가장 널리 사용되는 음성 인식 특징은 ‘로그 멜 스펙트럼’이지만, 이 특징은 음성 신호의 다양한 생성 과정을 포함하지 못한다는 단점이 있다. 또 심층 학습망의 특성상 입력이 되는 특징이 다양한 음성의 특징적 요소를 각각 표현해줄 수 있어야 이를 바탕으로 더 지능적인 학습을 진행할 수 있다.

송민규 미디어젠 상무는 “ETRI 연구 인력 현장 지원 프로그램을 통해 개발된 컬러 스펙트럼은 음성 인식뿐만 아니라 TTS, 화자 분리, 감정 인식 등 음성 기반의 모든 분야 및 오디오 관련 응용 분야 등 활용 범위가 매우 넓다”며 “음성 인식 성능 향상의 경우, 이미지 처리를 위해 개발된 다양한 네트워크 아키텍처들을 채용해 더 다양하고 효율적인 음성 인식 시스템 구성이 가능할 것"이라고 말했다.

김영석 다른기사 보기