AI/ML 엔지니어는 AI 음성 에이전트의 핵심 기술인 End-to-End 음성 파이프라인(STT-LLM-TTS)의 성능을 극대화하고, 서비스 가능한 형태로 구현하는 역할을 맡습니다. 인간과 자연스럽게 소통하는 AI 상담원 구현을 위해 높은 정확도, 자연스러운 음성, 그리고 무엇보다 사용자가 기다림을 느끼지 못하는 초저지연(Sub-second Latency)을 달성하는 데 집중합니다. 음성 인식, 음성 합성, 자연어 처리, 음성 신호 처리 등 다양한 AI/ML 기술을 활용하며, 모델 학습부터 최적화, 서빙 인프라 구축까지 폭넓은 경험을 쌓을 수 있습니다.
End-to-End AI 음성 파이프라인 구축 및 최적화:
- STT-LLM-TTS 등 AI 구성 요소들의 초저지연(End-to-End latency 0.5초 미만) 파이프라인을 설계하고 구현하여 실제 서비스에 적용합니다.
- 전체 파이프라인 및 각 구성 요소의 성능 병목을 찾아 최적화하고 확장성을 확보합니다.
핵심 음성/언어 모델 개발 및 고도화:
- 높은 정확도와 실시간 처리가 가능한 음성 인식(STT) 모델을 개발하고 파인튜닝/고도화합니다.
- 인간과 유사하고 감정 표현이 가능한 자연스러운 음성 합성(TTS) 모델을 개발하고 파인튜닝합니다.
- 대화 맥락 이해 및 복잡한 질의 처리를 위한 LLM을 통합하고 프롬프트를 최적화합니다.
- (필요 시) 적은 데이터로 신규 목소리를 정밀하게 복제하는 음성 클로닝 기술을 개발합니다.
모델 최적화 및 효율적인 서빙 시스템 구축:
- 병렬/분산 처리, 모델 경량화(Quantization, Pruning 등) 기술을 활용하여 LLM 및 기타 모델의 추론 성능을 극대화합니다.
- STT, LLM, TTS 등 모델을 실제 서비스 환경에서 안정적이고 효율적으로 서빙하기 위한 인프라(GPU 최적화 포함)를 구축하고 관리합니다.
- 백엔드 엔지니어와 긴밀히 협력하여 서비스 전반의 성능을 개선합니다.
음성 입/출력 품질 개선:
- 실시간 Background Noise 제거 및 음성 분리 기술을 고도화하여 입력 음성의 품질을 높입니다.
- 다양한 환경에서도 깨끗한 음성 포착 기술 및 오디오 품질 최적화를 위한 음성 신호 처리 기술을 개발합니다.