그룹바이 로고
그룹바이 로고
휴멜로 로고
휴멜로
신규 기업
서울 강남구9AI ‧ 콘텐츠
휴멜로는 "목소리의 미래"를 만드는 음성 AI 기업입니다.
전문연구요원
시차출퇴근제
주 1회 재택근무
AI 개발 도구
학회 참가비
출장비 전액 지원

[R&D] AI Research Engineer, Conversational TTS

NEW
포지션인공지능 · 머신러닝
경력 구분경력 3~8년
특이사항부분 원격근무 가능

스킬

Pytorch
LLM

주요업무

DIVE의 차세대 대화형 TTS를 함께 설계·구현합니다. 멀티턴 대화 환경에서도 자연스럽게 동작하는 TTS로 확장하는 것이 다음 단계 목표이며, 이 과정에서 아키텍처·평가·데이터 전반의 의사결정에 주도적으로 참여합니다.


DIVE는 화자·운율·언어를 분리된 조건으로 다루는 모듈화 구조를 지향합니다. Kyutai Moshi, NVIDIA PersonaPlex 같은 full-duplex 계열과 Qwen-Omni, Step-Audio, MiniCPM-o 같은 S2S·omni-modal 계열은 대화 맥락 인지에서 강점을 보이지만, 일체형 end-to-end 구조에서는 화자·운율·감정 제어가 어려운 경우가 많습니다. 휴멜로는 DIVE가 가진 세밀한 제어 가능성을 유지하면서, 멀티턴 맥락 인지와 full-duplex·barge-in·turn-taking 같은 대화 상호작용까지 안정적으로 확보하는 방향을 탐색합니다.


또한 자체 Bandwidth Extension(BWE) 모델을 고도화합니다. DIVE는 임의 샘플레이트 음성을 48kHz 스튜디오급으로 복원하는 자체 BWE 모델을 보유하고 있으며, 현재 모델은 내부 벤치마크 기준 실시간 처리 요건을 충분히 만족하는 속도를 확보했습니다. 이번 과제에서는 이를 실시간 대화 스트리밍 흐름에 더 자연스럽게 결합되도록 점진 처리에 최적화된 구조로 재설계하고, 복원 품질을 한 단계 더 끌어올립니다.


연구 문제

1. 맥락 인지와 제어 가능성의 양립

* 멀티턴 대화 맥락을 반영하면서도 화자·운율·감정·언어 조건을 외부에서 제어할 수 있는 TTS 구조

* end-to-end S2S 모델의 맥락 인지 강점과 cascaded/modular TTS의 제어 가능성을 함께 가져가는 아키텍처

* 48kHz 스튜디오급 음질과 내부 벤치마크 기준 TTFB 300ms 이하의 실시간 스트리밍 수준 유지


2. 대화 상호작용을 위한 스트리밍 구조

* full-duplex, barge-in, turn-taking 환경에서 안정적으로 동작하는 TTS 디코딩 흐름

* VAD, turn-taking policy, streaming scheduler, tokenizer, vocoder가 함께 맞물리는 저지연 음성 대화 파이프라인

* Prosody Console·Tikita 실사용 트래픽 기반의 latency, quality, user feedback 검증


3. 자체 BWE 모델의 고도화와 스트리밍화

* 임의 샘플레이트 음성을 48kHz 스튜디오급으로 복원하는 자체 Bandwidth Extension 모델 개선

* 배치 모델 수준의 복원 품질과 실시간 대화 스트리밍에 적합한 점진 처리 구조의 양립

* BWE 품질 지표와 실제 제품 청취 품질 사이의 평가 루프 설계


구체 업무

* 멀티턴 맥락을 조건으로 입력받는 TTS 아키텍처 설계·구현

* Full-duplex·barge-in·turn-taking 안정성을 위한 스트리밍 디코딩, 음성 토크나이저·보코더, VAD/turn-taking policy, latency scheduling 구조 개선

* 자체 BWE 모델의 복원 품질 고도화와 스트리밍 흐름에 맞춘 구조 재설계

* Prosody Console·Tikita 트래픽 데이터와 자체 코퍼스를 활용한 학습·검증 파이프라인 설계

* 연구 결과를 Prosody Console·Tikita에 A/B 배포하고 TTFB·RTF·사용량·피드백 지표로 검증

* 연구 성과의 1저자 논문 투고 및 핵심 기법의 특허 출원

자격요건

* 음성합성(TTS)·음성인식(ASR)·대화 시스템·LLM 중 하나 이상에서 석사 이상 또는 박사과정 수준의 연구 경험

* 석사 학위자 기준 관련 연구·개발 경력 3년 내외 이상

* 박사 학위 소지자 또는 박사 졸업 예정자 연차 유연 검토

* PyTorch 등 딥러닝 프레임워크로 모델을 직접 설계·학습·추론해 본 경험

* 수백~수천 시간 규모의 음성 데이터를 학습에 활용해 본 경험, 또는 그에 준하는 데이터 정제·증강·평가 파이프라인 경험

* 딥러닝과 음성 신호처리의 기초 이해(STFT, mel-spectrogram, F0, prosody)

* 영어 논문을 독해·재현할 수 있는 역량과 1저자 논문 작성 의지

우대사항

핵심 연구 역량

* Full-duplex / conversational / streaming TTS 중 한 축 이상의 연구·구현 경험(barge-in, turn-taking 포함)

* LLM 기반 TTS 모델 이해·구현 경험(VALL-E, NaturalSpeech, XTTS, Bark, Spark-TTS, CosyVoice, F5-TTS 계열)

* Discrete audio codec / neural vocoder 구현 경험(HiFi-GAN, BigVGAN, Vocos, SoundStream, Encodec 등)

* Voice cloning, speaker adaptation, emotional·prosodic TTS 관련 경험

* Top-tier 1저자 논문 실적(Interspeech, ICASSP, TASLP, NeurIPS, ICML, ICLR, ACL, EMNLP 등)


제품화·최적화 역량

* 추론 최적화 경험(양자화 GGUF·GPTQ·AWQ·INT8, torch.compile, vLLM, llama.cpp 등)

* 대규모 음성 데이터셋 정제·필터링·평가 자동화 경험

* 오픈소스 기여 이력(PyTorch, HuggingFace, ESPnet 등)

* 관련 기술 특허 발명자 이력


도메인 이해

* 한국어 음운론 실무 경험(자·모음 체계, 분절음·초분절음, 운율)

* AICC·IVR·콜센터 도메인 이해

* B2C 음성 대화 제품 또는 캐릭터 음성 제품 경험

채용절차

1. 서류 전형 — 자유양식 국문 또는 영문 이력서, 논문·arXiv·GitHub·포트폴리오 등 보완 자료 제출 환영

2. 1차 실무진 인터뷰(60-90분) — 연구 경험·접근 방식·프로젝트 히스토리 중심의 기술 인터뷰, 대면/온라인 선택 가능

3. 필요시 과제 전형 — 대화형·저지연 TTS 관련 주제

4. 2차 리더십 인터뷰(60분) — 경영진과 비전·문제 해결 방식·협업 방식 논의

5. 필요시 레퍼런스 체크 — 후보자 사전 동의 후 진행

6. 처우 협의

7. 최종 합격 및 온보딩


유의사항

* 역량과 경험에 따른 전형 축소·생략 또는 추가 인터뷰 가능

* 국가유공자 및 장애인 등 취업 보호 대상자 관련 법령에 따른 우대

* 지원 서류 허위 사실 확인 시 합격 취소 가능

* 제출 서류의 채용 검증 목적 이용 및 채용절차법 준수

근무지

서울특별시 강남구 테헤란로4길 38-4 (태양빌딩) 12층 (서울, 강남구)
그룹바이 로고
(주)그룹바이HR | 서울특별시 영등포구 영등포로 150 C동 908호대표 : 임진하 / 박상민사업자등록 : 333-88-02226유료직업소개업 등록번호 : 제 2005-3180270-14-5-00019호직업정보제공사업 신고번호 : J1200020230023문의 : hello_world@groupby.biz | 070-8018-7502 (평일 오전 10시 ~ 오후 6시)
instagramkakaotalkyoutube