[Product Reliability Unit]
제품 안정화 유닛(Product Reliability Unit)은 CupixWorks 서비스의 기술적 안정성을 책임지는 조직입니다. 우리는 전 세계 고객들이 사용하는 3D 디지털 트윈 플랫폼인 CupixWorks의 고객 사용 환경을 기준으로 실제 문제를 재현하고, 제품 및 개발 조직과 협력해 서비스 전반의 품질을 안정적으로 유지하고 언제나 신뢰성 있게 동작하도록 돕습니다.
현재 제품 안정화 유닛은 발생한 기술적 이슈를 분석하고 해결하는 것에 집중하면서 ‘통합 모니터링 시스템’을 구축하여 선제적 장애 대응 체계를 만들어나갈 계획입니다. 문제를 해결하는 것을 넘어 시스템을 통해 문제를 예방하는 과정에 함께 도전할 제품 안정화 엔지니어 (Product Reliability Engineer)를 찾습니다.
- 글로벌 서비스 내 기술 이슈 분석 및 해결
- 큐픽스의 Web/App 제품에서 발생하는 기술적 이슈를 재현하고 로그를 분석하여 원인을 파악합니다.
- 단순한 현상 재현을 넘어, 서버 로그(Log)와 DB 데이터를 쿼리(SQL)하여 근본 원인(Root Cause)을 기술적으로 규명합니다.
- 반복되는 운영 업무를 줄이기 위해 Python 등을 활용한 자동화 툴/스크립트를 제작하여 운영 효율을 높입니다.
- 통합 모니터링 시스템 설계 및 개발
- Datadog, Snowflake, Retool 등을 활용하여 서비스 상태를 직관적으로 파악할 수 있는 별도의 모니터링 대시보드 및 알림 시스템을 직접 구축합니다.
- 에러 로그 수집 파이프라인을 설계하고, 장애 징후를 사전에 탐지할 수 있는 스크립트/툴을 개발합니다.
- 수집된 데이터를 기반으로 핵심 비즈니스 지표(KPI)를 시각화 합니다.
- 데이터 기반 운영 프로세스 개선
- 장애 데이터를 정량적으로 분석하여 개발팀에 아키텍처 개선 아이디어를 제안합니다.
- 고객이 리포트하기 전 선제적으로 오류를 감지하고 복구하는 'Proactive Reliability' 프로세스를 엔지니어링 관점에서 구현합니다.