[공통]
- AI 및 AI 인프라 관련 다양한 기술 리서치 및 제품화
- 딥러닝 기술 트렌드에 맞는 인프라 기술 조사 및 적용
- MLOps 플랫폼 리서치 및 기술 반영
[AI For Infrastructure]
- AI 인프라 운영을 위한 LLM 서비스 개발
- 효율적인 워크로드 스케줄링 알고리즘 개발
- AI 서비스의 SLO(Service Level Objective)의 달성을 위한 인프라 구성 추천 모델 개발
[Infrastructure for AI]
- 자사 Kubernetes 기반 GPUaaS 플랫폼의 MLOps 기능 기획 및 구축
- GPU 효율성을 높이기 위한 시스템 소프트웨어 개발
- AI 워크로드의 성능 모니터링 및 프로파일링 서비스 개발
RA:X (Reference Architecture of TEN) Team
RAX 팀은 고객의 AI 개발 및 운영 목적에 알맞게 ‘AI 인프라의 구축(HW)’과 ‘효율적인 운영 도구(SW)’를 함께 지원함으로써, 기업의 ‘AI 전환(AI Transformation)’을 가속화하는 역할을 담당합니다.
이를 위해 RAX 팀은 두 가지 방향의 연구를 동시에 수행합니다.
- AI for Infrastructure: AI 인프라를 효율적으로 사용하기 위한 AI 기술을 개발
- Infrastructure for AI: AI 개발과 운영을 위한 AI 인프라 기술과 소프트웨어를 개발
RA:X의 목표는 이 두 영역 간의 선순환 구조를 만들어 지속적인 최적화가 가능한 AI 인프라를 구축하는 것입니다.
특히, TEN은 RAX팀의 연구를 뒷받침하기 위한 AI RA(Reference Architecture) 인프라를 보유하고 있습니다.
- GPU 서버: DGX-H100, DGX-A100 를 비롯한 다양한 티어의 GPU 서버
- 네트워크 장비: Infiniband(400G, 200G, 100G), Ethernet(400G, 100G)
- 스토리지: 다양한 벤더의 네트워크/분산 파일 시스템 스토리지
중요한 것은 AI RA가 인공지능 인프라 기술 R&D를 하기 위한 전용 장비라는 것입니다. 특히 하드웨어 벤더들이 신제품이 나오면 RAX팀에 성능 테스트를 의뢰할 만큼 국내에서는 유명한 인프라이며, 이를 바탕으로 최신 트렌드 연구가 활발히 이루어지고 있습니다.