WoRV팀, 채용합니다!
(Open) ML Platform Engineer
직군 소개 - ML Platform Engineer
"Physical AI 연구의 탁월함을 뒷받침하는 ML 인프라를 주도적으로 설계하고 구축하는" 직군입니다.
WoRV(World model for Robotics and Vehicle control)팀의 ML Platform Engineer는 연구진이 알고리즘 개발에만 집중할 수 있도록 ML 파이프라인과 인프라 전반을 담당합니다. WoRV팀 최초의 전담 ML Platform Engineer로서, 현재 운영 중인 CORE 클러스터를 기반으로 연구 환경부터 Production 배포까지 전체 ML 생태계를 함께 만들어나갈 초기 핵심 멤버를 찾고 있습니다.
현재 ML Platform 팀에서는 다음과 같은 방향으로 인프라를 발전시켜나가고자 합니다.
- 연구효율적 ML Pipeline 구축
- 연구진의 빠른 실험과 반복을 지원하는 효율적인 학습 파이프라인 설계
- 대용량 멀티모달 데이터(Vision, Language, Action) 처리 및 관리 시스템 구축
- 실험 추적, 모델 버전 관리, 재현성 보장을 위한 MLOps 체계 확립
- Sim2Real Integration Pipeline
- 시뮬레이션 환경에서 학습된 모델을 실제 현장 로봇에 배포하는 파이프라인 구축
- 농업, 국방, 물류 현장의 다양한 환경에 대응하는 Cloud or Edge Computing 인프라 설계
- 현장 테스트 결과를 연구 개선에 활용하는 피드백 루프 시스템 구축
- Scalable Infrastructure Operations
- CORE 클러스터(DGX H100×12)의 효율적 운영 및 확장성 확보
- 연구팀 성장에 따른 자원 관리 및 스케줄링 시스템 고도화
- 모니터링, 알림, 장애 대응 등 안정적인 운영 체계 구축
전폭적인 인프라 지원
- 초고성능 GPU 클러스터: CORE(Compute-Oriented Research Environment) 보유 [CORE 소개]
- 연구용 On-premise DGX H100 12노드(H100x96), A100 30대 이상, V100 10대 이상 운용중
- SLURM 기반 워크로드 관리 시스템 + CephFS 분산 스토리지 인프라 구축 완료
- 200시간을 넘는 실환경 주행 데이터 + 지속적인 현장 데이터 수집 파이프라인 보유
- Physical AI 연구에 최적화된 개발 환경 제공
- Enroot + Pyxis 컨테이너 솔루션, Ansible 기반 인프라 관리 체계
핵심 업무
- ML Training & Inference Pipeline 설계
- 연구진의 요구사항을 분석하여 효율적인 학습 파이프라인 구축
- GPU 클러스터 자원 최적화 및 분산 학습 환경 구축
- 모델 서빙 및 실시간 추론 시스템 개발
- MLOps 체계 구축 및 운영
- 실험 관리, 모델 버전 관리, CI/CD 파이프라인 구축
- 데이터 파이프라인 자동화 및 품질 관리 시스템 구축
- 성능 모니터링 및 알림 시스템 구축
- Research-Production 연결 인프라
- 연구 결과를 실환경 로봇 시스템에 배포하는 파이프라인 구축
- Edge 환경에서의 모델 최적화 및 배포 시스템 개발
- 현장 테스트 결과 수집 및 분석 도구 개발
필수 역량
- 주도적 문제 해결 능력: 명확하게 정의되지 않은 업무 영역에서 스스로 우선순위를 설정하고 해결책을 제안할 수 있는 분