백엔드 커리큘럼 심화: Outlier Detection과 Ejection으로 느린 인스턴스가 전체 p99를 오염시키지 않게 만드는 법
전체 평균은 멀쩡한데 일부 인스턴스가 p99와 재시도를 망가뜨리는 상황에서, outlier detection과 ejection을 어떤 숫자로 운영해야 하는지 실무 기준을 정리합니다.
전체 평균은 멀쩡한데 일부 인스턴스가 p99와 재시도를 망가뜨리는 상황에서, outlier detection과 ejection을 어떤 숫자로 운영해야 하는지 실무 기준을 정리합니다.
샤딩은 했는데 특정 키와 특정 테넌트만 계속 뜨거워지는 상황에서, skew를 어떻게 탐지하고 어떤 기준으로 salting, resharding, 캐시, 비동기화를 선택할지 실무 숫자로 정리합니다.
평균 응답시간이 아니라 p95, p99 지연을 깎아야 하는 구간에서 hedged request를 언제 쓰고 언제 피해야 하는지, 비용과 성공 조건을 숫자로 정리합니다.
클라이언트가 이미 포기한 요청을 백엔드가 계속 처리하는 낭비를 줄이기 위해, 홉별 deadline 배분과 취소 전파를 숫자 기준으로 설계하는 방법을 정리합니다.
평균이 아닌 P95/P99를 기준으로 시스템을 설계하고 운영하기 위해, 타임아웃 버짓 분배부터 큐 규율·헤지드 요청·관측 지표까지 실무 기준으로 정리합니다.