5단계: 시스템 안정성 & 회복탄력성 (Resilience)
장애 전파 차단, 트래픽 제어, 고가용성 설계를 다루는 모듈
장애 전파 차단, 트래픽 제어, 고가용성 설계를 다루는 모듈
평균 응답시간이 아니라 p95, p99 지연을 깎아야 하는 구간에서 hedged request를 언제 쓰고 언제 피해야 하는지, 비용과 성공 조건을 숫자로 정리합니다.
클라이언트가 이미 포기한 요청을 백엔드가 계속 처리하는 낭비를 줄이기 위해, 홉별 deadline 배분과 취소 전파를 숫자 기준으로 설계하는 방법을 정리합니다.
단일 대형 플랫폼을 작은 셀(cell) 단위로 나눠 장애 전파를 줄이고 복구 속도를 높이기 위한 설계·운영 기준을 숫자 기반으로 정리합니다.
연쇄 장애를 차단하는 Circuit Breaker와 과부하를 방지하는 Token Bucket Rate Limiter를 구현한다.
트래픽 급증 시 시스템을 지키는 Admission Control과 동시성 제한 설계를 실무 기준으로 정리합니다. 큐 길이, p95 지연, 에러율 기반 의사결정 기준을 포함합니다.
동일 키 동시 요청이 몰릴 때 요청 병합으로 DB 부하와 P95 지연을 줄이는 설계/운영 기준을 정리합니다.
API Gateway 레이트 리밋, 애플리케이션 레벨 백프레셔, 큐/서킷 브레이커 연계 — 알고리즘 선택부터 Redis 분산 구현, Spring Cloud Gateway 설정까지
WebClient로 외부 API 호출 시 타임아웃/재시도/서킷 브레이커/백프레셔 설정 가이드
Chaos Engineering 원칙부터 Steady-State Hypothesis 설계, LitmusChaos·AWS FIS·Chaos Toolkit 실전 구현, GameDay 운영, 성숙도 모델까지 — 프로덕션 회복력 검증 완전 가이드