Cloudflare Workers AI + AI Gateway 활용법 — 레이트리밋 캐시 비용절감 실전 레시피
Cloudflare Workers AI와 AI Gateway 2026 실전 레시피. 모델 프록시, 레이트리밋, 응답 캐싱, 비용 모니터링, 로깅 패턴 정리.
Cloudflare Workers AI + AI Gateway 활용법 — 레이트리밋 캐시 비용절감 실전 레시피
Cloudflare AI Gateway는 OpenAI/Anthropic/Google 등 LLM 호출을 CF 엣지에서 프록시하면서 관찰·제어·비용절감을 한 번에 처리하는 도구입니다. 2026년 프로덕션 LLM 운영의 기본 인프라로 자리잡았습니다.
AI Gateway 핵심 기능
- 1통합 프록시: 여러 LLM 프로바이더를 하나의 엔드포인트로
- 2자동 캐싱: 동일 프롬프트 응답 캐시 → 토큰 비용 0
- 3레이트리밋: API 키당·유저당 요청 제한
- 4폴백: 모델 장애 시 자동 대체 모델로 재시도
- 5관찰성: 모든 호출 로그·레이턴시·비용 대시보드
기본 셋업 (Workers + AI Gateway)
export default {
async fetch(req: Request, env: Env) {
const gatewayUrl = `https://gateway.ai.cloudflare.com/v1/${env.CF_ACCOUNT_ID}/my-gateway/openai/chat/completions`
const res = await fetch(gatewayUrl, {
method: "POST",
headers: {
"Authorization": `Bearer ${env.OPENAI_KEY}`,
"Content-Type": "application/json",
},
body: JSON.stringify({
model: "gpt-4o",
messages: [{ role: "user", content: "Hello" }],
}),
})
return res
},
}OpenAI SDK 그대로 쓰되 baseURL만 Gateway로 교체.
레시피 1: 비용 절감 캐싱
AI Gateway 대시보드에서 캐시 TTL 설정 (예: 1시간). 동일 프롬프트면 자동 캐시 응답 → 토큰 과금 0.
효과: FAQ·고정 응답 시나리오에서 70~90% 비용 절감.
주의: 개인화·시계열 의존 쿼리는 캐시 끄기 (헤더 cf-aig-skip-cache: true).
레시피 2: 레이트리밋
대시보드에서 규칙 추가:
- 유저당 분당 10회
- API 키당 시간당 1000회
- IP당 초당 1회
무단 남용·크롤링 자동 차단.
레시피 3: 폴백 체인
const fallback = {
chain: [
{ provider: "openai", model: "gpt-4o" },
{ provider: "anthropic", model: "claude-3-5-sonnet" },
{ provider: "workers-ai", model: "@cf/meta/llama-3-8b-instruct" },
],
}첫 번째 모델 실패·타임아웃 시 두 번째로 자동 재시도. SLA 유지.
레시피 4: Workers AI 무료 활용
CF 계정당 매일 10K 토큰 무료. 용도:
- 검색 자동 완성
- 짧은 요약 (100자 이내)
- 임베딩 생성 (
@cf/baai/bge-base-en-v1.5) - 이미지 생성 (
@cf/bytedance/stable-diffusion-xl-lightning)
비용 민감 MVP는 Workers AI로 충분히 시작 가능.
레시피 5: 스트리밍 응답 + 엣지 로깅
const res = await fetch(gatewayUrl, { ...options })
const reader = res.body.getReader()
// Gateway가 자동으로 토큰 수·레이턴시 로그. 추가 코드 불필요
return new Response(res.body, { headers: res.headers })대시보드에서 스트리밍 응답도 전체 로그·분석 가능.
비용 모니터링
AI Gateway 대시보드에서:
- 모델별 일/주/월 비용
- 유저·엔드포인트별 Top Spender
- 이상 사용 알림 (Webhook)
예산 상한 초과 예상 시 자동 알림.
마무리
LLM API 직접 호출은 운영 측면에서 블랙박스가 너무 많습니다. CF AI Gateway는 프록시 레이어 하나만 추가해서 관찰·캐싱·레이트리밋·폴백을 한 번에 얻을 수 있는 2026 프로덕션 LLM 운영의 필수 패턴입니다.
🔧 이 글과 관련된 무료 도구
이 글과 관련된 상품 (CloudflareWorkersAI)[광고/제휴]
이 포스팅은 쿠팡 파트너스, 아마존 어소시에이트, 알리익스프레스 제휴 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다. 이는 상품 가격에 영향을 주지 않습니다.
As an Amazon Associate, Coupang Partner, and AliExpress affiliate, I earn from qualifying purchases at no extra cost to you.