IT기술· 6분 읽기
☁️

Cloudflare Workers AI + AI Gateway 활용법 — 레이트리밋 캐시 비용절감 실전 레시피

Cloudflare Workers AI와 AI Gateway 2026 실전 레시피. 모델 프록시, 레이트리밋, 응답 캐싱, 비용 모니터링, 로깅 패턴 정리.

Cloudflare Workers AI + AI Gateway 활용법 — 레이트리밋 캐시 비용절감 실전 레시피

Cloudflare AI Gateway는 OpenAI/Anthropic/Google 등 LLM 호출을 CF 엣지에서 프록시하면서 관찰·제어·비용절감을 한 번에 처리하는 도구입니다. 2026년 프로덕션 LLM 운영의 기본 인프라로 자리잡았습니다.

AI Gateway 핵심 기능

  1. 1통합 프록시: 여러 LLM 프로바이더를 하나의 엔드포인트로
  2. 2자동 캐싱: 동일 프롬프트 응답 캐시 → 토큰 비용 0
  3. 3레이트리밋: API 키당·유저당 요청 제한
  4. 4폴백: 모델 장애 시 자동 대체 모델로 재시도
  5. 5관찰성: 모든 호출 로그·레이턴시·비용 대시보드

기본 셋업 (Workers + AI Gateway)

ts
export default {
  async fetch(req: Request, env: Env) {
    const gatewayUrl = `https://gateway.ai.cloudflare.com/v1/${env.CF_ACCOUNT_ID}/my-gateway/openai/chat/completions`

    const res = await fetch(gatewayUrl, {
      method: "POST",
      headers: {
        "Authorization": `Bearer ${env.OPENAI_KEY}`,
        "Content-Type": "application/json",
      },
      body: JSON.stringify({
        model: "gpt-4o",
        messages: [{ role: "user", content: "Hello" }],
      }),
    })

    return res
  },
}

OpenAI SDK 그대로 쓰되 baseURL만 Gateway로 교체.

레시피 1: 비용 절감 캐싱

AI Gateway 대시보드에서 캐시 TTL 설정 (예: 1시간). 동일 프롬프트면 자동 캐시 응답 → 토큰 과금 0.

효과: FAQ·고정 응답 시나리오에서 70~90% 비용 절감.

주의: 개인화·시계열 의존 쿼리는 캐시 끄기 (헤더 cf-aig-skip-cache: true).

레시피 2: 레이트리밋

대시보드에서 규칙 추가:

  • 유저당 분당 10회
  • API 키당 시간당 1000회
  • IP당 초당 1회

무단 남용·크롤링 자동 차단.

레시피 3: 폴백 체인

ts
const fallback = {
  chain: [
    { provider: "openai", model: "gpt-4o" },
    { provider: "anthropic", model: "claude-3-5-sonnet" },
    { provider: "workers-ai", model: "@cf/meta/llama-3-8b-instruct" },
  ],
}

첫 번째 모델 실패·타임아웃 시 두 번째로 자동 재시도. SLA 유지.

레시피 4: Workers AI 무료 활용

CF 계정당 매일 10K 토큰 무료. 용도:

  • 검색 자동 완성
  • 짧은 요약 (100자 이내)
  • 임베딩 생성 (@cf/baai/bge-base-en-v1.5)
  • 이미지 생성 (@cf/bytedance/stable-diffusion-xl-lightning)

비용 민감 MVP는 Workers AI로 충분히 시작 가능.

레시피 5: 스트리밍 응답 + 엣지 로깅

ts
const res = await fetch(gatewayUrl, { ...options })
const reader = res.body.getReader()

// Gateway가 자동으로 토큰 수·레이턴시 로그. 추가 코드 불필요
return new Response(res.body, { headers: res.headers })

대시보드에서 스트리밍 응답도 전체 로그·분석 가능.

비용 모니터링

AI Gateway 대시보드에서:

  • 모델별 일/주/월 비용
  • 유저·엔드포인트별 Top Spender
  • 이상 사용 알림 (Webhook)

예산 상한 초과 예상 시 자동 알림.

마무리

LLM API 직접 호출은 운영 측면에서 블랙박스가 너무 많습니다. CF AI Gateway는 프록시 레이어 하나만 추가해서 관찰·캐싱·레이트리밋·폴백을 한 번에 얻을 수 있는 2026 프로덕션 LLM 운영의 필수 패턴입니다.

🔧 이 글과 관련된 무료 도구

이 글과 관련된 상품 (CloudflareWorkersAI)[광고/제휴]

이 포스팅은 쿠팡 파트너스, 아마존 어소시에이트, 알리익스프레스 제휴 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다. 이는 상품 가격에 영향을 주지 않습니다.
As an Amazon Associate, Coupang Partner, and AliExpress affiliate, I earn from qualifying purchases at no extra cost to you.

관련 글