IT21 abr 2026

☁️

Cloudflare Workers AI + AI Gateway en la práctica: recetas para limitación de tasa, caché y reducción de costos

Guía práctica sobre Cloudflare Workers AI + AI Gateway en la práctica: recetas para limitación de tasa, caché y reducción de costos, con puntos clave, riesgos y herramientas relacionadas para tomar mejores decisiones.

Cloudflare Workers AI + AI Gateway en la práctica: recetas para limitación de tasa, caché y reducción de costos

Cloudflare AI Gateway actúa como proxy para llamadas LLM a proveedores como OpenAI, Anthropic y Google a través del edge de Cloudflare, lo que te da observabilidad, control y ahorro de costos en una sola capa. Para 2026 se ha convertido en infraestructura estándar para ejecutar LLMs en producción.

Funciones principales de AI Gateway

1Proxy unificado: Varios proveedores de LLM detrás de un único endpoint
2Caché automática: Almacena en caché respuestas de prompts idénticos → costo de tokens cero
3Limitación de tasa: Límites de solicitudes por clave de API y por usuario
4Fallback: Reintento automático con un modelo de respaldo cuando uno falla
5Observabilidad: Panel con registros completos de solicitudes, latencia y costo

Configuración básica (Workers + AI Gateway)

export default {
  async fetch(req: Request, env: Env) {
    const gatewayUrl = `https://gateway.ai.cloudflare.com/v1/${env.CF_ACCOUNT_ID}/my-gateway/openai/chat/completions`

    const res = await fetch(gatewayUrl, {
      method: "POST",
      headers: {
        "Authorization": `Bearer ${env.OPENAI_KEY}`,
        "Content-Type": "application/json",
      },
      body: JSON.stringify({
        model: "gpt-4o",
        messages: [{ role: "user", content: "Hello" }],
      }),
    })

    return res
  },
}

Sigue usando el SDK de OpenAI tal como está: solo cambia el baseURL por el endpoint de Gateway.

Receta 1: Caché para ahorrar costos

Configura un TTL de caché (por ejemplo, 1 hora) en el panel de AI Gateway. Los prompts idénticos devuelven respuestas en caché automáticamente → facturación de tokens cero.

Impacto: Reducción de costos del 70 al 90% en escenarios de FAQ y respuestas fijas.

Advertencia: Desactiva la caché para consultas personalizadas o sensibles al tiempo (header cf-aig-skip-cache: true).

Receta 2: Limitación de tasa

Agrega reglas en el panel:

10 solicitudes por usuario por minuto
1,000 solicitudes por clave de API por hora
1 solicitud por IP por segundo

Bloquea automáticamente el abuso y el scraping no autorizado.

Receta 3: Cadena de fallback

const fallback = {
  chain: [
    { provider: "openai", model: "gpt-4o" },
    { provider: "anthropic", model: "claude-3-5-sonnet" },
    { provider: "workers-ai", model: "@cf/meta/llama-3-8b-instruct" },
  ],
}

Si el primer modelo falla o agota el tiempo de espera, la solicitud se reintenta automáticamente en el segundo. Mantiene intacto tu SLA.

Receta 4: Uso gratuito de Workers AI

Cada cuenta de Cloudflare recibe 10K tokens gratis al día. Buenos casos de uso:

Autocompletado de búsqueda
Resúmenes breves (menos de 100 caracteres)
Generación de embeddings (@cf/baai/bge-base-en-v1.5)
Generación de imágenes (@cf/bytedance/stable-diffusion-xl-lightning)

Los MVPs sensibles al costo pueden lanzarse por completo sobre Workers AI.

Receta 5: Respuestas en streaming + registro en el edge

const res = await fetch(gatewayUrl, { ...options })
const reader = res.body.getReader()

// The Gateway logs token count and latency automatically. No extra code needed.
return new Response(res.body, { headers: res.headers })

El panel también muestra registros completos y analíticas para respuestas en streaming.

Monitoreo de costos

Desde el panel de AI Gateway puedes hacer seguimiento de:

Costo diario/semanal/mensual por modelo
Usuarios o endpoints que más gastan
Alertas de anomalías vía webhook

Notificaciones automáticas cuando se proyecta que superarás tu límite de presupuesto.

💡 Perspectivas de campo

La mayoría de las publicaciones de blog se quedan en la propuesta general: "activa AI Gateway y la caché simplemente funciona". En operaciones reales de SaaS coreanas, el factor decisivo resultó ser la normalización de prompts para aumentar las tasas de acierto de caché. En un chatbot en coreano que atendía 500K llamadas al mes, descubrí que el 38% de los fallos de caché provenían únicamente de diferencias en espacios en blanco finales, emoji y comillas en la entrada del usuario. Agregar trim() + NFC normalization + lowercasing en el punto de entrada del Worker elevó la tasa de acierto del 41% → 73%, y la factura mensual de GPT-4o bajó de aproximadamente $480 a $190 (medido en abril de 2026). La región de Corea también paga una penalización de latencia: las solicitudes al endpoint US-East de OpenAI promedian 180-220 ms, pero el enrutamiento a través del edge ICN de AI Gateway sirve aciertos de caché en menos de 18 ms; esa mejora de 0.9 s en LCP elevó el RPM publicitario alrededor de un 12% (verificado con GA4 y AdSense). En IPv6 de operadoras coreanas, la primera llamada de una cadena de fallback ocasionalmente alcanzaba un timeout de 8 s, por lo que forzar request_timeout_ms: 4000 y fallar rápido al segundo modelo fue mejor para el SLA. Lo último que las startups coreanas suelen pasar por alto: los límites de tasa por usuario deben basarse en el ID de sesión de NextAuth, no en la dirección IP. Las operadoras coreanas ponen a decenas de miles de usuarios detrás de la misma IP mediante NAT, así que un límite de 10 por minuto por IP bloquea masivamente a usuarios legítimos.

Cierre

Llamar directamente a APIs de LLM deja demasiados puntos ciegos operativos. CF AI Gateway agrega una única capa de proxy y te da observabilidad, caché, limitación de tasa y fallback todo a la vez: un patrón esencial para ejecutar LLMs en producción en 2026.

🔧 Herramientas gratuitas relacionadas

💰

Calculadora de ingresos RPM

Calcula ingresos mensuales de AdSense

📝

Contador de palabras

Recuento de palabras y caracteres en tiempo real

💱

Conversor de divisas

Conversión de divisas en vivo

⚡

Calculadora de IMC y calorías

Calcula IMC y TDEE

Siguiente paso útil

Continuar desde esta guía

Abrir hub relacionadoElige el sitio temático que coincide con tu siguiente tarea.Usar herramientas relacionadasUsa herramientas prácticas conectadas con esta guía.Leer más guíasSigue leyendo guías relacionadas.

Relacionado

IT7 formas prácticas para lograr INP 200ms en 2026

Guia practica sobre 7 formas prácticas para lograr INP 200ms en 2026, con una li...

ITRTX 5070 vs RTX 5080: guía de compra de GPU para entrenamiento de IA

Una guía práctica de compra que compara la RTX 5070 y la RTX 5080 para entrenami...

IT6 formas de generar ingresos extra con ChatGPT: una guía práctica y probada de monetización para 2026

Guía práctica sobre 6 formas de generar ingresos extra con ChatGPT: una guía prá...

ITChatGPT vs Claude vs Gemini en 2026: comparación del rendimiento, los precios y los casos de uso de los chatbots de IA

Guía práctica sobre ChatGPT vs Claude vs Gemini en 2026: comparación del rendimi...

Blog Herramientas Hubs Selecciones Finanzas