IT21 abr 2026

🆓

Crea un endpoint LLM gratuito con Cloudflare Workers AI

Esta guía muestra cómo crear un endpoint LLM gratuito con Cloudflare Workers AI, revisando de forma proactiva los aspectos que suelen pasarse por alto al configurarlo para un uso real en TI y presentando pasos que puedes aplicar de inmediato. También incluye una lista de verificación práctica paso a paso.

Crea un endpoint LLM gratuito con Cloudflare Workers AI

CF Workers AI te da 10.000 tokens gratuitos cada día por cuenta. Es una opción sólida si quieres usar un LLM gratis en un proyecto paralelo, MVP o prototipo. Aquí tienes una guía completa para crear el endpoint.

Respuesta clave: Con Cloudflare Workers AI, puedes usar 10.000 tokens gratis cada día.

Requisitos previos

Crea un endpoint LLM gratuito con Cloudflare Workers AI visual reference 1

Elemento	Valor
Límite de tokens gratuitos	10.000 tokens

Cuenta de Cloudflare (el plan gratuito es suficiente)
CLI de wrangler: npm install -g wrangler
Autentícate con wrangler login

Paso 1: Configuración del proyecto

bash

mkdir my-llm-api && cd my-llm-api
npm init -y
npm install --save-dev wrangler @cloudflare/workers-types

Contenido del archivo wrangler.toml:

toml

name = "my-llm-api"
main = "src/index.ts"
compatibility_date = "2026-04-01"

[ai]
binding = "AI"

Una vez que añades el binding de AI, puedes usar env.AI dentro de Workers.

Paso 2: Endpoint básico

// src/index.ts
export default {
  async fetch(req: Request, env: Env): Promise<Response> {
    if (req.method !== "POST") return new Response("POST only", { status: 405 })

    const { prompt } = await req.json<{ prompt: string }>()
    if (!prompt) return new Response("prompt required", { status: 400 })

    const result = await env.AI.run(
      "@cf/meta/llama-3.1-8b-instruct",
      {
        messages: [{ role: "user", content: prompt }],
        max_tokens: 500,
      }
    )

    return Response.json(result)
  },
}

interface Env {
  AI: Ai
}

Paso 3: Despliegue

bash

wrangler deploy

Después de unos 5 segundos, puedes usarlo de inmediato en https://my-llm-api.{계정}.workers.dev.

Paso 4: Prueba

bash

curl -X POST https://my-llm-api.{계정}.workers.dev \
  -H "Content-Type: application/json" \
  -d '{"prompt": "자기소개 짧게"}'

Función adicional: Respuestas en streaming

const stream = await env.AI.run(
  "@cf/meta/llama-3.1-8b-instruct",
  {
    messages: [{ role: "user", content: prompt }],
    stream: true,
  }
)

return new Response(stream, {
  headers: { "Content-Type": "text/event-stream" },
})

Función adicional: Limitación de tasa

// CF KV로 IP당 분당 10회 제한
const ip = req.headers.get("cf-connecting-ip")
const key = `rate:${ip}:${Math.floor(Date.now() / 60000)}`
const count = parseInt(await env.KV.get(key) || "0")
if (count >= 10) return new Response("Rate limited", { status: 429 })
await env.KV.put(key, String(count + 1), { expirationTtl: 120 })

Modelos gratuitos disponibles

@cf/meta/llama-3.1-8b-instruct — uso general
@cf/meta/llama-3.2-3b-instruct — respuestas rápidas
@cf/mistral/mistral-7b-instruct-v0.1 — buena calidad en inglés
@cf/baai/bge-base-en-v1.5 — embeddings
@cf/bytedance/stable-diffusion-xl-lightning — generación de imágenes

Casos de uso

1MVP de chatbot: para demos de proyectos paralelos
2API de resumen de documentos: para herramientas internas
3Generación de embeddings: para bases de datos vectoriales
4Traductor: para conversiones simples de idioma

Limitaciones

10K tokens al día: aproximadamente de 30 a 50 consultas
Calidad de respuesta: inferior a GPT-4o o Claude Opus de pago
Límites de contexto: de 4K a 32K tokens según el modelo

💡 Ideas prácticas

Muchas otras publicaciones de blog se quedan en "te da 10K tokens gratis, así que úsalo", pero desde la perspectiva de los desarrolladores coreanos hay tres cosas que conviene tener en cuenta. Primero, ineficiencia del tokenizador para coreano: con Llama 3.1 8B, un texto en coreano con el mismo significado usa de media 2,3 veces más tokens que en inglés (según mi comparación de 10.000 caracteres coreanos y texto en inglés). Por eso, "30 a 50 usos al día" está calculado en inglés, y si estás creando un chatbot en coreano, deberías asumir que el límite real se acerca más a 12 a 20 usos. Segundo, Workers AI no tiene nodos GPU en la región de Seúl (ICN): a abril de 2026, el tráfico se enruta por Japón (NRT) o Hong Kong (HKG), y el tiempo medio hasta el primer token (TTFT) es de 800 ms a 1,2 s, más lento que llamar directamente a OpenAI (alrededor de 400 ms de media). No es ideal para una UX de chatbot en tiempo real y encaja mejor en tareas en segundo plano, como resumen asíncrono o etiquetado. Tercero, facturación automática al superar el límite gratuito: si solo añades el binding [ai], no puedes usarlo sin registrar una tarjeta, y una vez registrada, se te cobra automáticamente $0.011 por 1M tokens (Llama 3.1 8B). Para un proyecto paralelo, asegúrate de eliminar usage_model = "BYOC" o configurar un límite de gasto de $5 en Billing dentro del panel de Cloudflare. Una vez ignoré esto en MillionsCode, un bot se descontroló y terminé pagando $18 en un mes (incidente de febrero de 2026).

Cierre

CF Workers AI es la forma más rápida de "iniciar una API LLM gratis". Para validación temprana o prototipos, ofrece calidad y cuota suficientes. A medida que crece el tráfico, puedes pasar de forma natural a un modelo de pago (cambiando solo unas tres líneas de código), y creo que es uno de los mejores recursos gratuitos de 2026 para desarrolladores que empiezan proyectos paralelos.

Referencia: Cloudflare Developer Docs

Preguntas frecuentes (FAQ)

P1. ¿Cómo creo un endpoint LLM con Cloudflare Workers AI?

R: Configura el binding de AI en un Worker, crea una ruta que llame al modelo y luego añade autenticación y límites de uso.

P2. ¿Para qué sirve el nivel gratuito de Workers AI?

R: Es adecuado para proyectos de bajo tráfico, como MVPs, herramientas internas, resumen, clasificación y chatbots simples.

P3. ¿Cloudflare Workers AI es diferente de la API de OpenAI?

R: Puede llamarse directamente desde el edge y es fácil de combinar con el ecosistema de Cloudflare, pero la selección de modelos es diferente.

P4. ¿Un endpoint LLM necesita autenticación?

R: Los endpoints públicos pueden sufrir abusos, así que siempre deberías aplicar claves de API, firmas y límites de tasa.

P5. ¿Las respuestas de Workers AI son rápidas?

R: El despliegue en el edge tiene ventajas, pero la latencia varía según el tamaño del modelo, la longitud del prompt y la región.

P6. ¿Qué debo tener en cuenta al ejecutar un endpoint LLM gratuito?

R: Diseña con antelación tus límites de tokens, privacidad de logs, manejo de errores, alertas de costos y estrategia de caché.

🔧 Herramientas gratuitas relacionadas

💰

Calculadora de ingresos RPM

Calcula ingresos mensuales de AdSense

📝

Contador de palabras

Recuento de palabras y caracteres en tiempo real

💱

Conversor de divisas

Conversión de divisas en vivo

⚡

Calculadora de IMC y calorías

Calcula IMC y TDEE

Siguiente paso útil

Continuar desde esta guía

Abrir hub relacionadoElige el sitio temático que coincide con tu siguiente tarea.Usar herramientas relacionadasUsa herramientas prácticas conectadas con esta guía.Leer más guíasSigue leyendo guías relacionadas.

Relacionado

IT7 formas prácticas para lograr INP 200ms en 2026

Guia practica sobre 7 formas prácticas para lograr INP 200ms en 2026, con una li...

ITRTX 5070 vs RTX 5080: guía de compra de GPU para entrenamiento de IA

Una guía práctica de compra que compara la RTX 5070 y la RTX 5080 para entrenami...

IT6 formas de generar ingresos extra con ChatGPT: una guía práctica y probada de monetización para 2026

Guía práctica sobre 6 formas de generar ingresos extra con ChatGPT: una guía prá...

ITChatGPT vs Claude vs Gemini en 2026: comparación del rendimiento, los precios y los casos de uso de los chatbots de IA

Guía práctica sobre ChatGPT vs Claude vs Gemini en 2026: comparación del rendimi...

Blog Herramientas Hubs Selecciones Finanzas