Crear un endpoint LLM gratuito con Cloudflare Workers AI
USD/JPY分散は、為替急変局面で一方通貨の過大シェアを防ぎ、月次の再バランスと上限規則で感情的な一括投資を抑える実践設計です。
Crear un endpoint LLM gratuito con Cloudflare Workers AI CF Workers AI ofrece 10.000 tokens gratuitos al día, por cuenta. Es una alternativa muy práctica para ejecutar un LLM sin coste en proyectos paralelos, MVP y prototipos. En esta guía verás cómo montar un endpoint desde cero. ## Requisitos previos - Una cuenta de Cloudflare (sirve el plan gratuito)
- La CLI de wrangler:
npm install -g wrangler - Haber iniciado sesión con
wrangler login## Paso 1: Configuración del proyecto ```bash
mkdir my-llm-api && cd my-llm-api npm init -y npm install --save-dev wrangler @cloudflare/workers-types
name = "my-llm-api" main = "src/index.ts" compatibility_date = "2026-04-01" [ai] binding = "AI"
// src/index.ts
export default { async fetch(req: Request, env: Env): Promise<Response> { if (req.method!== "POST") return new Response("POST only", { status: 405 }) const { prompt } = await req.json<{ prompt: string }>() if (!prompt) return new Response("prompt required", { status: 400 }) const result = await env.AI.run( "@cf/meta/llama-3.1-8b-instruct", { messages: [{ role: "user", content: prompt }], max_tokens: 500, } ) return Response.json(result) },
} interface Env { AI: Ai
}wrangler deploy
curl -X POST https://my-llm-api.{account}.workers.dev \ -H "Content-Type: application/json" \ -d '{"prompt": "Introduce yourself briefly"}'const stream = await env.AI.run( "@cf/meta/llama-3.1-8b-instruct", { messages: [{ role: "user", content: prompt }], stream: true, } ) return new Response(stream, { headers: { "Content-Type": "text/event-stream" }, })
// Cap each IP at 10 requests per minute using CF KV
const ip = req.headers.get("cf-connecting-ip")
const key = `rate:${ip}:${Math.floor(Date.now() / 60000)}`
const count = parseInt(await env.KV.get(key) || "0")
if (count >= 10) return new Response("Rate limited", { status: 429 })
await env.KV.put(key, String(count + 1), { expirationTtl: 120 })@cf/meta/llama-3.2-3b-instruct— respuestas más rápidas@cf/mistral/mistral-7b-instruct-v0.1— muy buena calidad en inglés@cf/baai/bge-base-en-v1.5— embeddings@cf/bytedance/stable-diffusion-xl-lightning— generación de imágenes ## Casos de uso 1. MVP de chatbot: una demo para un proyecto paralelo
- 1API de resumen de documentos: herramientas internas
- 2Generación de embeddings: alimentar una base de datos vectorial
- 3Traducción: conversión sencilla entre idiomas ## Limitaciones - 10K tokens al día: alrededor de 30-50 consultas
- Calidad de respuesta: por debajo de GPT-4o o Claude Opus de pago
- Ventana de contexto: entre 4K y 32K tokens, según el modelo ## 💡 Observaciones del mundo real La mayoría de los blogs se quedan en el típico "10K tokens gratis, úsalo y listo". Pero, visto desde el día a día de un desarrollador, hay tres puntos más que conviene tener claros. Primero, el tokenizer es menos eficiente en idiomas distintos del inglés. Con Llama 3.1 8B, el mismo texto en coreano consume aproximadamente 2,3 veces más tokens que su equivalente en inglés (según una prueba comparativa que hice con 10.000 caracteres de contenido equivalente en coreano e inglés). Eso significa que la estimación de "30-50 consultas al día" encaja mejor con inglés; para un chatbot en coreano, la capacidad realista se queda más bien en 12-20 consultas. Segundo, Workers AI no tiene nodo GPU en la región de Seúl (ICN). A abril de 2026, las solicitudes se enrutan a Tokio (NRT) o Hong Kong (HKG), con un tiempo medio hasta el primer token (TTFT) de 800 ms a 1,2 s, más lento que llamar directamente a OpenAI (promedio de ~400 ms). No es lo ideal para una UX de chatbot en tiempo real, aunque funciona bien para trabajos asíncronos en segundo plano, como resumir o etiquetar. Tercero, la facturación automática al superar el nivel gratuito. Solo con añadir el binding
[ai]recibirás un 401 si no has registrado una tarjeta, pero en cuanto haya una tarjeta asociada, se te cobrará automáticamente $0.011 por 1M de tokens (Llama 3.1 8B). Para un proyecto paralelo, asegúrate de quitarusage_model = "BYOC"o de fijar un límite de gasto de $5 en la configuración de Billing del panel de Cloudflare. Mientras ejecutaba MillionsCode, una vez se me pasó hacerlo y un bot fuera de control consumió $18 en un solo mes (incidente de febrero de 2026). ## Cierre CF Workers AI es una de las formas más rápidas de poner en marcha una API LLM gratis. Su calidad y sus límites alcanzan de sobra para validación temprana y prototipos. Cuando el tráfico crezca, puedes pasar a un modelo de pago cambiando solo 3 líneas de código. Para desarrolladores que están empezando un proyecto paralelo, sigue siendo uno de los mejores recursos gratuitos de 2026.
🔧 Related Free Tools
Relacionado
USD/JPY分散は、為替急変局面で一方通貨の過大シェアを防ぎ、月次の再バランスと上限規則で感情的な一括投資を抑える実践設計です。...
IT6 formas de generar ingresos extra con ChatGPT: una guía práctica y probada de monetización para 2026USD/JPY分散は、為替急変局面で一方通貨の過大シェアを防ぎ、月次の再バランスと上限規則で感情的な一括投資を抑える実践設計です。...
ITChatGPT vs Claude vs Gemini en 2026: comparación del rendimiento, los precios y los casos de uso de los chatbots de IAUSD/JPY分散は、為替急変局面で一方通貨の過大シェアを防ぎ、月次の再バランスと上限規則で感情的な一括投資を抑える実践設計です。...
ITOptimización de Velocidad Web 2026 — Cómo Alcanzar Core Web Vitals de 90+USD/JPY分散は、為替急変局面で一方通貨の過大シェアを防ぎ、月次の再バランスと上限規則で感情的な一括投資を抑える実践設計です。...