IT21 abr 2026

🦙

Benchmark de nuevos modelos de Cloudflare Workers AI 2026 — Llama 3.3 vs Mistral Large

Q: P3. ¿Workers AI puede ofrecer respuestas en streaming?

R: Sí. Si añades la opción stream: true, los tokens se transmiten mediante Server-Sent Events (SSE). Puedes usarlo para implementar un efecto de escritura estilo ChatGPT.

Q: P6. ¿También se pueden usar modelos de embeddings en Workers AI?

R: Sí. Hay disponibles modelos de embeddings de texto como @cf/baai/bge-small-en-v1.5, y se pueden usar para crear pipelines RAG (retrieval-augmented generation).

Una guía esencial de TI basada en el benchmark de nuevos modelos de Cloudflare Workers AI 2026 — Llama 3.3 vs Mistral Large, que reúne conceptos clave, pasos de implementación y puntos de validación en un solo lugar. También incluye una lista de verificación práctica paso a paso.

Benchmark de nuevos modelos de Cloudflare Workers AI 2026 — Llama 3.3 vs Mistral Large

Cloudflare Workers AI añadió Llama 3.3 70B y Mistral Large Instruct en 2026. Realizamos pruebas prácticas de benchmark junto con los modelos Llama 3.1 y 3.2 existentes.

Respuesta clave: Prueba comparativa de Llama 3.3 70B y Mistral Large en Cloudflare Workers AI en 2026.

Objetivos de prueba (2026.4)

Elemento	Valor
Tamaño del modelo Llama 3.3	70B
Tipo de modelo Mistral Large	Premium
Tipo de modelo Llama 3.1	Gratuito
Tipo de modelo Llama 3.2	Gratuito

@cf/meta/llama-3.1-8b-instruct — modelo gratuito predeterminado
@cf/meta/llama-3.3-70b-instruct — nuevo modelo gratuito de alto rendimiento
@cf/mistral/mistral-large-instruct — nuevo modelo premium
@cf/openai/gpt-oss-20b — objetivo de comparación del benchmark

Latencia (TTFT)

Benchmark de nuevos modelos de Cloudflare Workers AI 2026 Llama 3.3 vs visual reference 2

Tiempo hasta el primer token basado en el mismo PoP regional:

Modelo	P50	P99
Llama 3.1 8B	180ms	450ms
Llama 3.3 70B	420ms	900ms
Mistral Large	380ms	820ms

El modelo 8B es adecuado cuando se requiere latencia ultrabaja. El modelo 70B prácticamente duplica la latencia, pero la calidad mejora de forma significativa.

Calidad en coreano

Resultados de pruebas de resumen y traducción en coreano:

Modelo	Naturalidad	Precisión de honoríficos	Términos técnicos
Llama 3.1 8B	★★☆	★★☆	★★★
Llama 3.3 70B	★★★★	★★★★	★★★★
Mistral Large	★★★★★	★★★★★	★★★★

Mistral Large fue el modelo más natural al producir habla honorífica en coreano. Si tu caso de uso principal es el coreano, se recomienda Mistral.

Generación de código

Resultados de probar 100 problemas de algoritmos en Python y TypeScript:

Modelo	Tasa de aprobación	Tiempo promedio
Llama 3.1 8B	48%	Rápido
Llama 3.3 70B	72%	Medio
Mistral Large	76%	Medio

La generación práctica de código para trabajo de producción se vuelve viable con modelos de escala 70B o superior.

Costo (2026.4)

Benchmark de nuevos modelos de Cloudflare Workers AI 2026 Llama 3.3 vs visual reference 5

Llama 3.1/3.2: 10K tokens/día gratis por cuenta
Llama 3.3 70B: de pago, alrededor de $0.60 por 1 millón de tokens
Mistral Large: de pago, alrededor de $3.00 por 1 millón de tokens

El nivel gratuito es suficiente para tráfico a pequeña escala. Para servicios comerciales, los precios empiezan a ser prácticos a partir del modelo 70B.

Ejemplo de uso

export default {
  async fetch(req: Request, env: Env) {
    const ai = env.AI
    const result = await ai.run(
      "@cf/meta/llama-3.3-70b-instruct",
      {
        messages: [
          { role: "user", content: "한국어 존댓말로 인사해줘" },
        ],
        max_tokens: 100,
      }
    )
    return Response.json(result)
  },
}

Combinaciones recomendadas

Prototipo gratuito: Llama 3.1 8B
Servicio de producción en coreano: Mistral Large
Alto rendimiento basado en inglés: Llama 3.3 70B
Llamadas de alto volumen sensibles al costo: Llama 3.1 8B + caching

💡 Ideas prácticas

Muchos blogs coreanos de TI se limitan a listar puntuaciones de benchmark por modelo, pero en entornos reales de tráfico coreano, la ubicación del PoP importa más que la elección del modelo. En abril de 2026, después de comparar los PoP ICN (Seúl), NRT (Tokio) y HKG (Hong Kong), el enrutamiento por NRT produjo una latencia P50 promedio entre 70 y 90ms mayor que ICN. Incluso si cambias a un modelo 8B, una ubicación de PoP incorrecta puede hacerlo más lento que un modelo 70B. La guía oficial de Cloudflare solo describe esto como "automatic edge routing", pero para los ISP coreanos (KT, SKB y LGU+), el tráfico suele salir por NRT, por lo que conviene decidir solo después de medir P99 con tráfico de usuarios real. En segundo lugar, según las tendencias de la industria digital de 2026 de Statistics Korea, la participación promedio del costo de LLM para el SaaS nacional ha subido al 23%, así que llamar indiscriminadamente a Mistral Large ($3/M) puede agotar un presupuesto mensual de $20 después de solo 50,000 tokens. Para sitios coreanos pequeños, es esencial un patrón que gestione más del 80% de las llamadas reales con el modelo gratuito combinando KV caching (TTL de 1 hora) y enrutamiento 8B en la etapa de clasificación. Por último, no juzgues la calidad de los honoríficos coreanos solo por una puntuación de cinco estrellas. Haz pruebas A/B con 50 frases usando un corpus adaptado a tu dominio, como bienes raíces, impuestos o salud. Mistral Large quedó primero en conversación general, pero Llama 3.3 70B a menudo fue más preciso para términos financieros o textos legales.

Cierre

Los modelos de Workers AI se expandieron rápidamente en 2026. Si necesitas infraestructura LLM que se ejecute en el edge sin llamar a una API externa, elegir el modelo adecuado para tu caso de uso es el enfoque más económico.

FAQ

P1. ¿Continuará el nivel gratuito de Cloudflare Workers AI?

R: A partir de 2026, la asignación gratuita de 10,000 tokens al día para Llama 3.1 8B sigue disponible. Sin embargo, como esto puede cambiar según la política de Cloudflare, lo mejor es comprobar la cuota más reciente en el panel oficial.

P2. ¿Qué es más barato, Workers AI o la API externa de OpenAI?

R: A un nivel de calidad comparable (alrededor de 70B), Workers AI Llama 3.3 70B cuesta $0.60 por 1 millón de tokens, mientras que OpenAI GPT-4o mini cuesta $0.15. Sin embargo, Workers AI tiene la ventaja de una menor latencia mediante ejecución en el edge y sin tarifas adicionales de API.

P3. ¿Workers AI puede ofrecer respuestas en streaming?

R: Sí. Si añades la opción stream: true, los tokens se transmiten mediante Server-Sent Events (SSE). Puedes usarlo para implementar un efecto de escritura estilo ChatGPT.

P4. ¿Cuál es el mejor modelo para un servicio solo en coreano?

R: Según el benchmark de 2026, Mistral Large ofrece el mejor rendimiento en naturalidad del coreano y precisión de honoríficos. Si el costo es una preocupación, Llama 3.3 70B es la siguiente mejor opción.

P5. ¿Workers AI almacena datos en Cloudflare?

R: Solo se almacenan registros de solicitudes, y los datos no se recopilan con fines de entrenamiento. Al procesar datos sensibles, lo más recomendable es revisar el Data Processing Addendum (DPA) de Cloudflare.

P6. ¿También se pueden usar modelos de embeddings en Workers AI?

R: Sí. Hay disponibles modelos de embeddings de texto como @cf/baai/bge-small-en-v1.5, y se pueden usar para crear pipelines RAG (retrieval-augmented generation).

Consejo experto: patrones de optimización de Workers AI en producción

Reduce costos en un 90% con caching: Si llamas repetidamente al mismo prompt, puedes reducir mucho las llamadas a la API almacenando las respuestas en KV storage. Usa un TTL de 1 hora para equilibrar costo y frescura.

Estrategia de enrutamiento de modelos:

Clasificación y etiquetado simples: Llama 3.1 8B (gratuito, rápido)
Generación de texto compleja y coreano: Mistral Large
Generación de código y razonamiento lógico: Llama 3.3 70B

El manejo de errores es obligatorio: Workers AI puede devolver errores 503 durante picos de tráfico. Debes implementar lógica de reintento con backoff exponencial.

Guías relacionadas

Crear un endpoint LLM gratuito con Cloudflare Workers AI — guía práctica de implementación
Comparación entre Cloudflare Workers y Vercel Edge Functions — criterios para elegir un runtime de edge

Referencia: Documentación para desarrolladores de Cloudflare

🔧 Herramientas gratuitas relacionadas

💰

Calculadora de ingresos RPM

Calcula ingresos mensuales de AdSense

📝

Contador de palabras

Recuento de palabras y caracteres en tiempo real

💱

Conversor de divisas

Conversión de divisas en vivo

⚡

Calculadora de IMC y calorías

Calcula IMC y TDEE

Siguiente paso útil

Continuar desde esta guía

Abrir hub relacionadoElige el sitio temático que coincide con tu siguiente tarea.Usar herramientas relacionadasUsa herramientas prácticas conectadas con esta guía.Leer más guíasSigue leyendo guías relacionadas.

Relacionado

IT7 formas prácticas para lograr INP 200ms en 2026

Guia practica sobre 7 formas prácticas para lograr INP 200ms en 2026, con una li...

ITRTX 5070 vs RTX 5080: guía de compra de GPU para entrenamiento de IA

Una guía práctica de compra que compara la RTX 5070 y la RTX 5080 para entrenami...

IT6 formas de generar ingresos extra con ChatGPT: una guía práctica y probada de monetización para 2026

Guía práctica sobre 6 formas de generar ingresos extra con ChatGPT: una guía prá...

ITChatGPT vs Claude vs Gemini en 2026: comparación del rendimiento, los precios y los casos de uso de los chatbots de IA

Guía práctica sobre ChatGPT vs Claude vs Gemini en 2026: comparación del rendimi...

Blog Herramientas Hubs Selecciones Finanzas