IT
🦙

Benchmark de nuevos modelos de Cloudflare Workers AI 2026 — Llama 3.3 vs Mistral Large

USD/JPY分散は、為替急変局面で一方通貨の過大シェアを防ぎ、月次の再バランスと上限規則で感情的な一括投資を抑える実践設計です。

Benchmark de nuevos modelos de Cloudflare Workers AI 2026 — Llama 3.3 vs Mistral Large

Benchmark de los nuevos modelos de Cloudflare Workers AI en 2026: Llama 3.3 vs Mistral Large Cloudflare Workers AI incorporó Llama 3.3 70B y Mistral Large Instruct en 2026. Los probamos en escenarios reales y los comparamos con los modelos ya disponibles, como Llama 3.1 y 3.2. ## Modelos Probados (abril de 2026) - @cf/meta/llama-3.1-8b-instruct — modelo gratuito por defecto

  • @cf/meta/llama-3.3-70b-instruct — nuevo nivel gratuito de alto rendimiento
  • @cf/mistral/mistral-large-instruct — nueva opción premium
  • @cf/openai/gpt-oss-20b — referencia para la comparación ## Latencia (TTFT) Tiempo hasta el primer token desde el mismo PoP regional: | Modelo | P50 | P99 |
Llama 3.1 8B180ms450ms
Llama 3.3 70B420ms900ms
Mistral Large380ms820msEl modelo 8B encaja muy bien cuando la prioridad es una latencia mínima. Los modelos de clase 70B casi duplican la espera inicial, pero a cambio ofrecen una mejora notable de calidad. ## Calidad del Idioma Coreano Pruebas de resumen y traducción en coreano:ModeloNaturalidadPrecisión de HonoríficosTérminos Técnicos
Llama 3.1 8B★★☆★★☆★★★
Llama 3.3 70B★★★★★★★★★★★★
Mistral Large★★★★★★★★★★★★★★Mistral Large genera los honoríficos coreanos con más naturalidad. Si el coreano es el idioma principal de tu producto, Mistral es la opción más recomendable. ## Generación de Código 100 problemas de algoritmos en Python/TypeScript:ModeloTasa de AciertoTiempo Medio
Llama 3.1 8B48%Rápido
Llama 3.3 70B72%Medio
Mistral Large76%MedioPara generar código en un entorno práctico, conviene usar un modelo de clase 70B o superior si se busca un resultado realmente utilizable. ## Precios (abril de 2026) - Llama 3.1/3.2: *Gratis, 10K tokens/día por cuenta
  • Llama 3.3 70B: De pago, alrededor de $0.60 por 1M tokens
  • Mistral Large: De pago, alrededor de $3.00 por 1M tokens El nivel gratuito basta de sobra para proyectos con poco tráfico. En servicios comerciales, el modelo 70B se sitúa en un punto de precio bastante razonable. ## Ejemplo de Uso ```ts

export default { async fetch(req: Request, env: Env) { const ai = env.AI const result = await ai.run return Response.json(result) }, }

## Combinaciones Recomendadas - **Prototipado gratuito**: Llama 3.1 8B
- **Servicio de producción en coreano**: Mistral Large
- **Alto rendimiento basado en inglés**: Llama 3.3 70B
- **Llamadas masivas sensibles al coste**: Llama 3.1 8B + caché ## 💡 Perspectiva del Mundo Real La mayoría de los blogs coreanos de TI se limitan a listar puntuaciones brutas por modelo, pero en tráfico coreano real **la ubicación del PoP pesa más que la elección del modelo**. Al comparar los PoP de ICN (Seúl), NRT (Tokio) y HKG (Hong Kong) en abril de 2026, el enrutamiento por NRT añadió de media 70–90ms a la latencia P50 frente a ICN. En otras palabras: una solicitud al modelo 8B mal enrutada puede acabar siendo más lenta que una llamada a 70B bien encaminada. La documentación oficial de Cloudflare lo resume como "enrutamiento automático en el edge", pero algunos segmentos de ISP coreanos (KT, SKB, LGU+) terminan con frecuencia en NRT. Por eso merece la pena medir el P99 con tráfico real antes de decidir. También hay un factor de coste que no conviene subestimar: **según los datos de la industria digital de Statistics Korea de 2026, los costes de LLM ya representan de media el 23% de los gastos de SaaS nacionales**. Llamar a Mistral Large ($3/M) sin filtrar puede agotar un presupuesto de $20/mes con solo 50K tokens. Para sitios coreanos pequeños, el patrón habitual debería ser una caché KV con TTL de 1 hora y un enrutador de clasificación con 8B que absorba más del 80% de las llamadas dentro del modelo gratuito. Por último, no evalúes la calidad de los honoríficos coreanos solo con una tabla de cinco estrellas. Ejecuta una prueba A/B real con 50 frases de tu propio corpus de dominio, ya sea inmobiliario, fiscal, médico o cualquier otro. Mistral Large suele ganar en conversación informal, pero encontré varios casos en los que Llama 3.3 70B fue más preciso en terminología de servicios financieros y frases legales. ## Reflexiones Finales La gama de modelos de Workers AI se amplió de forma considerable de cara a 2026. Si necesitas una infraestructura LLM que se ejecute en el edge sin llamadas a API externas, la estrategia más económica es cambiar de modelo según el caso de uso. ## FAQ ### Q1. ¿Se mantendrá el nivel gratuito de Cloudflare Workers AI?
A: A partir de 2026, la cuota gratuita de 10,000 tokens al día para Llama 3.1 8B sigue vigente. Aun así, puede cambiar según la política de Cloudflare, así que conviene revisar la cuota actual en el panel oficial. ### Q2. ¿Qué es más barato — Workers AI o la API externa de OpenAI?
A: Con una calidad equivalente (clase 70B), Workers AI Llama 3.3 70B cuesta $0.60 por 1M tokens, mientras que OpenAI GPT-4o mini cuesta $0.15. La diferencia es que Workers AI se ejecuta en el edge, con menor latencia y sin cargos adicionales de API. ### Q3. ¿Workers AI admite respuestas en streaming?
A: Sí. Al añadir la opción `stream: true`, los tokens se transmiten mediante Server-Sent Events (SSE). Es útil para crear efectos de escritura similares a los de ChatGPT. ### Q4. Para un servicio solo en coreano, ¿qué modelo es mejor?
A: Según los benchmarks de 2026, Mistral Large es el más sólido tanto en naturalidad del coreano como en precisión de honoríficos. Si el coste es un problema, Llama 3.3 70B es la siguiente mejor alternativa. ### Q5. ¿Workers AI almacena mis datos en Cloudflare?
A: De forma predeterminada, solo se conservan los registros de solicitudes, y los datos no se recopilan con fines de entrenamiento. Si trabajas con datos sensibles, revisa el Data Processing Addendum (DPA) de Cloudflare. ### Q6. ¿También puedo usar modelos de embeddings en Workers AI?
A: Sí. Hay modelos de embeddings de texto como `@cf/baai/bge-small-en-v1.5`, que puedes usar para construir pipelines RAG (Retrieval-Augmented Generation). ## Consejos Expertos: Patrones de Optimización de Workers AI en Producción **Reduce costes un 90% con caché**: Si envías a menudo prompts idénticos, guardar las respuestas en KV storage puede reducir de forma drástica las llamadas a la API. Un TTL de 1 hora ofrece un buen equilibrio entre coste y frescura. **Estrategia de enrutamiento de modelos**:
- Clasificación/etiquetado simple: Llama 3.1 8B (gratis, rápido)
- Generación de texto compleja/coreano: Mistral Large
- Generación de código/razonamiento lógico: Llama 3.3 70B **La gestión de errores es esencial**: Workers AI puede devolver 503 durante picos de tráfico. Implementa reintentos con backoff exponencial. ## Guías Relacionadas - [Creación de un endpoint LLM gratuito con Cloudflare Workers AI](/posts/cloudflare-workers-ai-llm) — Guía práctica de implementación
- [Comparación entre Cloudflare Workers y Vercel Edge Functions](/posts/cloudflare-vs-vercel-edge) — Criterios de selección de runtime edge

🔧 Related Free Tools

Relacionado