IT
🦙
Cloudflare Workers AI 2026 Benchmark neuer Modelle — Llama 3.3 vs Mistral Large
USD/JPY分散は、為替急変局面で一方通貨の過大シェアを防ぎ、月次の再バランスと上限規則で感情的な一括投資を抑える実践設計です。
Cloudflare Workers AI 2026 Benchmark neuer Modelle — Llama 3.3 vs Mistral Large Cloudflare Workers AI hat 2026 Llama 3.3 70B und Mistral Large Instruct ins Angebot aufgenommen. Wir haben die neuen Modelle gemeinsam mit den bereits verfügbaren Llama-3.1- und Llama-3.2-Modellen in praxisnahen Benchmarks getestet. ## Getestete Modelle (April 2026) - @cf/meta/llama-3.1-8b-instruct — kostenloses Standardmodell
@cf/meta/llama-3.3-70b-instruct— neue kostenlose Hochleistungsstufe@cf/mistral/mistral-large-instruct— neues Premium-Angebot@cf/openai/gpt-oss-20b— Vergleichsbasis ## Latenz (TTFT) Zeit bis zum ersten Token vom selben regionalen PoP: | Modell | P50 | P99 |
| Llama 3.1 8B | 180ms | 450ms | |||||
|---|---|---|---|---|---|---|---|
| Llama 3.3 70B | 420ms | 900ms | |||||
| Mistral Large | 380ms | 820ms | Das 8B-Modell eignet sich für Anwendungen, bei denen extrem niedrige Latenz zählt. Die Modelle der 70B-Klasse verdoppeln die Verzögerung ungefähr, liefern dafür aber sichtbar bessere Qualität. ## Koreanisch-Qualität Tests für koreanische Zusammenfassungen und Übersetzungen: | Modell | Natürlichkeit | Genauigkeit bei Honorifika | Fachbegriffe |
| Llama 3.1 8B | ★★☆ | ★★☆ | ★★★ | ||||
| Llama 3.3 70B | ★★★★ | ★★★★ | ★★★★ | ||||
| Mistral Large | ★★★★★ | ★★★★★ | ★★★★ | Mistral Large formuliert koreanische Honorifika am natürlichsten. Wenn Koreanisch die Hauptsprache Ihres Dienstes ist, ist Mistral die naheliegende Wahl. ## Codegenerierung 100 Algorithmusaufgaben in Python/TypeScript: | Modell | Erfolgsquote | Durchschnittliche Zeit |
| Llama 3.1 8B | 48% | Schnell | |||||
| Llama 3.3 70B | 72% | Mittel | |||||
| Mistral Large | 76% | Mittel | Für praxistaugliche Codegenerierung braucht man in der Regel ein Modell der 70B-Klasse oder größer, damit die Ergebnisse zuverlässig genug werden. ## Preise (April 2026) - Llama 3.1/3.2: *Kostenlos, 10K Token/Tag pro Konto |
- Llama 3.3 70B: Kostenpflichtig, etwa $0.60 pro 1M Token
- Mistral Large: Kostenpflichtig, etwa $3.00 pro 1M Token Die kostenlose Stufe reicht für Projekte mit geringem Traffic völlig aus. Für kommerzielle Dienste liegt das 70B-Modell preislich in einem gut nutzbaren Bereich. ## Nutzungsbeispiel ```ts
export default { async fetch(req: Request, env: Env) { const ai = env.AI const result = await ai.run return Response.json(result) }, }
## Empfohlene Kombinationen - **Kostenloses Prototyping**: Llama 3.1 8B
- **Produktionsdienst auf Koreanisch**: Mistral Large
- **Hohe Leistung auf Englisch**: Llama 3.3 70B
- **Kostensensible Massenaufrufe**: Llama 3.1 8B + Caching ## 💡 Praxisnahe Erkenntnis Die meisten koreanischen IT-Blogs stellen nur rohe Benchmark-Werte pro Modell nebeneinander. Unter realen koreanischen Traffic-Bedingungen ist jedoch **der PoP-Standort oft wichtiger als die Modellauswahl**. Als ich im April 2026 die PoPs ICN (Seoul), NRT (Tokyo) und HKG (Hong Kong) verglichen habe, erhöhte NRT-Routing die P50-Latenz gegenüber ICN im Schnitt um 70–90ms. Eine falsch geroutete Anfrage an das 8B-Modell kann dadurch am Ende langsamer sein als ein sauber gerouteter 70B-Aufruf. Die offizielle Dokumentation von Cloudflare spricht nur von "automatic edge routing", doch einige Segmente koreanischer ISPs (KT, SKB, LGU+) werden häufig nach NRT ausgelagert. Deshalb sollten Sie P99 mit echtem Nutzertraffic messen, bevor Sie eine Modellentscheidung treffen. Zweitens gilt: **Auf Basis der Digital-Industry-Daten von Statistics Korea für 2026 machen LLM-Kosten inzwischen durchschnittlich 23% der inländischen SaaS-Ausgaben aus**. Pauschale Aufrufe an Mistral Large ($3/M) verbrennen daher ein Budget von $20/Monat schon mit nur 50K Token. Für kleine koreanische Websites ist das Standardmuster aus KV-Caching (1 Stunde TTL) plus einem 8B-Router für die Klassifizierungsstufe, der 80%+ der Aufrufe ins kostenlose Modell abfängt, praktisch Pflicht. Schließlich sollten Sie die Qualität koreanischer Honorifika nicht allein anhand einer Fünf-Sterne-Tabelle beurteilen; führen Sie einen echten A/B-Test mit 50 Sätzen aus Ihrem eigenen Domain-Korpus durch (Immobilien, Steuern, Medizin usw.). Mistral Large gewinnt insgesamt bei lockerer Konversation, aber ich habe mehrere Fälle gefunden, in denen Llama 3.3 70B bei Finanz-AGB und juristischen Sätzen tatsächlich genauer war. ## Abschließende Gedanken Die Modellpalette von Workers AI ist auf dem Weg ins Jahr 2026 deutlich breiter geworden. Wenn Sie eine LLM-Infrastruktur brauchen, die am Edge ohne externe API-Aufrufe läuft, ist das wirtschaftlichste Muster, je nach Anwendungsfall zwischen Modellen zu wechseln. ## FAQ ### Q1. Wird die kostenlose Stufe von Cloudflare Workers AI beibehalten?
A: Stand 2026 gilt das kostenlose Kontingent von 10,000 Token pro Tag für Llama 3.1 8B weiterhin. Es kann sich jedoch je nach Cloudflare-Richtlinie ändern, daher lohnt sich ein Blick auf das aktuelle Kontingent im offiziellen Dashboard. ### Q2. Was ist günstiger — Workers AI oder die externe OpenAI API?
A: Bei vergleichbarer Qualität (70B-Klasse) kostet Workers AI Llama 3.3 70B $0.60 pro 1M Token, während OpenAI GPT-4o mini $0.15 kostet. Allerdings läuft Workers AI am Edge und bietet dadurch geringere Latenz sowie keine zusätzlichen API-Gebühren. ### Q3. Unterstützt Workers AI Streaming-Antworten?
A: Ja. Durch Hinzufügen der Option `stream: true` werden Token per Server-Sent Events (SSE) gestreamt. Damit lassen sich Tipp-Effekte im ChatGPT-Stil umsetzen. ### Q4. Welches Modell ist für einen rein koreanischen Dienst am besten?
A: Auf Basis der Benchmarks von 2026 ist Mistral Large sowohl bei koreanischer Natürlichkeit als auch bei Honorifika-Genauigkeit am stärksten. Wenn die Kosten eine Rolle spielen, ist Llama 3.3 70B die nächstbeste Option. ### Q5. Speichert Workers AI meine Daten bei Cloudflare?
A: Standardmäßig werden nur Anfrageprotokolle gespeichert, und Daten werden nicht zu Trainingszwecken gesammelt. Beim Umgang mit sensiblen Daten ist es sinnvoll, Cloudflare's Data Processing Addendum (DPA) zu prüfen. ### Q6. Kann ich auch Embedding-Modelle auf Workers AI verwenden?
A: Ja. Text-Embedding-Modelle wie `@cf/baai/bge-small-en-v1.5` sind verfügbar und können zum Aufbau von RAG-Pipelines (Retrieval-Augmented Generation) genutzt werden. ## Expertentipps: Optimierungsmuster für Workers AI in Produktion **Kosten mit Caching um 90% senken**: Wenn Sie häufig identische Prompts senden, kann das Caching von Antworten im KV-Speicher API-Aufrufe drastisch reduzieren. Eine TTL von 1 Stunde schafft einen guten Ausgleich zwischen Kosten und Aktualität. **Strategie für Modell-Routing**:
- Einfache Klassifizierung/Tagging: Llama 3.1 8B (kostenlos, schnell)
- Komplexe Textgenerierung/Koreanisch: Mistral Large
- Codegenerierung/logisches Denken: Llama 3.3 70B **Fehlerbehandlung ist unverzichtbar**: Workers AI kann bei Traffic-Spitzen 503 zurückgeben. Sie müssen Retry-Logik mit exponentiellem Backoff implementieren. ## Verwandte Leitfaden - [Kostenlosen LLM-Endpunkt mit Cloudflare Workers AI bauen](/posts/cloudflare-workers-ai-llm) — Praktischer Build-Leitfaden
- [Cloudflare Workers vs Vercel Edge Functions im Vergleich](/posts/cloudflare-vs-vercel-edge) — Auswahlkriterien für Edge-Runtimes🔧 Related Free Tools
Verwandt
ITRTX 5070 vs RTX 5080: GPU Wahl fuer AI Training
USD/JPY分散は、為替急変局面で一方通貨の過大シェアを防ぎ、月次の再バランスと上限規則で感情的な一括投資を抑える実践設計です。...
IT6 Wege, mit ChatGPT ein Nebeneinkommen zu erzielen — ein praktischer, erprobter Monetarisierungsleitfaden für 2026USD/JPY分散は、為替急変局面で一方通貨の過大シェアを防ぎ、月次の再バランスと上限規則で感情的な一括投資を抑える実践設計です。...
IT2026 ChatGPT vs. Claude vs. Gemini - Leistung, Preise und Anwendungsfaelle von KI-Chatbots im VergleichUSD/JPY分散は、為替急変局面で一方通貨の過大シェアを防ぎ、月次の再バランスと上限規則で感情的な一括投資を抑える実践設計です。...
ITWebsite-Geschwindigkeitsoptimierung 2026 — So erreichen Sie Core Web Vitals von 90+USD/JPY分散は、為替急変局面で一方通貨の過大シェアを防ぎ、月次の再バランスと上限規則で感情的な一括投資を抑える実践設計です。...