IT21. Apr. 2026

🆓

Kostenlosen LLM-Endpunkt mit Cloudflare Workers AI erstellen

Dieser Leitfaden zeigt, wie Sie mit Cloudflare Workers AI einen kostenlosen LLM-Endpunkt erstellen, prüft proaktiv die Punkte, die bei der Einrichtung für den realen IT-Einsatz leicht übersehen werden, und stellt Schritte vor, die Sie sofort anwenden können. Außerdem enthält er eine praktische Schritt-für-Schritt-Checkliste.

Kostenlosen LLM-Endpunkt mit Cloudflare Workers AI erstellen

CF Workers AI bietet Ihnen pro Konto 10.000 kostenlose Tokens pro Tag. Das ist eine solide Wahl, wenn Sie ein LLM kostenlos in einem Nebenprojekt, MVP oder Prototyp nutzen möchten. Hier ist eine vollständige Anleitung zum Aufbau des Endpunkts.

Kernaussage: Mit Cloudflare Workers AI können Sie jeden Tag 10.000 Tokens kostenlos nutzen.

Voraussetzungen

Kostenlosen LLM-Endpunkt mit Cloudflare Workers AI erstellen visual reference 1

Element	Wert
Kostenloses Token-Kontingent	10.000 Tokens

Cloudflare-Konto (der kostenlose Tarif reicht aus)
wrangler CLI: npm install -g wrangler
Mit wrangler login authentifizieren

Schritt 1: Projekteinrichtung

bash

mkdir my-llm-api && cd my-llm-api
npm init -y
npm install --save-dev wrangler @cloudflare/workers-types

Inhalt der Datei wrangler.toml:

toml

name = "my-llm-api"
main = "src/index.ts"
compatibility_date = "2026-04-01"

[ai]
binding = "AI"

Sobald Sie das AI-Binding hinzufügen, können Sie env.AI innerhalb von Workers verwenden.

Schritt 2: Einfacher Endpunkt

// src/index.ts
export default {
  async fetch(req: Request, env: Env): Promise<Response> {
    if (req.method !== "POST") return new Response("POST only", { status: 405 })

    const { prompt } = await req.json<{ prompt: string }>()
    if (!prompt) return new Response("prompt required", { status: 400 })

    const result = await env.AI.run(
      "@cf/meta/llama-3.1-8b-instruct",
      {
        messages: [{ role: "user", content: prompt }],
        max_tokens: 500,
      }
    )

    return Response.json(result)
  },
}

interface Env {
  AI: Ai
}

Schritt 3: Bereitstellen

bash

wrangler deploy

Nach etwa 5 Sekunden können Sie ihn sofort unter https://my-llm-api.{계정}.workers.dev verwenden.

Schritt 4: Testen

bash

curl -X POST https://my-llm-api.{계정}.workers.dev \
  -H "Content-Type: application/json" \
  -d '{"prompt": "자기소개 짧게"}'

Zusatzfunktion: Streaming-Antworten

Kostenlosen LLM-Endpunkt mit Cloudflare Workers AI erstellen visual reference 6

const stream = await env.AI.run(
  "@cf/meta/llama-3.1-8b-instruct",
  {
    messages: [{ role: "user", content: prompt }],
    stream: true,
  }
)

return new Response(stream, {
  headers: { "Content-Type": "text/event-stream" },
})

Zusatzfunktion: Rate Limiting

// CF KV로 IP당 분당 10회 제한
const ip = req.headers.get("cf-connecting-ip")
const key = `rate:${ip}:${Math.floor(Date.now() / 60000)}`
const count = parseInt(await env.KV.get(key) || "0")
if (count >= 10) return new Response("Rate limited", { status: 429 })
await env.KV.put(key, String(count + 1), { expirationTtl: 120 })

Verfügbare kostenlose Modelle

@cf/meta/llama-3.1-8b-instruct — allgemeiner Einsatz
@cf/meta/llama-3.2-3b-instruct — schnelle Antworten
@cf/mistral/mistral-7b-instruct-v0.1 — gute englische Qualität
@cf/baai/bge-base-en-v1.5 — Embeddings
@cf/bytedance/stable-diffusion-xl-lightning — Bilderzeugung

Anwendungsfälle

1Chatbot-MVP: für Demos von Nebenprojekten
2API zur Dokumentzusammenfassung: für interne Tools
3Embedding-Erzeugung: für Vektordatenbanken
4Übersetzer: für einfache Sprachumwandlung

Einschränkungen

10K Tokens pro Tag: ungefähr 30 bis 50 Anfragen
Antwortqualität: niedriger als bei kostenpflichtigem GPT-4o oder Claude Opus
Kontextlimits: je nach Modell 4K bis 32K Tokens

💡 Praktische Erkenntnisse

Viele andere Blogbeiträge hören bei "es gibt 10K kostenlose Tokens, also nutze es einfach" auf, aber aus der Perspektive koreanischer Entwickler gibt es drei Dinge, auf die man achten sollte. Erstens: Ineffizienz des koreanischen Tokenizers — mit Llama 3.1 8B benötigt koreanischer Text mit derselben Bedeutung im Durchschnitt 2,3-mal mehr Tokens als Englisch (basierend auf meinem Vergleich von 10.000 koreanischen Zeichen und englischem Text). "30 bis 50 Nutzungen pro Tag" bezieht sich also auf Englisch. Wenn Sie einen koreanischen Chatbot bauen, sollten Sie davon ausgehen, dass das tatsächliche Limit eher bei 12 bis 20 Nutzungen liegt. Zweitens: Workers AI hat keine GPU-Knoten in der Region Seoul (ICN) — Stand April 2026 wird Traffic über Japan (NRT) oder Hongkong (HKG) geleitet, und die durchschnittliche Time to First Token (TTFT) liegt bei 800 ms bis 1,2 s, langsamer als ein direkter OpenAI-Aufruf (im Durchschnitt etwa 400 ms). Für eine Echtzeit-Chatbot-UX ist das nicht ideal; besser geeignet sind Hintergrundaufgaben wie asynchrone Zusammenfassung oder Tagging. Drittens: automatische Abrechnung nach Überschreiten des kostenlosen Limits — wenn Sie nur das [ai]-Binding hinzufügen, können Sie es nicht ohne registrierte Karte verwenden, und sobald eine Karte registriert ist, werden automatisch 0,011 USD pro 1 Mio. Tokens berechnet (Llama 3.1 8B). Für ein Nebenprojekt sollten Sie usage_model = "BYOC" entfernen oder im Cloudflare-Dashboard unter Billing ein Ausgabenlimit von 5 USD festlegen. Ich habe das bei MillionsCode einmal ignoriert, ein Bot lief aus dem Ruder, und am Ende zahlte ich in einem Monat 18 USD (Vorfall im Februar 2026).

Fazit

CF Workers AI ist der schnellste Weg, "kostenlos eine LLM-API zu starten." Für frühe Validierung oder Prototypen bietet es genug Qualität und Kontingent. Wenn der Traffic wächst, können Sie auf natürliche Weise auf ein kostenpflichtiges Modell umsteigen (mit nur etwa drei geänderten Codezeilen), und ich halte es für eines der besten kostenlosen Assets im Jahr 2026 für Entwickler, die Nebenprojekte starten.

Referenz: Cloudflare Developer Docs

Häufig gestellte Fragen (FAQ)

Q1. Wie erstelle ich einen LLM-Endpunkt mit Cloudflare Workers AI?

A: Konfigurieren Sie das AI-Binding in einem Worker, erstellen Sie eine Route, die das Modell aufruft, und fügen Sie anschließend Authentifizierung und Nutzungslimits hinzu.

Q2. Wofür eignet sich der kostenlose Tarif von Workers AI?

A: Er eignet sich für Projekte mit geringem Traffic, etwa MVPs, interne Tools, Zusammenfassung, Klassifizierung und einfache Chatbots.

Q3. Unterscheidet sich Cloudflare Workers AI von der OpenAI API?

A: Es kann direkt vom Edge aus aufgerufen werden und lässt sich leicht mit dem Cloudflare-Ökosystem kombinieren, aber die Modellauswahl ist anders.

Q4. Braucht ein LLM-Endpunkt Authentifizierung?

A: Öffentliche Endpunkte können missbraucht werden, deshalb sollten Sie immer API-Schlüssel, Signaturen und Rate Limits einsetzen.

Q5. Sind Antworten von Workers AI schnell?

A: Edge-Bereitstellung hat Vorteile, aber die Latenz variiert je nach Modellgröße, Prompt-Länge und Region.

Q6. Worauf sollte ich beim Betrieb eines kostenlosen LLM-Endpunkts achten?

A: Planen Sie Token-Limits, Datenschutz beim Logging, Fehlerbehandlung, Kostenwarnungen und Ihre Caching-Strategie im Voraus.

🔧 Verwandte kostenlose Tools

💰

RPM Revenue Calculator

AdSense monthly revenue calc

📝

Word Counter

Real-time word & character count

💱

Currency Converter

Live currency conversion

⚡

BMI & Calorie Calc

BMI & TDEE calculator

Nächster sinnvoller Schritt

Von diesem Guide weitergehen

Verwandt

IT7 praktische Schritte, um INP im Jahr 2026 auf 200 ms zu erreichen

Praktischer Leitfaden zu 7 praktische Schritte, um INP im Jahr 2026 auf 200 ms z...

ITRTX 5070 vs. RTX 5080: GPU-Kaufberatung für KI-Training

Eine praxisnahe Kaufberatung, die RTX 5070 und RTX 5080 für KI-Training vergleic...

IT6 Wege, mit ChatGPT ein Nebeneinkommen zu erzielen — ein praktischer, erprobter Monetarisierungsleitfaden für 2026

Praktischer Leitfaden zu 6 Wege, mit ChatGPT ein Nebeneinkommen zu erzielen — ei...

IT2026 ChatGPT vs. Claude vs. Gemini - KI-Chatbots im Vergleich: Leistung, Preise und Anwendungsfälle

Ein praktischer Leitfaden zu 2026 ChatGPT vs. Claude vs. Gemini - KI-Chatbots im...

Blog Tools Hubs Auswahl Finanzen