IT
🆓

Einen kostenlosen LLM-Endpunkt mit Cloudflare Workers AI erstellen

USD/JPY分散は、為替急変局面で一方通貨の過大シェアを防ぎ、月次の再バランスと上限規則で感情的な一括投資を抑える実践設計です。

Einen kostenlosen LLM-Endpunkt mit Cloudflare Workers AI erstellen

Kostenlosen LLM-Endpunkt mit Cloudflare Workers AI erstellen CF Workers AI stellt dir 10.000 kostenlose Tokens pro Tag und Konto zur Verfügung. Damit ist es eine starke Option, wenn du für Nebenprojekte, MVPs oder Prototypen ein LLM ohne laufende Kosten betreiben möchtest. Diese Anleitung zeigt Schritt für Schritt, wie du einen Endpunkt von Grund auf einrichtest. ## Voraussetzungen - Ein Cloudflare-Konto (der kostenlose Tarif reicht aus)

  • Die wrangler CLI: npm install -g wrangler
  • Authentifizierung mit wrangler login ## Schritt 1: Projekteinrichtung ```bash

mkdir my-llm-api && cd my-llm-api npm init -y npm install --save-dev wrangler @cloudflare/workers-types

`wrangler.toml`:

name = "my-llm-api" main = "src/index.ts" compatibility_date = "2026-04-01" [ai] binding = "AI"

Nachdem du das AI-Binding hinzugefügt hast, kannst du in deinem Worker über `env.AI` darauf zugreifen. ## Schritt 2: Ein einfacher Endpunkt ```ts
// src/index.ts
export default { async fetch(req: Request, env: Env): Promise<Response> { if (req.method!== "POST") return new Response("POST only", { status: 405 }) const { prompt } = await req.json<{ prompt: string }>() if (!prompt) return new Response("prompt required", { status: 400 }) const result = await env.AI.run( "@cf/meta/llama-3.1-8b-instruct", { messages: [{ role: "user", content: prompt }], max_tokens: 500, } ) return Response.json(result) },
} interface Env { AI: Ai
}

wrangler deploy

Nach etwa 5 Sekunden ist dein Endpunkt unter `https://my-llm-api.{account}.workers.dev` live. ## Schritt 4: Testen ```bash
curl -X POST https://my-llm-api.{account}.workers.dev \ -H "Content-Type: application/json" \ -d '{"prompt": "Introduce yourself briefly"}'

const stream = await env.AI.run( "@cf/meta/llama-3.1-8b-instruct", { messages: [{ role: "user", content: prompt }], stream: true, } ) return new Response(stream, { headers: { "Content-Type": "text/event-stream" }, })

## Bonus: Rate Limiting ```ts
// Cap each IP at 10 requests per minute using CF KV
const ip = req.headers.get("cf-connecting-ip")
const key = `rate:${ip}:${Math.floor(Date.now() / 60000)}`
const count = parseInt(await env.KV.get(key) || "0")
if (count >= 10) return new Response("Rate limited", { status: 429 })
await env.KV.put(key, String(count + 1), { expirationTtl: 120 })
  • @cf/meta/llama-3.2-3b-instruct — für schnellere Antworten
  • @cf/mistral/mistral-7b-instruct-v0.1 — starke Qualität bei Englisch
  • @cf/baai/bge-base-en-v1.5 — Embeddings
  • @cf/bytedance/stable-diffusion-xl-lightning — Bilderzeugung ## Anwendungsfälle 1. Chatbot-MVP: Demo für ein Nebenprojekt
  1. 1API zur Dokumentzusammenfassung: internes Tooling
  2. 2Embedding-Erzeugung: Befüllen einer Vektor-DB
  3. 3Übersetzung: einfache Sprachumwandlung ## Einschränkungen - 10K Tokens pro Tag: ungefähr 30-50 Anfragen
  • Antwortqualität: niedriger als bei bezahlten GPT-4o- oder Claude Opus-Modellen
  • Kontextfenster: 4K-32K Tokens, je nach Modell ## 💡 Praxiserfahrungen Viele Blogartikel bleiben bei der Aussage stehen: "10K Tokens sind kostenlos, also nutze es einfach." Aus Entwicklersicht gibt es jedoch drei Punkte, die man vorher kennen sollte. Erstens: nicht-englische Sprachen können deutlich mehr Tokens verbrauchen. Bei Llama 3.1 8B benötigte derselbe koreanische Text etwa 2,3-mal so viele Tokens wie die englische Entsprechung (basierend auf einem direkten Vergleichstest mit 10.000 Zeichen inhaltlich gleichwertiger koreanischer und englischer Texte). Die oft genannten "30-50 Anfragen pro Tag" sind daher eher eine englische Basislinie. Für einen koreanischsprachigen Chatbot liegt die realistische Kapazität eher bei 12-20 Anfragen. Zweitens: Workers AI betreibt keinen GPU-Knoten in der Region Seoul (ICN). Stand April 2026 werden Anfragen nach Tokyo (NRT) oder Hong Kong (HKG) geleitet. Die durchschnittliche Time-to-First-Token (TTFT) liegt dadurch bei 800 ms-1,2 s und damit über einem direkten OpenAI-Aufruf (Durchschnitt ca. 400 ms). Für eine Echtzeit-Chatbot-UX ist das spürbar, für asynchrone Hintergrundaufgaben wie Zusammenfassungen oder Tagging aber völlig brauchbar. Drittens: Nach Überschreiten des kostenlosen Kontingents greift automatisch die Abrechnung. Wenn keine Karte hinterlegt ist, liefert schon das Hinzufügen des [ai]-Bindings eine 401 zurück. Ist eine Karte gespeichert, werden bei Llama 3.1 8B automatisch $0.011 pro 1M Tokens berechnet. Für ein Nebenprojekt solltest du entweder usage_model = "BYOC" entfernen oder in den Billing-Einstellungen des Cloudflare-Dashboards ein Ausgabenlimit von $5 setzen. Als ich MillionsCode betrieb, habe ich das einmal übersehen, und ein aus dem Ruder gelaufener Bot verursachte in einem einzigen Monat $18 Kosten (Vorfall im Februar 2026). ## Fazit CF Workers AI ist einer der schnellsten Wege, um "kostenlos mit einer LLM-API zu starten." Qualität und Limits reichen für frühe Validierung und Prototyping mehr als aus. Wenn der Traffic wächst, kannst du mit einer Codeänderung von nur 3 Zeilen auf ein bezahltes Modell wechseln. Für Entwickler, die ein Nebenprojekt starten, gehört es 2026 zu den besten kostenlosen Werkzeugen.

🔧 Related Free Tools

Verwandt