Créer un point de terminaison LLM gratuit avec Cloudflare Workers AI
USD/JPY分散は、為替急変局面で一方通貨の過大シェアを防ぎ、月次の再バランスと上限規則で感情的な一括投資を抑える実践設計です。
Créer un endpoint LLM gratuit avec Cloudflare Workers AI CF Workers AI offre 10 000 tokens gratuits par jour, par compte. C'est une solution très pratique pour faire tourner gratuitement un LLM sur des projets personnels, des MVP ou des prototypes. Voici un guide complet pour créer un endpoint en partant de zéro. ## Prérequis - Un compte Cloudflare (l'offre gratuite suffit)
- Le CLI wrangler:
npm install -g wrangler - Une session authentifiée avec
wrangler login## Étape 1: Configuration du projet ```bash
mkdir my-llm-api && cd my-llm-api npm init -y npm install --save-dev wrangler @cloudflare/workers-types
name = "my-llm-api" main = "src/index.ts" compatibility_date = "2026-04-01" [ai] binding = "AI"
// src/index.ts
export default { async fetch(req: Request, env: Env): Promise<Response> { if (req.method!== "POST") return new Response("POST only", { status: 405 }) const { prompt } = await req.json<{ prompt: string }>() if (!prompt) return new Response("prompt required", { status: 400 }) const result = await env.AI.run( "@cf/meta/llama-3.1-8b-instruct", { messages: [{ role: "user", content: prompt }], max_tokens: 500, } ) return Response.json(result) },
} interface Env { AI: Ai
}wrangler deploy
curl -X POST https://my-llm-api.{account}.workers.dev \ -H "Content-Type: application/json" \ -d '{"prompt": "Introduce yourself briefly"}'const stream = await env.AI.run( "@cf/meta/llama-3.1-8b-instruct", { messages: [{ role: "user", content: prompt }], stream: true, } ) return new Response(stream, { headers: { "Content-Type": "text/event-stream" }, })
// Cap each IP at 10 requests per minute using CF KV
const ip = req.headers.get("cf-connecting-ip")
const key = `rate:${ip}:${Math.floor(Date.now() / 60000)}`
const count = parseInt(await env.KV.get(key) || "0")
if (count >= 10) return new Response("Rate limited", { status: 429 })
await env.KV.put(key, String(count + 1), { expirationTtl: 120 })@cf/meta/llama-3.2-3b-instruct— réponses plus rapides@cf/mistral/mistral-7b-instruct-v0.1— excellente qualité en anglais@cf/baai/bge-base-en-v1.5— embeddings@cf/bytedance/stable-diffusion-xl-lightning— génération d'images ## Cas d'utilisation 1. MVP de chatbot: démo pour un projet personnel
- 1API de résumé de documents: outil interne
- 2Génération d'embeddings: alimentation d'une base de données vectorielle
- 3Traduction: conversion linguistique simple ## Limites - 10 000 tokens par jour: environ 30 à 50 requêtes
- Qualité des réponses: en dessous des offres payantes comme GPT-4o ou Claude Opus
- Fenêtre de contexte: 4 000 à 32 000 tokens selon le modèle ## 💡 Retours d'expérience concrets La plupart des articles s'arrêtent à « 10 000 tokens sont gratuits, utilisez-les ». Côté développeur, il y a pourtant trois points moins visibles à garder en tête. Premièrement, le tokenizer est moins efficace sur les langues autres que l'anglais. Avec Llama 3.1 8B, un même texte coréen consomme environ 2,3 fois plus de tokens que son équivalent anglais (d'après un test côte à côte que j'ai réalisé avec 10 000 caractères de contenu équivalent en coréen et en anglais). Autrement dit, les « 30 à 50 requêtes par jour » correspondent surtout à un usage en anglais; pour un chatbot en coréen, la capacité réaliste tourne plutôt autour de 12 à 20 requêtes. Deuxièmement, Workers AI ne dispose d'aucun nœud GPU dans la région de Séoul (ICN). En avril 2026, les requêtes sont routées vers Tokyo (NRT) ou Hong Kong (HKG), avec un délai moyen avant le premier token (TTFT) de 800 ms à 1,2 s, soit plus lent qu'un appel direct à OpenAI (environ 400 ms en moyenne). Ce n'est pas l'idéal pour un chatbot vraiment temps réel, mais c'est très correct pour des tâches asynchrones en arrière-plan, comme le résumé ou le balisage. Troisièmement, la facturation démarre automatiquement dès que vous dépassez l'offre gratuite. Le simple ajout du binding
[ai]renverra une erreur 401 tant qu'aucune carte bancaire n'est enregistrée. En revanche, dès qu'une carte est associée au compte, Cloudflare facture automatiquement 0,011 $ par million de tokens (Llama 3.1 8B). Pour un projet personnel, pensez à supprimerusage_model = "BYOC"ou à fixer la limite de dépense à 5 $ dans les paramètres Billing du tableau de bord Cloudflare. En exploitant MillionsCode, j'ai oublié de le faire une fois: un bot incontrôlé a consommé 18 $ en un seul mois (incident de février 2026). ## Conclusion CF Workers AI est l'un des moyens les plus rapides de « lancer gratuitement une API LLM ». Sa qualité et ses limites suffisent largement pour une première validation ou du prototypage. Quand le trafic augmente, vous pouvez passer à un modèle payant en ne modifiant que 3 lignes de code. Pour les développeurs qui démarrent un projet personnel, c'est l'une des meilleures ressources gratuites de 2026.
🔧 Related Free Tools
Connexe
USD/JPY分散は、為替急変局面で一方通貨の過大シェアを防ぎ、月次の再バランスと上限規則で感情的な一括投資を抑える実践設計です。...
IT6 façons de générer un revenu complémentaire avec ChatGPT — Guide pratique et testé de monétisation pour 2026USD/JPY分散は、為替急変局面で一方通貨の過大シェアを防ぎ、月次の再バランスと上限規則で感情的な一括投資を抑える実践設計です。...
IT2026 ChatGPT vs Claude vs Gemini — Comparaison des performances, des tarifs et des cas d’utilisation des chatbots IAUSD/JPY分散は、為替急変局面で一方通貨の過大シェアを防ぎ、月次の再バランスと上限規則で感情的な一括投資を抑える実践設計です。...
ITOptimisation de la vitesse des sites Web 2026 — Comment atteindre des Core Web Vitals de 90+USD/JPY分散は、為替急変局面で一方通貨の過大シェアを防ぎ、月次の再バランスと上限規則で感情的な一括投資を抑える実践設計です。...