IT
🆓

Créer un point de terminaison LLM gratuit avec Cloudflare Workers AI

USD/JPY分散は、為替急変局面で一方通貨の過大シェアを防ぎ、月次の再バランスと上限規則で感情的な一括投資を抑える実践設計です。

Créer un point de terminaison LLM gratuit avec Cloudflare Workers AI

Créer un endpoint LLM gratuit avec Cloudflare Workers AI CF Workers AI offre 10 000 tokens gratuits par jour, par compte. C'est une solution très pratique pour faire tourner gratuitement un LLM sur des projets personnels, des MVP ou des prototypes. Voici un guide complet pour créer un endpoint en partant de zéro. ## Prérequis - Un compte Cloudflare (l'offre gratuite suffit)

  • Le CLI wrangler: npm install -g wrangler
  • Une session authentifiée avec wrangler login ## Étape 1: Configuration du projet ```bash

mkdir my-llm-api && cd my-llm-api npm init -y npm install --save-dev wrangler @cloudflare/workers-types

`wrangler.toml`:

name = "my-llm-api" main = "src/index.ts" compatibility_date = "2026-04-01" [ai] binding = "AI"

Une fois le binding AI ajouté, `env.AI` devient disponible directement depuis votre Worker. ## Étape 2: Un point de terminaison de base ```ts
// src/index.ts
export default { async fetch(req: Request, env: Env): Promise<Response> { if (req.method!== "POST") return new Response("POST only", { status: 405 }) const { prompt } = await req.json<{ prompt: string }>() if (!prompt) return new Response("prompt required", { status: 400 }) const result = await env.AI.run( "@cf/meta/llama-3.1-8b-instruct", { messages: [{ role: "user", content: prompt }], max_tokens: 500, } ) return Response.json(result) },
} interface Env { AI: Ai
}

wrangler deploy

Environ 5 secondes plus tard, votre endpoint est disponible à l'adresse `https://my-llm-api.{account}.workers.dev`. ## Étape 4: Le tester ```bash
curl -X POST https://my-llm-api.{account}.workers.dev \ -H "Content-Type: application/json" \ -d '{"prompt": "Introduce yourself briefly"}'

const stream = await env.AI.run( "@cf/meta/llama-3.1-8b-instruct", { messages: [{ role: "user", content: prompt }], stream: true, } ) return new Response(stream, { headers: { "Content-Type": "text/event-stream" }, })

## Bonus: Limitation du débit ```ts
// Cap each IP at 10 requests per minute using CF KV
const ip = req.headers.get("cf-connecting-ip")
const key = `rate:${ip}:${Math.floor(Date.now() / 60000)}`
const count = parseInt(await env.KV.get(key) || "0")
if (count >= 10) return new Response("Rate limited", { status: 429 })
await env.KV.put(key, String(count + 1), { expirationTtl: 120 })
  • @cf/meta/llama-3.2-3b-instruct — réponses plus rapides
  • @cf/mistral/mistral-7b-instruct-v0.1 — excellente qualité en anglais
  • @cf/baai/bge-base-en-v1.5 — embeddings
  • @cf/bytedance/stable-diffusion-xl-lightning — génération d'images ## Cas d'utilisation 1. MVP de chatbot: démo pour un projet personnel
  1. 1API de résumé de documents: outil interne
  2. 2Génération d'embeddings: alimentation d'une base de données vectorielle
  3. 3Traduction: conversion linguistique simple ## Limites - 10 000 tokens par jour: environ 30 à 50 requêtes
  • Qualité des réponses: en dessous des offres payantes comme GPT-4o ou Claude Opus
  • Fenêtre de contexte: 4 000 à 32 000 tokens selon le modèle ## 💡 Retours d'expérience concrets La plupart des articles s'arrêtent à « 10 000 tokens sont gratuits, utilisez-les ». Côté développeur, il y a pourtant trois points moins visibles à garder en tête. Premièrement, le tokenizer est moins efficace sur les langues autres que l'anglais. Avec Llama 3.1 8B, un même texte coréen consomme environ 2,3 fois plus de tokens que son équivalent anglais (d'après un test côte à côte que j'ai réalisé avec 10 000 caractères de contenu équivalent en coréen et en anglais). Autrement dit, les « 30 à 50 requêtes par jour » correspondent surtout à un usage en anglais; pour un chatbot en coréen, la capacité réaliste tourne plutôt autour de 12 à 20 requêtes. Deuxièmement, Workers AI ne dispose d'aucun nœud GPU dans la région de Séoul (ICN). En avril 2026, les requêtes sont routées vers Tokyo (NRT) ou Hong Kong (HKG), avec un délai moyen avant le premier token (TTFT) de 800 ms à 1,2 s, soit plus lent qu'un appel direct à OpenAI (environ 400 ms en moyenne). Ce n'est pas l'idéal pour un chatbot vraiment temps réel, mais c'est très correct pour des tâches asynchrones en arrière-plan, comme le résumé ou le balisage. Troisièmement, la facturation démarre automatiquement dès que vous dépassez l'offre gratuite. Le simple ajout du binding [ai] renverra une erreur 401 tant qu'aucune carte bancaire n'est enregistrée. En revanche, dès qu'une carte est associée au compte, Cloudflare facture automatiquement 0,011 $ par million de tokens (Llama 3.1 8B). Pour un projet personnel, pensez à supprimer usage_model = "BYOC" ou à fixer la limite de dépense à 5 $ dans les paramètres Billing du tableau de bord Cloudflare. En exploitant MillionsCode, j'ai oublié de le faire une fois: un bot incontrôlé a consommé 18 $ en un seul mois (incident de février 2026). ## Conclusion CF Workers AI est l'un des moyens les plus rapides de « lancer gratuitement une API LLM ». Sa qualité et ses limites suffisent largement pour une première validation ou du prototypage. Quand le trafic augmente, vous pouvez passer à un modèle payant en ne modifiant que 3 lignes de code. Pour les développeurs qui démarrent un projet personnel, c'est l'une des meilleures ressources gratuites de 2026.

🔧 Related Free Tools

Connexe