IT21 avr. 2026

🆓

Créer un endpoint LLM gratuit avec Cloudflare Workers AI

Ce guide explique comment créer un endpoint LLM gratuit avec Cloudflare Workers AI, en vérifiant de manière proactive les points faciles à oublier lors d’une mise en place pour un usage IT réel, et en présentant des étapes applicables immédiatement. Il inclut aussi une checklist pratique étape par étape.

Créer un endpoint LLM gratuit avec Cloudflare Workers AI

CF Workers AI vous offre 10 000 tokens gratuits chaque jour par compte. C’est un choix solide si vous voulez utiliser un LLM gratuitement dans un projet parallèle, un MVP ou un prototype. Voici un guide complet pour créer l’endpoint.

Réponse clé : Avec Cloudflare Workers AI, vous pouvez utiliser 10 000 tokens gratuitement chaque jour.

Prérequis

Créer un endpoint LLM gratuit avec Cloudflare Workers AI visual reference 1

Élément	Valeur
Quota de tokens gratuits	10 000 tokens

Compte Cloudflare (le plan gratuit suffit)
CLI wrangler : npm install -g wrangler
Authentification avec wrangler login

Étape 1 : Configuration du projet

bash

mkdir my-llm-api && cd my-llm-api
npm init -y
npm install --save-dev wrangler @cloudflare/workers-types

Contenu du fichier wrangler.toml :

toml

name = "my-llm-api"
main = "src/index.ts"
compatibility_date = "2026-04-01"

[ai]
binding = "AI"

Une fois le binding AI ajouté, vous pouvez utiliser env.AI dans Workers.

Étape 2 : Endpoint de base

// src/index.ts
export default {
  async fetch(req: Request, env: Env): Promise<Response> {
    if (req.method !== "POST") return new Response("POST only", { status: 405 })

    const { prompt } = await req.json<{ prompt: string }>()
    if (!prompt) return new Response("prompt required", { status: 400 })

    const result = await env.AI.run(
      "@cf/meta/llama-3.1-8b-instruct",
      {
        messages: [{ role: "user", content: prompt }],
        max_tokens: 500,
      }
    )

    return Response.json(result)
  },
}

interface Env {
  AI: Ai
}

Étape 3 : Déploiement

bash

wrangler deploy

Après environ 5 secondes, vous pouvez l’utiliser immédiatement à l’adresse https://my-llm-api.{계정}.workers.dev.

Étape 4 : Test

bash

curl -X POST https://my-llm-api.{계정}.workers.dev \
  -H "Content-Type: application/json" \
  -d '{"prompt": "자기소개 짧게"}'

Fonction supplémentaire : Réponses en streaming

const stream = await env.AI.run(
  "@cf/meta/llama-3.1-8b-instruct",
  {
    messages: [{ role: "user", content: prompt }],
    stream: true,
  }
)

return new Response(stream, {
  headers: { "Content-Type": "text/event-stream" },
})

Fonction supplémentaire : Limitation du débit

// CF KV로 IP당 분당 10회 제한
const ip = req.headers.get("cf-connecting-ip")
const key = `rate:${ip}:${Math.floor(Date.now() / 60000)}`
const count = parseInt(await env.KV.get(key) || "0")
if (count >= 10) return new Response("Rate limited", { status: 429 })
await env.KV.put(key, String(count + 1), { expirationTtl: 120 })

Modèles gratuits disponibles

@cf/meta/llama-3.1-8b-instruct — usage général
@cf/meta/llama-3.2-3b-instruct — réponses rapides
@cf/mistral/mistral-7b-instruct-v0.1 — bonne qualité en anglais
@cf/baai/bge-base-en-v1.5 — embeddings
@cf/bytedance/stable-diffusion-xl-lightning — génération d’images

Cas d’utilisation

1MVP de chatbot : pour des démonstrations de projets parallèles
2API de résumé de documents : pour des outils internes
3Génération d’embeddings : pour des bases de données vectorielles
4Traducteur : pour une conversion linguistique simple

Limites

10K tokens par jour : environ 30 à 50 requêtes
Qualité des réponses : inférieure à celle de GPT-4o ou Claude Opus payants
Limites de contexte : de 4K à 32K tokens selon le modèle

💡 Conseils pratiques

Beaucoup d’autres articles de blog s’arrêtent à « vous avez 10K tokens gratuits, donc utilisez-les simplement », mais du point de vue des développeurs coréens, il y a trois points à surveiller. D’abord, l’inefficacité du tokenizer pour le coréen : avec Llama 3.1 8B, un texte coréen de même sens utilise en moyenne 2,3 fois plus de tokens que l’anglais (d’après ma comparaison entre 10 000 caractères coréens et du texte anglais). Donc « 30 à 50 utilisations par jour » est basé sur l’anglais ; si vous construisez un chatbot coréen, vous devriez partir du principe que la limite réelle est plutôt proche de 12 à 20 utilisations. Ensuite, Workers AI ne dispose pas de nœuds GPU dans la région de Séoul (ICN) : en avril 2026, le trafic est routé via le Japon (NRT) ou Hong Kong (HKG), et le délai moyen avant le premier token (TTFT) est de 800 ms à 1,2 s, plus lent qu’un appel direct à OpenAI (environ 400 ms en moyenne). Ce n’est pas idéal pour l’UX d’un chatbot en temps réel, et c’est mieux adapté à des tâches en arrière-plan comme le résumé asynchrone ou le tagging. Enfin, la facturation automatique après dépassement de la limite gratuite : si vous ajoutez seulement le binding [ai], vous ne pouvez pas l’utiliser sans enregistrer une carte, et une fois la carte enregistrée, vous êtes automatiquement facturé 0,011 $ par million de tokens (Llama 3.1 8B). Pour un projet parallèle, veillez à supprimer usage_model = "BYOC" ou à définir une limite de dépenses de 5 $ dans Billing sur le tableau de bord Cloudflare. J’ai une fois ignoré cela sur MillionsCode, un bot s’est emballé, et j’ai fini par payer 18 $ en un mois (incident de février 2026).

Conclusion

CF Workers AI est le moyen le plus rapide de « lancer gratuitement une API LLM ». Pour une validation initiale ou des prototypes, il fournit une qualité et un quota suffisants. À mesure que le trafic augmente, vous pouvez passer naturellement à un modèle payant (avec seulement environ trois lignes de code modifiées), et je pense que c’est l’un des meilleurs atouts gratuits en 2026 pour les développeurs qui lancent des projets parallèles.

Référence : Cloudflare Developer Docs

Questions fréquentes (FAQ)

Q1. Comment créer un endpoint LLM avec Cloudflare Workers AI ?

A: Configurez le binding AI dans un Worker, créez une route qui appelle le modèle, puis ajoutez l’authentification et des limites d’utilisation.

Q2. À quoi sert l’offre gratuite de Workers AI ?

A: Elle convient aux projets à faible trafic comme les MVP, les outils internes, le résumé, la classification et les chatbots simples.

Q3. Cloudflare Workers AI est-il différent de l’API OpenAI ?

A: Il peut être appelé directement depuis l’edge et se combine facilement avec l’écosystème Cloudflare, mais la sélection de modèles est différente.

Q4. Un endpoint LLM a-t-il besoin d’une authentification ?

A: Les endpoints publics peuvent être abusés, vous devriez donc toujours appliquer des clés API, des signatures et des limites de débit.

Q5. Les réponses de Workers AI sont-elles rapides ?

A: Le déploiement en edge présente des avantages, mais la latence varie selon la taille du modèle, la longueur du prompt et la région.

Q6. À quoi faut-il faire attention lors de l’exploitation d’un endpoint LLM gratuit ?

A: Concevez à l’avance vos limites de tokens, la confidentialité des logs, la gestion des erreurs, les alertes de coûts et la stratégie de cache.

🔧 Outils gratuits liés

💰

RPM Revenue Calculator

AdSense monthly revenue calc

📝

Word Counter

Real-time word & character count

💱

Currency Converter

Live currency conversion

⚡

BMI & Calorie Calc

BMI & TDEE calculator

Prochaine étape utile

Continuer depuis ce guide

Connexe

IT7 moyens concrets d'atteindre un INP de 200 ms en 2026

Guide pratique sur 7 moyens concrets d'atteindre un INP de 200 ms en 2026, avec ...

ITRTX 5070 vs RTX 5080 : guide d'achat de GPU pour l'entraînement IA

Un guide d'achat pratique comparant les RTX 5070 et RTX 5080 pour l'entraînement...

IT6 façons de générer un revenu complémentaire avec ChatGPT — Guide pratique et testé de monétisation pour 2026

Guide pratique sur 6 façons de générer un revenu complémentaire avec ChatGPT — G...

IT2026 ChatGPT vs Claude vs Gemini — Comparaison des performances, des tarifs et des cas d’utilisation des chatbots IA

Guide pratique sur 2026 ChatGPT vs Claude vs Gemini — Comparaison des performanc...

Blog Outils Hubs Sélections Finance