使用 Cloudflare Workers AI 构建免费 LLM 端点

本指南介绍如何使用 Cloudflare Workers AI 构建免费的 LLM 端点，并主动检查真实 IT 场景部署时容易忽略的地方，同时给出可立即应用的步骤。文中还包含一份实用的分步检查清单。

使用 Cloudflare Workers AI 构建免费 LLM 端点

CF Workers AI 为每个账户提供每天 10,000 个免费 token。如果你想在副项目、MVP 或原型中免费使用 LLM，它是一个可靠选择。下面是一份构建该端点的完整指南。

关键答案： 使用 Cloudflare Workers AI，你每天可以免费使用 10,000 个 token。

前提条件

使用 Cloudflare Workers AI 构建免费 LLM 端点 visual reference 1

项目	值
免费 token 配额	10,000 个 token

Cloudflare 账户（免费计划即可）
wrangler CLI：npm install -g wrangler
使用 wrangler login 完成认证

第 1 步：项目设置

bash

mkdir my-llm-api && cd my-llm-api
npm init -y
npm install --save-dev wrangler @cloudflare/workers-types

wrangler.toml 文件内容：

toml

name = "my-llm-api"
main = "src/index.ts"
compatibility_date = "2026-04-01"

[ai]
binding = "AI"

添加 AI binding 后，就可以在 Workers 中使用 env.AI。

第 2 步：基础端点

// src/index.ts
export default {
  async fetch(req: Request, env: Env): Promise<Response> {
    if (req.method !== "POST") return new Response("POST only", { status: 405 })

    const { prompt } = await req.json<{ prompt: string }>()
    if (!prompt) return new Response("prompt required", { status: 400 })

    const result = await env.AI.run(
      "@cf/meta/llama-3.1-8b-instruct",
      {
        messages: [{ role: "user", content: prompt }],
        max_tokens: 500,
      }
    )

    return Response.json(result)
  },
}

interface Env {
  AI: Ai
}

第 3 步：部署

bash

wrangler deploy

大约 5 秒后，你就可以立即通过 https://my-llm-api.{계정}.workers.dev 使用它。

第 4 步：测试

bash

curl -X POST https://my-llm-api.{계정}.workers.dev \
  -H "Content-Type: application/json" \
  -d '{"prompt": "자기소개 짧게"}'

额外功能：流式响应

使用 Cloudflare Workers AI 构建免费 LLM 端点 visual reference 6

const stream = await env.AI.run(
  "@cf/meta/llama-3.1-8b-instruct",
  {
    messages: [{ role: "user", content: prompt }],
    stream: true,
  }
)

return new Response(stream, {
  headers: { "Content-Type": "text/event-stream" },
})

额外功能：速率限制

// CF KV로 IP당 분당 10회 제한
const ip = req.headers.get("cf-connecting-ip")
const key = `rate:${ip}:${Math.floor(Date.now() / 60000)}`
const count = parseInt(await env.KV.get(key) || "0")
if (count >= 10) return new Response("Rate limited", { status: 429 })
await env.KV.put(key, String(count + 1), { expirationTtl: 120 })

可用的免费模型

@cf/meta/llama-3.1-8b-instruct — 通用用途
@cf/meta/llama-3.2-3b-instruct — 响应速度快
@cf/mistral/mistral-7b-instruct-v0.1 — 英文质量较好
@cf/baai/bge-base-en-v1.5 — embeddings
@cf/bytedance/stable-diffusion-xl-lightning — 图像生成

使用场景

1聊天机器人 MVP：用于副项目演示
2文档摘要 API：用于内部工具
3Embedding 生成：用于向量数据库
4翻译器：用于简单语言转换

限制

每天 10K token：大约 30 到 50 次查询
响应质量：低于付费的 GPT-4o 或 Claude Opus
上下文限制：根据模型不同，为 4K 到 32K token

💡 实用经验

许多其他博客文章会停留在“它给你 10K 免费 token，所以直接用就行”，但从韩国开发者的角度看，有三点需要特别注意。第一，韩语 tokenizer 效率较低 —— 在 Llama 3.1 8B 中，表达相同含义的韩语文本平均会比英语多消耗 2.3 倍 token（基于我对 10,000 个韩语字符和英文文本的比较）。因此，“每天 30 到 50 次使用”是按英语估算的；如果你在构建韩语聊天机器人，应该假设真实上限更接近12 到 20 次使用。第二，Workers AI 在首尔区域（ICN）没有 GPU 节点 —— 截至 2026 年 4 月，流量会经由日本（NRT）或香港（HKG）路由，平均首 token 时间（TTFT）为 800ms 到 1.2s，比直接调用 OpenAI 更慢（平均约 400ms）。它不太适合实时聊天机器人 UX，更适合异步摘要或打标签这类后台任务。第三，超过免费额度后会自动计费 —— 如果只添加 [ai] binding，则不注册银行卡无法使用；一旦注册银行卡，就会按每 1M token $0.011 自动收费（Llama 3.1 8B）。对于副项目，请务必移除 usage_model = "BYOC"，或者在 Cloudflare dashboard 的 Billing 中设置 $5 的消费上限。我曾经在 MillionsCode 上忽略了这一点，结果一个 bot 失控运行，最后一个月付了 $18（2026 年 2 月事件）。