Cloudflare Workers AIで無料のLLMエンドポイントを構築する

このガイドでは、Cloudflare Workers AIで無料のLLMエンドポイントを構築する方法を紹介します。実際のIT用途でセットアップする際に見落としやすい点を先回りして確認し、すぐに適用できる手順をまとめています。実践的なステップ別チェックリストも含まれています。

Cloudflare Workers AIで無料のLLMエンドポイントを構築する

CF Workers AIでは、アカウントごとに毎日10,000無料トークンを利用できます。サイドプロジェクト、MVP、プロトタイプでLLMを無料で使いたい場合に有力な選択肢です。ここでは、そのエンドポイントを構築するための完全ガイドを紹介します。

重要な答え: Cloudflare Workers AIを使うと、毎日10,000トークンを無料で利用できます。

前提条件

Cloudflare Workers AIで無料のLLMエンドポイントを構築する visual reference 1

項目	値
無料トークン枠	10,000トークン

Cloudflareアカウント（無料プランで問題ありません）
wrangler CLI: npm install -g wrangler
wrangler loginで認証

Step 1: プロジェクトのセットアップ

bash

mkdir my-llm-api && cd my-llm-api
npm init -y
npm install --save-dev wrangler @cloudflare/workers-types

wrangler.tomlファイルの内容:

toml

name = "my-llm-api"
main = "src/index.ts"
compatibility_date = "2026-04-01"

[ai]
binding = "AI"

AI bindingを追加すると、Workers内でenv.AIを使えるようになります。

Step 2: 基本エンドポイント

// src/index.ts
export default {
  async fetch(req: Request, env: Env): Promise<Response> {
    if (req.method !== "POST") return new Response("POST only", { status: 405 })

    const { prompt } = await req.json<{ prompt: string }>()
    if (!prompt) return new Response("prompt required", { status: 400 })

    const result = await env.AI.run(
      "@cf/meta/llama-3.1-8b-instruct",
      {
        messages: [{ role: "user", content: prompt }],
        max_tokens: 500,
      }
    )

    return Response.json(result)
  },
}

interface Env {
  AI: Ai
}

Step 3: デプロイ

bash

wrangler deploy

約5秒後には、https://my-llm-api.{계정}.workers.devですぐに利用できます。

Step 4: テスト

bash

curl -X POST https://my-llm-api.{계정}.workers.dev \
  -H "Content-Type: application/json" \
  -d '{"prompt": "자기소개 짧게"}'

追加機能: ストリーミング応答

Cloudflare Workers AIで無料のLLMエンドポイントを構築する visual reference 6

const stream = await env.AI.run(
  "@cf/meta/llama-3.1-8b-instruct",
  {
    messages: [{ role: "user", content: prompt }],
    stream: true,
  }
)

return new Response(stream, {
  headers: { "Content-Type": "text/event-stream" },
})

追加機能: レート制限

// CF KV로 IP당 분당 10회 제한
const ip = req.headers.get("cf-connecting-ip")
const key = `rate:${ip}:${Math.floor(Date.now() / 60000)}`
const count = parseInt(await env.KV.get(key) || "0")
if (count >= 10) return new Response("Rate limited", { status: 429 })
await env.KV.put(key, String(count + 1), { expirationTtl: 120 })

利用可能な無料モデル

@cf/meta/llama-3.1-8b-instruct — 汎用
@cf/meta/llama-3.2-3b-instruct — 高速応答
@cf/mistral/mistral-7b-instruct-v0.1 — 英語品質が高い
@cf/baai/bge-base-en-v1.5 — embeddings
@cf/bytedance/stable-diffusion-xl-lightning — 画像生成

ユースケース

1Chatbot MVP: サイドプロジェクトのデモ向け
2ドキュメント要約API: 社内ツール向け
3Embedding生成: ベクトルデータベース向け
4翻訳ツール: シンプルな言語変換向け

制限事項

1日10Kトークン: おおよそ30〜50回のクエリ
応答品質: 有料のGPT-4oやClaude Opusより低い
コンテキスト制限: モデルによって4K〜32Kトークン

💡 実践的な知見

多くのブログ記事は「10K無料トークンがあるので使えばよい」というところで止まっていますが、韓国の開発者の視点では注意すべき点が3つあります。第一に、韓国語トークナイザーの非効率性です。Llama 3.1 8Bでは、同じ意味の韓国語テキストが英語より平均2.3倍多くのトークンを消費します（韓国語10,000文字と英語テキストを比較した私の結果に基づきます）。そのため、「1日30〜50回利用」は英語ベースの目安であり、韓国語チャットボットを作る場合、実際の上限は12〜20回程度と考えるべきです。第二に、Workers AIにはソウルリージョン（ICN）のGPUノードがありません。2026年4月時点では、トラフィックは日本（NRT）または香港（HKG）経由でルーティングされ、最初のトークンが返るまでの平均時間（TTFT）は800ms〜1.2sです。OpenAIを直接呼び出す場合（平均約400ms）より遅くなります。リアルタイムのチャットボットUXには理想的ではなく、非同期要約やタグ付けのようなバックグラウンドタスクに向いています。第三に、無料枠を超えると自動課金されることです。[ai] bindingだけを追加した場合でも、カード登録なしでは利用できません。カードを登録すると、無料枠を超過した分は自動的に1Mトークンあたり$0.011（Llama 3.1 8B）で課金されます。サイドプロジェクトでは、usage_model = "BYOC"を削除するか、CloudflareダッシュボードのBillingで$5の支出上限を設定してください。私は以前MillionsCodeでこれを見落とし、botが暴走して1か月で$18を支払うことになりました（2026年2月の出来事）。

まとめ

CF Workers AIは、「LLM APIを無料で始める」ための最速の方法です。初期検証やプロトタイプには十分な品質と利用枠を提供してくれます。トラフィックが増えたら、有料モデルへ自然にアップグレードできます（コード変更は約3行だけ）。2026年にサイドプロジェクトを始める開発者にとって、最良の無料資産の1つだと思います。

参考: Cloudflare Developer Docs