IT
🆓

Membangun Endpoint LLM Gratis dengan Cloudflare Workers AI

USD/JPY分散は、為替急変局面で一方通貨の過大シェアを防ぎ、月次の再バランスと上限規則で感情的な一括投資を抑える実践設計です。

Membangun Endpoint LLM Gratis dengan Cloudflare Workers AI

Membangun Endpoint LLM Gratis dengan Cloudflare Workers AI

Cloudflare Workers AI memberikan 10.000 token gratis setiap hari per akun — tanpa biaya, tanpa kartu kredit untuk tier dasarnya. Untuk proyek sampingan, MVP, atau prototipe awal, ini lebih dari cukup untuk mulai bereksperimen dengan LLM secara gratis.

Yang Perlu Disiapkan

person holding paper near pen
  • Akun Cloudflare (plan gratis sudah cukup)
  • wrangler CLI: npm install -g wrangler
  • Login dengan wrangler login

Langkah 1: Setup Proyek

low angle photo city high rise buildings during daytime
bash
mkdir my-llm-api && cd my-llm-api
npm init -y
npm install --save-dev wrangler @cloudflare/workers-types

wrangler.toml:

toml
name = "my-llm-api"
main = "src/index.ts"
compatibility_date = "2026-04-01"

[ai]
binding = "AI"

Begitu binding AI ditambahkan, kamu bisa langsung pakai env.AI di dalam Workers.

Langkah 2: Endpoint Paling Sederhana

ts
// src/index.ts
export default {
  async fetch(req: Request, env: Env): Promise<Response> {
    if (req.method !== "POST") return new Response("Hanya POST", { status: 405 })

    const { prompt } = await req.json<{ prompt: string }>()
    if (!prompt) return new Response("prompt diperlukan", { status: 400 })

    const result = await env.AI.run(
      "@cf/meta/llama-3.1-8b-instruct",
      {
        messages: [{ role: "user", content: prompt }],
        max_tokens: 500,
      }
    )

    return Response.json(result)
  },
}

interface Env {
  AI: Ai
}

Cuma sekitar 20 baris. Sudah bisa dipakai.

Langkah 3: Deploy

bash
wrangler deploy

Dalam sekitar 5 detik, endpointmu sudah live di https://my-llm-api.{akun}.workers.dev.

Langkah 4: Uji Coba Langsung

bash
curl -X POST https://my-llm-api.{akun}.workers.dev \
  -H "Content-Type: application/json" \
  -d '{"prompt": "Perkenalan singkat"}'

Fitur Tambahan: Streaming Response

Kalau mau tampilan lebih responsif (seperti ChatGPT yang ngetik pelan-pelan):

ts
const stream = await env.AI.run(
  "@cf/meta/llama-3.1-8b-instruct",
  {
    messages: [{ role: "user", content: prompt }],
    stream: true,
  }
)

return new Response(stream, {
  headers: { "Content-Type": "text/event-stream" },
})

Fitur Tambahan: Rate Limit Sederhana

Untuk mencegah satu user menguras seluruh kuota harianmu:

ts
// Batasi 10 request per menit per IP menggunakan CF KV
const ip = req.headers.get("cf-connecting-ip")
const key = `rate:${ip}:${Math.floor(Date.now() / 60000)}`
const count = parseInt(await env.KV.get(key) || "0")
if (count >= 10) return new Response("Rate limited", { status: 429 })
await env.KV.put(key, String(count + 1), { expirationTtl: 120 })

Model Gratis yang Tersedia

ModelKegunaan
@cf/meta/llama-3.1-8b-instructTujuan umum
@cf/meta/llama-3.2-3b-instructRespons lebih cepat
@cf/mistral/mistral-7b-instruct-v0.1Kualitas bagus untuk teks Inggris
@cf/baai/bge-base-en-v1.5Embedding untuk RAG
@cf/bytedance/stable-diffusion-xl-lightningPembuatan gambar

Contoh Penggunaan

  1. 1MVP Chatbot — untuk demo atau pitch proyek sampingan
  2. 2API Ringkasan Dokumen — alat internal sederhana
  3. 3Pembuatan Embedding — untuk database vektor
  4. 4Penerjemah Sederhana — konversi bahasa tanpa bayar per token

Batasan yang Perlu Diketahui

ItemDetail
Kuota harian10K token (~30–50 request dalam bahasa Inggris)
Kualitas responsDi bawah GPT-4o atau Claude Opus berbayar
Batas konteks4K–32K token tergantung model

💡 Wawasan Praktis

Banyak artikel soal ini cuma bilang "10K token gratis, langsung pakai saja." Tapi ada tiga jebakan yang jarang dibahas — terutama untuk pengguna berbahasa Indonesia atau Korea.

Jebakan pertama: inefisiensi tokenizer untuk bahasa non-Inggris. Llama 3.1 8B menggunakan tokenizer yang dioptimalkan untuk bahasa Inggris. Untuk teks berbahasa Indonesia atau Korea dengan makna yang sama, token yang terpakai bisa 2–3 kali lebih banyak dibanding versi Inggrisnya. Artinya "30–50 request per hari" itu asumsi bahasa Inggris — untuk chatbot berbahasa Indonesia, batas efektifnya mungkin hanya 12–20 request.

Jebakan kedua: latensi regional. Hingga April 2026, Workers AI belum punya node GPU di Asia Tenggara. Request akan dirouting ke Jepang (NRT) atau Hong Kong (HKG), dengan TTFT (Time to First Token) rata-rata 800ms–1.2s. Cukup lambat untuk chatbot real-time, tapi masih oke untuk background job seperti ringkasan atau tagging.

Jebakan ketiga: tagihan otomatis jika melewati batas. Begitu binding [ai] ditambahkan dan kartu kredit terdaftar, CF akan otomatis charge kalau melebihi kuota gratis — $0.011 per 1M token untuk Llama 3.1 8B. Kalau ini proyek sampingan, pastikan pasang spending limit di dashboard Cloudflare Billing. Kalau lupa, tagihan bisa membengkak tanpa disadari dalam hitungan minggu.

Penutup

CF Workers AI adalah cara paling cepat untuk punya API LLM yang jalan tanpa keluar uang dulu. Untuk validasi awal dan prototipe, kualitas dan batasnya sudah cukup. Kalau traffic mulai naik, migrasi ke model berbayar cukup butuh ubah 3 baris kode. Salah satu titik masuk terbaik untuk developer yang mulai membangun proyek AI di 2026.

🔧 Related Free Tools

Terkait