Membangun Endpoint LLM Gratis dengan Cloudflare Workers AI
USD/JPY分散は、為替急変局面で一方通貨の過大シェアを防ぎ、月次の再バランスと上限規則で感情的な一括投資を抑える実践設計です。
Membangun Endpoint LLM Gratis dengan Cloudflare Workers AI
Cloudflare Workers AI memberikan 10.000 token gratis setiap hari per akun — tanpa biaya, tanpa kartu kredit untuk tier dasarnya. Untuk proyek sampingan, MVP, atau prototipe awal, ini lebih dari cukup untuk mulai bereksperimen dengan LLM secara gratis.
Yang Perlu Disiapkan
- Akun Cloudflare (plan gratis sudah cukup)
- wrangler CLI:
npm install -g wrangler - Login dengan
wrangler login
Langkah 1: Setup Proyek
mkdir my-llm-api && cd my-llm-api
npm init -y
npm install --save-dev wrangler @cloudflare/workers-typeswrangler.toml:
name = "my-llm-api"
main = "src/index.ts"
compatibility_date = "2026-04-01"
[ai]
binding = "AI"Begitu binding AI ditambahkan, kamu bisa langsung pakai env.AI di dalam Workers.
Langkah 2: Endpoint Paling Sederhana
// src/index.ts
export default {
async fetch(req: Request, env: Env): Promise<Response> {
if (req.method !== "POST") return new Response("Hanya POST", { status: 405 })
const { prompt } = await req.json<{ prompt: string }>()
if (!prompt) return new Response("prompt diperlukan", { status: 400 })
const result = await env.AI.run(
"@cf/meta/llama-3.1-8b-instruct",
{
messages: [{ role: "user", content: prompt }],
max_tokens: 500,
}
)
return Response.json(result)
},
}
interface Env {
AI: Ai
}Cuma sekitar 20 baris. Sudah bisa dipakai.
Langkah 3: Deploy
wrangler deployDalam sekitar 5 detik, endpointmu sudah live di https://my-llm-api.{akun}.workers.dev.
Langkah 4: Uji Coba Langsung
curl -X POST https://my-llm-api.{akun}.workers.dev \
-H "Content-Type: application/json" \
-d '{"prompt": "Perkenalan singkat"}'Fitur Tambahan: Streaming Response
Kalau mau tampilan lebih responsif (seperti ChatGPT yang ngetik pelan-pelan):
const stream = await env.AI.run(
"@cf/meta/llama-3.1-8b-instruct",
{
messages: [{ role: "user", content: prompt }],
stream: true,
}
)
return new Response(stream, {
headers: { "Content-Type": "text/event-stream" },
})Fitur Tambahan: Rate Limit Sederhana
Untuk mencegah satu user menguras seluruh kuota harianmu:
// Batasi 10 request per menit per IP menggunakan CF KV
const ip = req.headers.get("cf-connecting-ip")
const key = `rate:${ip}:${Math.floor(Date.now() / 60000)}`
const count = parseInt(await env.KV.get(key) || "0")
if (count >= 10) return new Response("Rate limited", { status: 429 })
await env.KV.put(key, String(count + 1), { expirationTtl: 120 })Model Gratis yang Tersedia
| Model | Kegunaan |
|---|---|
@cf/meta/llama-3.1-8b-instruct | Tujuan umum |
@cf/meta/llama-3.2-3b-instruct | Respons lebih cepat |
@cf/mistral/mistral-7b-instruct-v0.1 | Kualitas bagus untuk teks Inggris |
@cf/baai/bge-base-en-v1.5 | Embedding untuk RAG |
@cf/bytedance/stable-diffusion-xl-lightning | Pembuatan gambar |
Contoh Penggunaan
- 1MVP Chatbot — untuk demo atau pitch proyek sampingan
- 2API Ringkasan Dokumen — alat internal sederhana
- 3Pembuatan Embedding — untuk database vektor
- 4Penerjemah Sederhana — konversi bahasa tanpa bayar per token
Batasan yang Perlu Diketahui
| Item | Detail |
|---|---|
| Kuota harian | 10K token (~30–50 request dalam bahasa Inggris) |
| Kualitas respons | Di bawah GPT-4o atau Claude Opus berbayar |
| Batas konteks | 4K–32K token tergantung model |
💡 Wawasan Praktis
Banyak artikel soal ini cuma bilang "10K token gratis, langsung pakai saja." Tapi ada tiga jebakan yang jarang dibahas — terutama untuk pengguna berbahasa Indonesia atau Korea.
Jebakan pertama: inefisiensi tokenizer untuk bahasa non-Inggris. Llama 3.1 8B menggunakan tokenizer yang dioptimalkan untuk bahasa Inggris. Untuk teks berbahasa Indonesia atau Korea dengan makna yang sama, token yang terpakai bisa 2–3 kali lebih banyak dibanding versi Inggrisnya. Artinya "30–50 request per hari" itu asumsi bahasa Inggris — untuk chatbot berbahasa Indonesia, batas efektifnya mungkin hanya 12–20 request.
Jebakan kedua: latensi regional. Hingga April 2026, Workers AI belum punya node GPU di Asia Tenggara. Request akan dirouting ke Jepang (NRT) atau Hong Kong (HKG), dengan TTFT (Time to First Token) rata-rata 800ms–1.2s. Cukup lambat untuk chatbot real-time, tapi masih oke untuk background job seperti ringkasan atau tagging.
Jebakan ketiga: tagihan otomatis jika melewati batas. Begitu binding [ai] ditambahkan dan kartu kredit terdaftar, CF akan otomatis charge kalau melebihi kuota gratis — $0.011 per 1M token untuk Llama 3.1 8B. Kalau ini proyek sampingan, pastikan pasang spending limit di dashboard Cloudflare Billing. Kalau lupa, tagihan bisa membengkak tanpa disadari dalam hitungan minggu.
Penutup
CF Workers AI adalah cara paling cepat untuk punya API LLM yang jalan tanpa keluar uang dulu. Untuk validasi awal dan prototipe, kualitas dan batasnya sudah cukup. Kalau traffic mulai naik, migrasi ke model berbayar cukup butuh ubah 3 baris kode. Salah satu titik masuk terbaik untuk developer yang mulai membangun proyek AI di 2026.
🔧 Related Free Tools
Terkait
USD/JPY分散は、為替急変局面で一方通貨の過大シェアを防ぎ、月次の再バランスと上限規則で感情的な一括投資を抑える実践設計です。...
IT6 Cara Menghasilkan Penghasilan Sampingan dengan ChatGPT — Panduan Monetisasi Praktis dan Teruji untuk 2026USD/JPY分散は、為替急変局面で一方通貨の過大シェアを防ぎ、月次の再バランスと上限規則で感情的な一括投資を抑える実践設計です。...
IT2026 ChatGPT vs Claude vs Gemini — Perbandingan Kinerja, Harga, dan Kasus Penggunaan Chatbot AIUSD/JPY分散は、為替急変局面で一方通貨の過大シェアを防ぎ、月次の再バランスと上限規則で感情的な一括投資を抑える実践設計です。...
ITOptimasi Kecepatan Website 2026 — Cara Mencapai Core Web Vitals 90+USD/JPY分散は、為替急変局面で一方通貨の過大シェアを防ぎ、月次の再バランスと上限規則で感情的な一括投資を抑える実践設計です。...