IT21 Apr 2026

🆓

Membangun Endpoint LLM Gratis dengan Cloudflare Workers AI

Panduan praktis tentang Membangun Endpoint LLM Gratis dengan Cloudflare Workers AI, dengan poin penting, risiko, dan alat terkait untuk keputusan yang lebih baik.

Membangun Endpoint LLM Gratis dengan Cloudflare Workers AI

Cloudflare Workers AI memberikan 10.000 token gratis setiap hari per akun — tanpa biaya, tanpa kartu kredit untuk tier dasarnya. Untuk proyek sampingan, MVP, atau prototipe awal, ini lebih dari cukup untuk mulai bereksperimen dengan LLM secara gratis.

Yang Perlu Disiapkan

Akun Cloudflare (plan gratis sudah cukup)
wrangler CLI: npm install -g wrangler
Login dengan wrangler login

Langkah 1: Setup Proyek

bash

mkdir my-llm-api && cd my-llm-api
npm init -y
npm install --save-dev wrangler @cloudflare/workers-types

wrangler.toml:

toml

name = "my-llm-api"
main = "src/index.ts"
compatibility_date = "2026-04-01"

[ai]
binding = "AI"

Begitu binding AI ditambahkan, kamu bisa langsung pakai env.AI di dalam Workers.

Langkah 2: Endpoint Paling Sederhana

// src/index.ts
export default {
  async fetch(req: Request, env: Env): Promise<Response> {
    if (req.method !== "POST") return new Response("Hanya POST", { status: 405 })

    const { prompt } = await req.json<{ prompt: string }>()
    if (!prompt) return new Response("prompt diperlukan", { status: 400 })

    const result = await env.AI.run(
      "@cf/meta/llama-3.1-8b-instruct",
      {
        messages: [{ role: "user", content: prompt }],
        max_tokens: 500,
      }
    )

    return Response.json(result)
  },
}

interface Env {
  AI: Ai
}

Cuma sekitar 20 baris. Sudah bisa dipakai.

Langkah 3: Deploy

bash

wrangler deploy

Dalam sekitar 5 detik, endpointmu sudah live di https://my-llm-api.{akun}.workers.dev.

Langkah 4: Uji Coba Langsung

bash

curl -X POST https://my-llm-api.{akun}.workers.dev \
  -H "Content-Type: application/json" \
  -d '{"prompt": "Perkenalan singkat"}'

Fitur Tambahan: Streaming Response

Kalau mau tampilan lebih responsif (seperti ChatGPT yang ngetik pelan-pelan):

const stream = await env.AI.run(
  "@cf/meta/llama-3.1-8b-instruct",
  {
    messages: [{ role: "user", content: prompt }],
    stream: true,
  }
)

return new Response(stream, {
  headers: { "Content-Type": "text/event-stream" },
})

Fitur Tambahan: Rate Limit Sederhana

Untuk mencegah satu user menguras seluruh kuota harianmu:

// Batasi 10 request per menit per IP menggunakan CF KV
const ip = req.headers.get("cf-connecting-ip")
const key = `rate:${ip}:${Math.floor(Date.now() / 60000)}`
const count = parseInt(await env.KV.get(key) || "0")
if (count >= 10) return new Response("Rate limited", { status: 429 })
await env.KV.put(key, String(count + 1), { expirationTtl: 120 })

Model Gratis yang Tersedia

Model	Kegunaan
`@cf/meta/llama-3.1-8b-instruct`	Tujuan umum
`@cf/meta/llama-3.2-3b-instruct`	Respons lebih cepat
`@cf/mistral/mistral-7b-instruct-v0.1`	Kualitas bagus untuk teks Inggris
`@cf/baai/bge-base-en-v1.5`	Embedding untuk RAG
`@cf/bytedance/stable-diffusion-xl-lightning`	Pembuatan gambar

Contoh Penggunaan

1MVP Chatbot — untuk demo atau pitch proyek sampingan
2API Ringkasan Dokumen — alat internal sederhana
3Pembuatan Embedding — untuk database vektor
4Penerjemah Sederhana — konversi bahasa tanpa bayar per token

Batasan yang Perlu Diketahui

Item	Detail
Kuota harian	10K token (~30–50 request dalam bahasa Inggris)
Kualitas respons	Di bawah GPT-4o atau Claude Opus berbayar
Batas konteks	4K–32K token tergantung model

💡 Wawasan Praktis

Banyak artikel soal ini cuma bilang "10K token gratis, langsung pakai saja." Tapi ada tiga jebakan yang jarang dibahas — terutama untuk pengguna berbahasa Indonesia atau Korea.

Jebakan pertama: inefisiensi tokenizer untuk bahasa non-Inggris. Llama 3.1 8B menggunakan tokenizer yang dioptimalkan untuk bahasa Inggris. Untuk teks berbahasa Indonesia atau Korea dengan makna yang sama, token yang terpakai bisa 2–3 kali lebih banyak dibanding versi Inggrisnya. Artinya "30–50 request per hari" itu asumsi bahasa Inggris — untuk chatbot berbahasa Indonesia, batas efektifnya mungkin hanya 12–20 request.

Jebakan kedua: latensi regional. Hingga April 2026, Workers AI belum punya node GPU di Asia Tenggara. Request akan dirouting ke Jepang (NRT) atau Hong Kong (HKG), dengan TTFT (Time to First Token) rata-rata 800ms–1.2s. Cukup lambat untuk chatbot real-time, tapi masih oke untuk background job seperti ringkasan atau tagging.

Jebakan ketiga: tagihan otomatis jika melewati batas. Begitu binding [ai] ditambahkan dan kartu kredit terdaftar, CF akan otomatis charge kalau melebihi kuota gratis — $0.011 per 1M token untuk Llama 3.1 8B. Kalau ini proyek sampingan, pastikan pasang spending limit di dashboard Cloudflare Billing. Kalau lupa, tagihan bisa membengkak tanpa disadari dalam hitungan minggu.

Penutup

CF Workers AI adalah cara paling cepat untuk punya API LLM yang jalan tanpa keluar uang dulu. Untuk validasi awal dan prototipe, kualitas dan batasnya sudah cukup. Kalau traffic mulai naik, migrasi ke model berbayar cukup butuh ubah 3 baris kode. Salah satu titik masuk terbaik untuk developer yang mulai membangun proyek AI di 2026.

🔧 Alat gratis terkait

💰

RPM Revenue Calculator

AdSense monthly revenue calc

📝

Word Counter

Real-time word & character count

💱

Currency Converter

Live currency conversion

⚡

BMI & Calorie Calc

BMI & TDEE calculator

Langkah berguna berikutnya

Lanjut dari panduan ini

Terkait

IT7 cara praktis mencapai INP 200ms pada 2026

Panduan praktis tentang 7 cara praktis mencapai INP 200ms pada 2026, dengan chec...

ITRTX 5070 vs RTX 5080: Panduan Membeli GPU untuk Pelatihan AI

Panduan pembelian praktis yang membandingkan RTX 5070 dan RTX 5080 untuk pelatih...

IT6 Cara Menghasilkan Penghasilan Sampingan dengan ChatGPT — Panduan Monetisasi Praktis dan Teruji untuk 2026

Panduan praktis tentang 6 Cara Menghasilkan Penghasilan Sampingan dengan ChatGPT...

IT2026 ChatGPT vs Claude vs Gemini — Perbandingan Performa, Harga, dan Kasus Penggunaan Chatbot AI

Panduan praktis untuk 2026 ChatGPT vs Claude vs Gemini — Perbandingan Performa, ...

Blog Alat Hub Pilihan Keuangan