IT21 Apr 2026

☁️

Cloudflare Workers AI + AI Gateway: Cara Mengurangi Biaya Cache Rate Limit

Panduan praktis tentang Cloudflare Workers AI + AI Gateway: Cara Mengurangi Biaya Cache Rate Limit, dengan poin penting, risiko, dan alat terkait untuk keputusan yang lebih baik.

Cloudflare Workers AI + AI Gateway: Cara Mengurangi Biaya, Cache, dan Rate Limit

Cloudflare AI Gateway adalah alat yang memudahkan kita memanggil LLM seperti OpenAI/Anthropic/Google lewat proxy di edge Cloudflare, sambil tetap bisa memantau, mengontrol, dan menekan biaya dalam satu alur. Pada tahun 2026, pendekatan seperti ini sudah menjadi salah satu fondasi penting untuk menjalankan LLM di lingkungan produksi.

Fitur Utama AI Gateway

1Proxy Terintegrasi: Menggabungkan beberapa penyedia LLM ke dalam satu endpoint
2Caching Otomatis: Respons untuk prompt yang sama bisa dicache → Biaya token 0
3Rate Limit: Membatasi request berdasarkan API key maupun pengguna
4Fallback: Otomatis mencoba model alternatif ketika model utama gagal
5Observabilitas: Semua log panggilan, latensi, dan biaya bisa dipantau dari dasbor

Pengaturan Dasar (Workers + AI Gateway)

export default {
  async fetch(req: Request, env: Env) {
    const gatewayUrl = `https://gateway.ai.cloudflare.com/v1/${env.CF_ACCOUNT_ID}/my-gateway/openai/chat/completions`

    const res = await fetch(gatewayUrl, {
      method: "POST",
      headers: {
        "Authorization": `Bearer ${env.OPENAI_KEY}`,
        "Content-Type": "application/json",
      },
      body: JSON.stringify({
        model: "gpt-4o",
        messages: [{ role: "user", content: "Hello" }],
      }),
    })

    return res
  },
}

SDK OpenAI tetap bisa dipakai seperti biasa. Yang perlu diganti hanya baseURL-nya agar mengarah ke Gateway.

Resep 1: Caching untuk Mengurangi Biaya

Atur TTL cache di dasbor AI Gateway, misalnya 1 jam. Kalau prompt yang masuk sama, respons akan otomatis diambil dari cache → Biaya token 0.

Efek: Dalam skenario FAQ dan respons yang sifatnya tetap, biaya bisa turun sekitar 70~90%.

Catatan: Untuk kueri yang bergantung pada personalisasi atau waktu, matikan cache dengan header cf-aig-skip-cache: true.

Resep 2: Rate Limit

Tambahkan aturan di dasbor:

10 kali per menit per pengguna
1000 kali per jam per API key
1 kali per detik per IP

Dengan cara ini, penyalahgunaan dan crawling bisa diblokir otomatis sebelum membebani sistem.

Resep 3: Rantai Fallback

const fallback = {
  chain: [
    { provider: "openai", model: "gpt-4o" },
    { provider: "anthropic", model: "claude-3-5-sonnet" },
    { provider: "workers-ai", model: "@cf/meta/llama-3-8b-instruct" },
  ],
}

Kalau model pertama gagal atau timeout, sistem akan otomatis mencoba model kedua. Ini membantu menjaga SLA tetap stabil.

Resep 4: Memanfaatkan Workers AI Secara Gratis

Setiap akun CF mendapatkan 10K token gratis setiap hari. Contoh penggunaannya:

Autocomplete pencarian
Ringkasan singkat (di bawah 100 karakter)
Membuat embedding (@cf/baai/bge-base-en-v1.5)
Membuat gambar (@cf/bytedance/stable-diffusion-xl-lightning)

Untuk MVP yang sensitif terhadap biaya, Workers AI sudah cukup layak dijadikan titik awal.

Resep 5: Respons Streaming + Logging Edge

const res = await fetch(gatewayUrl, { ...options })
const reader = res.body.getReader()

// Gateway secara otomatis mencatat jumlah token dan latensi. Tidak perlu kode tambahan
return new Response(res.body, { headers: res.headers })

Di dasbor, respons streaming juga tetap bisa dilihat di log dan dianalisis secara lengkap.

Pemantauan Biaya

Di dasbor AI Gateway:

Biaya harian/mingguan/bulanan per model
Top Spender per pengguna dan endpoint
Pemberitahuan penggunaan yang tidak biasa (Webhook)

Sistem juga bisa mengirim pemberitahuan otomatis jika penggunaan diperkirakan akan melewati batas anggaran.

💡 Wawasan Praktis

Banyak blog hanya berhenti di penjelasan bahwa "AI Gateway akan otomatis caching", padahal dalam operasional SaaS di Korea, hal yang paling menentukan justru normalisasi prompt untuk meningkatkan rasio cache hit. Setelah menerapkannya pada chatbot berbahasa Korea dengan 500.000 panggilan per bulan, saya melihat bahwa perbedaan spasi, emoji, dan tanda kutip di akhir input pengguna menyebabkan 38% cache miss. Setelah menambahkan trim() + normalisasi NFC + lowercase di bagian awal worker, rasio hit naik tajam dari 41% menjadi 73%, dan tagihan bulanan GPT-4o turun dari sekitar $480 menjadi $190 (pengukuran April 2026). Selain itu, di wilayah KR, rata-rata waktu respons ke endpoint OpenAI di AS bagian timur berada di kisaran 180~220ms. Namun, ketika melewati edge AI Gateway ICN, waktu respons saat cache hit turun menjadi kurang dari 18ms. Dampaknya, LCP membaik sebesar 0,9 detik dan RPM iklan naik sekitar 12% (divalidasi silang lewat GA4 dan AdSense). Di lingkungan IPv6 operator telekomunikasi Korea, ada juga kasus ketika panggilan pertama pada rantai fallback sering timeout selama 8 detik. Karena itu, lebih baik memaksa batas dengan request_timeout_ms: 4000, lalu segera beralih ke model kedua agar SLA tetap terjaga. Terakhir, hal yang sering luput dari perhatian startup Korea adalah rate limit per pengguna sebaiknya ditetapkan berdasarkan ID sesi NextAuth, bukan IP. Alasannya, di Korea banyak pengguna berbagi IP yang sama karena NAT operator telekomunikasi. Kalau dibatasi 10 kali per menit berdasarkan IP, pengguna normal pun bisa ikut terblokir.

Penutup

Memanggil API LLM secara langsung punya banyak sisi operasional yang sering tidak terlihat di awal. CF AI Gateway menambahkan satu lapisan proxy yang memberi observabilitas, caching, rate limit, dan fallback sekaligus. Untuk operasi LLM produksi pada tahun 2026, pola seperti ini sudah sangat layak dijadikan standar.

🔧 Alat gratis terkait

💰

RPM Revenue Calculator

AdSense monthly revenue calc

📝

Word Counter

Real-time word & character count

💱

Currency Converter

Live currency conversion

⚡

BMI & Calorie Calc

BMI & TDEE calculator

Langkah berguna berikutnya

Lanjut dari panduan ini

Terkait

IT7 cara praktis mencapai INP 200ms pada 2026

Panduan praktis tentang 7 cara praktis mencapai INP 200ms pada 2026, dengan chec...

ITRTX 5070 vs RTX 5080: Panduan Membeli GPU untuk Pelatihan AI

Panduan pembelian praktis yang membandingkan RTX 5070 dan RTX 5080 untuk pelatih...

IT6 Cara Menghasilkan Penghasilan Sampingan dengan ChatGPT — Panduan Monetisasi Praktis dan Teruji untuk 2026

Panduan praktis tentang 6 Cara Menghasilkan Penghasilan Sampingan dengan ChatGPT...

IT2026 ChatGPT vs Claude vs Gemini — Perbandingan Performa, Harga, dan Kasus Penggunaan Chatbot AI

Panduan praktis untuk 2026 ChatGPT vs Claude vs Gemini — Perbandingan Performa, ...

Blog Alat Hub Pilihan Keuangan