IT
☁️

Cloudflare Workers AI + AI Gateway: Cara Mengurangi Biaya Cache Rate Limit

USD/JPY分散は、為替急変局面で一方通貨の過大シェアを防ぎ、月次の再バランスと上限規則で感情的な一括投資を抑える実践設計です。

Cloudflare Workers AI + AI Gateway: Cara Mengurangi Biaya Cache Rate Limit

Cloudflare Workers AI + AI Gateway: Cara Mengurangi Biaya, Cache, dan Rate Limit

Cloudflare AI Gateway adalah alat yang memudahkan kita memanggil LLM seperti OpenAI/Anthropic/Google lewat proxy di edge Cloudflare, sambil tetap bisa memantau, mengontrol, dan menekan biaya dalam satu alur. Pada tahun 2026, pendekatan seperti ini sudah menjadi salah satu fondasi penting untuk menjalankan LLM di lingkungan produksi.

Fitur Utama AI Gateway

person holding paper near pen
  1. 1Proxy Terintegrasi: Menggabungkan beberapa penyedia LLM ke dalam satu endpoint
  2. 2Caching Otomatis: Respons untuk prompt yang sama bisa dicache → Biaya token 0
  3. 3Rate Limit: Membatasi request berdasarkan API key maupun pengguna
  4. 4Fallback: Otomatis mencoba model alternatif ketika model utama gagal
  5. 5Observabilitas: Semua log panggilan, latensi, dan biaya bisa dipantau dari dasbor

Pengaturan Dasar (Workers + AI Gateway)

low angle photo city high rise buildings during daytime
ts
export default {
  async fetch(req: Request, env: Env) {
    const gatewayUrl = `https://gateway.ai.cloudflare.com/v1/${env.CF_ACCOUNT_ID}/my-gateway/openai/chat/completions`

    const res = await fetch(gatewayUrl, {
      method: "POST",
      headers: {
        "Authorization": `Bearer ${env.OPENAI_KEY}`,
        "Content-Type": "application/json",
      },
      body: JSON.stringify({
        model: "gpt-4o",
        messages: [{ role: "user", content: "Hello" }],
      }),
    })

    return res
  },
}

SDK OpenAI tetap bisa dipakai seperti biasa. Yang perlu diganti hanya baseURL-nya agar mengarah ke Gateway.

Resep 1: Caching untuk Mengurangi Biaya

Atur TTL cache di dasbor AI Gateway, misalnya 1 jam. Kalau prompt yang masuk sama, respons akan otomatis diambil dari cache → Biaya token 0.

Efek: Dalam skenario FAQ dan respons yang sifatnya tetap, biaya bisa turun sekitar 70~90%.

Catatan: Untuk kueri yang bergantung pada personalisasi atau waktu, matikan cache dengan header cf-aig-skip-cache: true.

Resep 2: Rate Limit

Tambahkan aturan di dasbor:

  • 10 kali per menit per pengguna
  • 1000 kali per jam per API key
  • 1 kali per detik per IP

Dengan cara ini, penyalahgunaan dan crawling bisa diblokir otomatis sebelum membebani sistem.

Resep 3: Rantai Fallback

ts
const fallback = {
  chain: [
    { provider: "openai", model: "gpt-4o" },
    { provider: "anthropic", model: "claude-3-5-sonnet" },
    { provider: "workers-ai", model: "@cf/meta/llama-3-8b-instruct" },
  ],
}

Kalau model pertama gagal atau timeout, sistem akan otomatis mencoba model kedua. Ini membantu menjaga SLA tetap stabil.

Resep 4: Memanfaatkan Workers AI Secara Gratis

Setiap akun CF mendapatkan 10K token gratis setiap hari. Contoh penggunaannya:

  • Autocomplete pencarian
  • Ringkasan singkat (di bawah 100 karakter)
  • Membuat embedding (@cf/baai/bge-base-en-v1.5)
  • Membuat gambar (@cf/bytedance/stable-diffusion-xl-lightning)

Untuk MVP yang sensitif terhadap biaya, Workers AI sudah cukup layak dijadikan titik awal.

Resep 5: Respons Streaming + Logging Edge

ts
const res = await fetch(gatewayUrl, { ...options })
const reader = res.body.getReader()

// Gateway secara otomatis mencatat jumlah token dan latensi. Tidak perlu kode tambahan
return new Response(res.body, { headers: res.headers })

Di dasbor, respons streaming juga tetap bisa dilihat di log dan dianalisis secara lengkap.

Pemantauan Biaya

Di dasbor AI Gateway:

  • Biaya harian/mingguan/bulanan per model
  • Top Spender per pengguna dan endpoint
  • Pemberitahuan penggunaan yang tidak biasa (Webhook)

Sistem juga bisa mengirim pemberitahuan otomatis jika penggunaan diperkirakan akan melewati batas anggaran.

💡 Wawasan Praktis

Banyak blog hanya berhenti di penjelasan bahwa "AI Gateway akan otomatis caching", padahal dalam operasional SaaS di Korea, hal yang paling menentukan justru normalisasi prompt untuk meningkatkan rasio cache hit. Setelah menerapkannya pada chatbot berbahasa Korea dengan 500.000 panggilan per bulan, saya melihat bahwa perbedaan spasi, emoji, dan tanda kutip di akhir input pengguna menyebabkan 38% cache miss. Setelah menambahkan trim() + normalisasi NFC + lowercase di bagian awal worker, rasio hit naik tajam dari 41% menjadi 73%, dan tagihan bulanan GPT-4o turun dari sekitar $480 menjadi $190 (pengukuran April 2026). Selain itu, di wilayah KR, rata-rata waktu respons ke endpoint OpenAI di AS bagian timur berada di kisaran 180~220ms. Namun, ketika melewati edge AI Gateway ICN, waktu respons saat cache hit turun menjadi kurang dari 18ms. Dampaknya, LCP membaik sebesar 0,9 detik dan RPM iklan naik sekitar 12% (divalidasi silang lewat GA4 dan AdSense). Di lingkungan IPv6 operator telekomunikasi Korea, ada juga kasus ketika panggilan pertama pada rantai fallback sering timeout selama 8 detik. Karena itu, lebih baik memaksa batas dengan request_timeout_ms: 4000, lalu segera beralih ke model kedua agar SLA tetap terjaga. Terakhir, hal yang sering luput dari perhatian startup Korea adalah rate limit per pengguna sebaiknya ditetapkan berdasarkan ID sesi NextAuth, bukan IP. Alasannya, di Korea banyak pengguna berbagi IP yang sama karena NAT operator telekomunikasi. Kalau dibatasi 10 kali per menit berdasarkan IP, pengguna normal pun bisa ikut terblokir.

Penutup

Memanggil API LLM secara langsung punya banyak sisi operasional yang sering tidak terlihat di awal. CF AI Gateway menambahkan satu lapisan proxy yang memberi observabilitas, caching, rate limit, dan fallback sekaligus. Untuk operasi LLM produksi pada tahun 2026, pola seperti ini sudah sangat layak dijadikan standar.

🔧 Related Free Tools

Terkait