Cloudflare Workers AI + AI Gateway: Cara Mengurangi Biaya Cache Rate Limit
USD/JPY分散は、為替急変局面で一方通貨の過大シェアを防ぎ、月次の再バランスと上限規則で感情的な一括投資を抑える実践設計です。
Cloudflare Workers AI + AI Gateway: Cara Mengurangi Biaya, Cache, dan Rate Limit
Cloudflare AI Gateway adalah alat yang memudahkan kita memanggil LLM seperti OpenAI/Anthropic/Google lewat proxy di edge Cloudflare, sambil tetap bisa memantau, mengontrol, dan menekan biaya dalam satu alur. Pada tahun 2026, pendekatan seperti ini sudah menjadi salah satu fondasi penting untuk menjalankan LLM di lingkungan produksi.
Fitur Utama AI Gateway
- 1Proxy Terintegrasi: Menggabungkan beberapa penyedia LLM ke dalam satu endpoint
- 2Caching Otomatis: Respons untuk prompt yang sama bisa dicache → Biaya token 0
- 3Rate Limit: Membatasi request berdasarkan API key maupun pengguna
- 4Fallback: Otomatis mencoba model alternatif ketika model utama gagal
- 5Observabilitas: Semua log panggilan, latensi, dan biaya bisa dipantau dari dasbor
Pengaturan Dasar (Workers + AI Gateway)
export default {
async fetch(req: Request, env: Env) {
const gatewayUrl = `https://gateway.ai.cloudflare.com/v1/${env.CF_ACCOUNT_ID}/my-gateway/openai/chat/completions`
const res = await fetch(gatewayUrl, {
method: "POST",
headers: {
"Authorization": `Bearer ${env.OPENAI_KEY}`,
"Content-Type": "application/json",
},
body: JSON.stringify({
model: "gpt-4o",
messages: [{ role: "user", content: "Hello" }],
}),
})
return res
},
}SDK OpenAI tetap bisa dipakai seperti biasa. Yang perlu diganti hanya baseURL-nya agar mengarah ke Gateway.
Resep 1: Caching untuk Mengurangi Biaya
Atur TTL cache di dasbor AI Gateway, misalnya 1 jam. Kalau prompt yang masuk sama, respons akan otomatis diambil dari cache → Biaya token 0.
Efek: Dalam skenario FAQ dan respons yang sifatnya tetap, biaya bisa turun sekitar 70~90%.
Catatan: Untuk kueri yang bergantung pada personalisasi atau waktu, matikan cache dengan header cf-aig-skip-cache: true.
Resep 2: Rate Limit
Tambahkan aturan di dasbor:
- 10 kali per menit per pengguna
- 1000 kali per jam per API key
- 1 kali per detik per IP
Dengan cara ini, penyalahgunaan dan crawling bisa diblokir otomatis sebelum membebani sistem.
Resep 3: Rantai Fallback
const fallback = {
chain: [
{ provider: "openai", model: "gpt-4o" },
{ provider: "anthropic", model: "claude-3-5-sonnet" },
{ provider: "workers-ai", model: "@cf/meta/llama-3-8b-instruct" },
],
}Kalau model pertama gagal atau timeout, sistem akan otomatis mencoba model kedua. Ini membantu menjaga SLA tetap stabil.
Resep 4: Memanfaatkan Workers AI Secara Gratis
Setiap akun CF mendapatkan 10K token gratis setiap hari. Contoh penggunaannya:
- Autocomplete pencarian
- Ringkasan singkat (di bawah 100 karakter)
- Membuat embedding (
@cf/baai/bge-base-en-v1.5) - Membuat gambar (
@cf/bytedance/stable-diffusion-xl-lightning)
Untuk MVP yang sensitif terhadap biaya, Workers AI sudah cukup layak dijadikan titik awal.
Resep 5: Respons Streaming + Logging Edge
const res = await fetch(gatewayUrl, { ...options })
const reader = res.body.getReader()
// Gateway secara otomatis mencatat jumlah token dan latensi. Tidak perlu kode tambahan
return new Response(res.body, { headers: res.headers })Di dasbor, respons streaming juga tetap bisa dilihat di log dan dianalisis secara lengkap.
Pemantauan Biaya
Di dasbor AI Gateway:
- Biaya harian/mingguan/bulanan per model
- Top Spender per pengguna dan endpoint
- Pemberitahuan penggunaan yang tidak biasa (Webhook)
Sistem juga bisa mengirim pemberitahuan otomatis jika penggunaan diperkirakan akan melewati batas anggaran.
💡 Wawasan Praktis
Banyak blog hanya berhenti di penjelasan bahwa "AI Gateway akan otomatis caching", padahal dalam operasional SaaS di Korea, hal yang paling menentukan justru normalisasi prompt untuk meningkatkan rasio cache hit. Setelah menerapkannya pada chatbot berbahasa Korea dengan 500.000 panggilan per bulan, saya melihat bahwa perbedaan spasi, emoji, dan tanda kutip di akhir input pengguna menyebabkan 38% cache miss. Setelah menambahkan trim() + normalisasi NFC + lowercase di bagian awal worker, rasio hit naik tajam dari 41% menjadi 73%, dan tagihan bulanan GPT-4o turun dari sekitar $480 menjadi $190 (pengukuran April 2026). Selain itu, di wilayah KR, rata-rata waktu respons ke endpoint OpenAI di AS bagian timur berada di kisaran 180~220ms. Namun, ketika melewati edge AI Gateway ICN, waktu respons saat cache hit turun menjadi kurang dari 18ms. Dampaknya, LCP membaik sebesar 0,9 detik dan RPM iklan naik sekitar 12% (divalidasi silang lewat GA4 dan AdSense). Di lingkungan IPv6 operator telekomunikasi Korea, ada juga kasus ketika panggilan pertama pada rantai fallback sering timeout selama 8 detik. Karena itu, lebih baik memaksa batas dengan request_timeout_ms: 4000, lalu segera beralih ke model kedua agar SLA tetap terjaga. Terakhir, hal yang sering luput dari perhatian startup Korea adalah rate limit per pengguna sebaiknya ditetapkan berdasarkan ID sesi NextAuth, bukan IP. Alasannya, di Korea banyak pengguna berbagi IP yang sama karena NAT operator telekomunikasi. Kalau dibatasi 10 kali per menit berdasarkan IP, pengguna normal pun bisa ikut terblokir.
Penutup
Memanggil API LLM secara langsung punya banyak sisi operasional yang sering tidak terlihat di awal. CF AI Gateway menambahkan satu lapisan proxy yang memberi observabilitas, caching, rate limit, dan fallback sekaligus. Untuk operasi LLM produksi pada tahun 2026, pola seperti ini sudah sangat layak dijadikan standar.
🔧 Related Free Tools
Terkait
USD/JPY分散は、為替急変局面で一方通貨の過大シェアを防ぎ、月次の再バランスと上限規則で感情的な一括投資を抑える実践設計です。...
IT6 Cara Menghasilkan Penghasilan Sampingan dengan ChatGPT — Panduan Monetisasi Praktis dan Teruji untuk 2026USD/JPY分散は、為替急変局面で一方通貨の過大シェアを防ぎ、月次の再バランスと上限規則で感情的な一括投資を抑える実践設計です。...
IT2026 ChatGPT vs Claude vs Gemini — Perbandingan Kinerja, Harga, dan Kasus Penggunaan Chatbot AIUSD/JPY分散は、為替急変局面で一方通貨の過大シェアを防ぎ、月次の再バランスと上限規則で感情的な一括投資を抑える実践設計です。...
ITOptimasi Kecepatan Website 2026 — Cara Mencapai Core Web Vitals 90+USD/JPY分散は、為替急変局面で一方通貨の過大シェアを防ぎ、月次の再バランスと上限規則で感情的な一括投資を抑える実践設計です。...