IT
🦙

Benchmark Model Baru Cloudflare Workers AI 2026 — Llama 3.3 vs Mistral Large

USD/JPY分散は、為替急変局面で一方通貨の過大シェアを防ぎ、月次の再バランスと上限規則で感情的な一括投資を抑える実践設計です。

Benchmark Model Baru Cloudflare Workers AI 2026 — Llama 3.3 vs Mistral Large

Benchmark Model Baru Cloudflare Workers AI 2026 — Llama 3.3 vs Mistral Large

Pada 2026, Cloudflare Workers AI menambahkan Llama 3.3 70B dan Mistral Large Instruct. Bersama Llama 3.1 dan 3.2 yang sudah lebih dulu tersedia, kami melakukan benchmark dalam kondisi penggunaan nyata.

Model yang Diuji (April 2026)

person holding paper near pen
  • @cf/meta/llama-3.1-8b-instruct — Model dasar gratis
  • @cf/meta/llama-3.3-70b-instruct — Model gratis baru dengan performa tinggi
  • @cf/mistral/mistral-large-instruct — Model premium baru
  • @cf/openai/gpt-oss-20b — Model pembanding untuk benchmark

Latensi (TTFT)

low angle photo city high rise buildings during daytime

Waktu sampai token pertama muncul, diukur berdasarkan PoP pada region yang sama:

ModelP50P99
Llama 3.1 8B180ms450ms
Llama 3.3 70B420ms900ms
Mistral Large380ms820ms

Model 8B cocok untuk skenario yang benar-benar mengejar latensi rendah. Model kelas 70B memang punya latensi sekitar dua kali lebih besar, tetapi kualitas jawabannya juga terasa jauh lebih matang.

Kualitas Bahasa Korea

person putting money business finance

Tes ringkasan dan terjemahan bahasa Korea:

ModelKealamianAkurasi Bahasa HormatTerminologi Profesional
Llama 3.1 8B★★☆★★☆★★★
Llama 3.3 70B★★★★★★★★★★★★
Mistral Large★★★★★★★★★★★★★★

Mistral Large paling natural saat menangani bahasa hormat Korea. Kalau fokus utama layanan Anda adalah bahasa Korea, Mistral lebih layak diprioritaskan.

Pembuatan Kode

100 soal algoritma Python/TypeScript:

ModelTingkat KelulusanWaktu Rata-rata
Llama 3.1 8B48%Cepat
Llama 3.3 70B72%Sedang
Mistral Large76%Sedang

Untuk kebutuhan pembuatan kode yang benar-benar praktis, hasilnya baru mulai realistis ketika memakai model 70B ke atas.

Biaya (April 2026)

  • Llama 3.1/3.2: Gratis 10K token/hari per akun
  • Llama 3.3 70B: Berbayar, sekitar $0.60 per 1 juta token
  • Mistral Large: Berbayar, sekitar $3.00 per 1 juta token

Untuk traffic kecil, tier gratis biasanya sudah cukup. Untuk layanan komersial, model 70B memberi titik tengah yang cukup masuk akal dari sisi biaya dan performa.

Contoh Penggunaan

ts
export default {
  async fetch(req: Request, env: Env) {
    const ai = env.AI
    const result = await ai.run(
      "@cf/meta/llama-3.3-70b-instruct",
      {
        messages: [
          { role: "user", content: "Tolong sapa saya dalam bahasa Korea formal" },
        ],
        max_tokens: 100,
      }
    )
    return Response.json(result)
  },
}

Kombinasi yang Direkomendasikan

  • Prototip Gratis: Llama 3.1 8B
  • Produksi Layanan Bahasa Korea: Mistral Large
  • Performa Tinggi Berbasis Bahasa Inggris: Llama 3.3 70B
  • Panggilan Massal Sensitif Biaya: Llama 3.1 8B + Caching

💡 Insight Praktis

Kebanyakan blog IT Korea hanya menampilkan skor benchmark per model. Padahal, dalam traffic Korea yang sebenarnya, lokasi PoP sering kali lebih menentukan daripada pilihan modelnya sendiri. Dalam perbandingan yang saya lakukan pada April 2026 terhadap PoP ICN (Seoul), NRT (Tokyo), dan HKG (Hong Kong), routing ke NRT menghasilkan latensi P50 rata-rata 70-90ms lebih tinggi dibandingkan ICN. Bahkan kalau Anda turun ke model 8B, salah pilih PoP tetap bisa membuat respons terasa lebih lambat daripada 70B.

Walaupun panduan resmi Cloudflare hanya menyebutkan "routing otomatis di edge", beberapa segmen ISP Korea seperti KT, SKB, dan LGU+ cukup sering diarahkan ke NRT. Jadi, keputusan final sebaiknya dibuat setelah mengukur P99 memakai traffic pengguna yang benar-benar nyata.

Kedua, berdasarkan tren industri digital Statistik Korea tahun 2026, porsi biaya LLM untuk SaaS domestik sudah naik hingga rata-rata 23%. Artinya, kalau Mistral Large ($3/M) dipanggil sembarangan, anggaran bulanan $20 bisa habis hanya untuk sekitar 50 ribu token. Untuk situs kecil di Korea, pola seperti caching KV (TTL 1 jam) + routing 8B pada tahap klasifikasi agar lebih dari 80% panggilan aktual diserap model gratis hampir sudah menjadi kebutuhan.

Terakhir, jangan mengambil keputusan hanya dari tabel bintang lima untuk evaluasi bahasa hormat Korea. Lakukan A/B test sendiri dengan 50 kalimat dari korpus domain Anda, misalnya real estat, pajak, atau medis. Walaupun Mistral Large berada di posisi pertama untuk percakapan umum, kami juga menemukan banyak kasus ketika Llama 3.3 70B justru lebih akurat pada kalimat yang berkaitan dengan syarat keuangan dan hukum.

Penutup

Kumpulan model Workers AI berkembang cepat sejak 2026. Jika Anda membutuhkan infrastruktur LLM yang berjalan di edge tanpa panggilan API eksternal, strategi paling ekonomis adalah mengganti model sesuai tujuan pemakaiannya.

FAQ

Q1. Apakah tier gratis Cloudflare Workers AI akan terus dipertahankan?

A: Per tahun 2026, alokasi 10.000 token gratis per hari untuk Llama 3.1 8B masih tersedia. Namun, kebijakan ini bisa berubah mengikuti keputusan Cloudflare, jadi sebaiknya tetap cek alokasi terbaru di dashboard resmi.

Q2. Mana yang lebih murah antara Workers AI dan OpenAI API eksternal?

A: Untuk kualitas setara level 70B, Workers AI Llama 3.3 70B berada di $0.60 per 1 juta token, sedangkan OpenAI GPT-4o mini berada di $0.15. Namun, Workers AI punya keunggulan latensi rendah karena dieksekusi di edge, dan tidak ada biaya API tambahan.

Q3. Apakah Workers AI dapat melakukan respons streaming?

A: Ya, bisa. Dengan menambahkan opsi stream: true, token akan dikirim sebagai Server-Sent Events (SSE). Ini cocok untuk membuat efek pengetikan seperti ChatGPT.

Q4. Jika ini adalah layanan khusus bahasa Korea, model mana yang terbaik?

A: Berdasarkan benchmark tahun 2026, Mistral Large paling unggul dalam kealamian bahasa Korea dan akurasi bahasa hormat. Jika biaya menjadi kendala, Llama 3.3 70B bisa menjadi alternatif yang solid.

Q5. Apakah data saya disimpan di Cloudflare jika saya menggunakan Workers AI?

A: Secara default, hanya log permintaan yang disimpan, dan data tidak dikumpulkan untuk tujuan pelatihan. Untuk pemrosesan data sensitif, sebaiknya periksa Perjanjian Tambahan Pemrosesan Data (DPA) Cloudflare.

Q6. Apakah model embedding juga dapat digunakan di Workers AI?

A: Ya, bisa. Model embedding teks seperti @cf/baai/bge-small-en-v1.5 tersedia dan bisa dimanfaatkan untuk membangun pipeline RAG (Retrieval Augmented Generation).

Tips Ahli: Pola Optimasi Produksi Workers AI

Hemat biaya 90% dengan caching: Jika banyak panggilan berulang memakai prompt yang sama, Anda bisa memangkas panggilan API secara signifikan dengan menyimpan respons di penyimpanan KV. TTL 1 jam biasanya memberi keseimbangan yang cukup baik antara biaya dan kesegaran data.

Strategi Routing Model:

  • Klasifikasi/Penandaan Sederhana: Llama 3.1 8B (gratis, cepat)
  • Pembuatan Teks Kompleks/Bahasa Korea: Mistral Large
  • Pembuatan Kode/Penalaran Logis: Llama 3.3 70B

Penanganan Error Penting: Workers AI dapat mengembalikan 503 saat traffic melonjak. Karena itu, Anda perlu menerapkan logika percobaan ulang dengan exponential backoff.

Panduan Terkait

🔧 Related Free Tools

Terkait