IT
☁️

كيفية استخدام Cloudflare Workers AI + AI Gateway — وصفة عملية لتقليل تكاليف التخزين المؤقت

USD/JPY分散は、為替急変局面で一方通貨の過大シェアを防ぎ、月次の再バランスと上限規則で感情的な一括投資を抑える実践設計です。

كيفية استخدام Cloudflare Workers AI + AI Gateway — وصفة عملية لتقليل تكاليف التخزين المؤقت

كيفية استخدام Cloudflare Workers AI + AI Gateway — وصفة عملية لتقليل تكاليف التخزين المؤقت

يعتبر Cloudflare AI Gateway أداة تعالج استدعاءات LLM مثل OpenAI/Anthropic/Google من خلال البروكسي عند حافة CF، مما يسمح بالمراقبة والتحكم وتقليل التكاليف في آن واحد. لقد أصبح البنية التحتية الأساسية لتشغيل LLM في الإنتاج لعام 2026.

الميزات الأساسية لـ AI Gateway

person holding paper near pen
  1. 1بروكسي متكامل: دمج عدة مزودي LLM في نقطة نهاية واحدة
  2. 2تخزين مؤقت تلقائي: تخزين مؤقت لاستجابة نفس الطلب → تكلفة التوكن 0
  3. 3حد الطلب: قيود على الطلبات لكل مفتاح API أو مستخدم
  4. 4استبدال تلقائي: إعادة المحاولة باستخدام نموذج بديل تلقائيًا في حالة تعطل النموذج
  5. 5المراقبة: جميع سجلات الاستدعاءات، زمن الاستجابة، لوحة معلومات التكاليف

الإعداد الأساسي (Workers + AI Gateway)

low angle photo city high rise buildings during daytime
ts
export default {
  async fetch(req: Request, env: Env) {
    const gatewayUrl = `https://gateway.ai.cloudflare.com/v1/${env.CF_ACCOUNT_ID}/my-gateway/openai/chat/completions`

    const res = await fetch(gatewayUrl, {
      method: "POST",
      headers: {
        "Authorization": `Bearer ${env.OPENAI_KEY}`,
        "Content-Type": "application/json",
      },
      body: JSON.stringify({
        model: "gpt-4o",
        messages: [{ role: "user", content: "Hello" }],
      }),
    })

    return res
  },
}

استخدم SDK الخاص بـ OpenAI كما هو، فقط استبدل baseURL بـ Gateway.

وصفة 1: تخزين مؤقت لتقليل التكاليف

قم بتعيين TTL للتخزين المؤقت في لوحة معلومات AI Gateway (على سبيل المثال: ساعة واحدة). إذا كان الطلب هو نفسه، فسيتم تخزين الاستجابة تلقائيًا → تكلفة التوكن 0.

التأثير: تقليل التكاليف بنسبة 70-90% في سيناريوهات الاستجابة الثابتة و FAQ.

ملاحظة: يجب إيقاف التخزين المؤقت للاستعلامات المعتمدة على التخصيص أو السلاسل الزمنية (رأس cf-aig-skip-cache: true).

وصفة 2: حد الطلب

أضف قواعد في لوحة المعلومات:

  • 10 طلبات لكل مستخدم في الدقيقة
  • 1000 طلب لكل مفتاح API في الساعة
  • 1 طلب لكل IP في الثانية

يتم حظر أي إساءة استخدام أو زحف تلقائي.

وصفة 3: سلسلة الاستبدال

ts
const fallback = {
  chain: [
    { provider: "openai", model: "gpt-4o" },
    { provider: "anthropic", model: "claude-3-5-sonnet" },
    { provider: "workers-ai", model: "@cf/meta/llama-3-8b-instruct" },
  ],
}

عند فشل النموذج الأول أو انتهاء المهلة، يتم إعادة المحاولة تلقائيًا باستخدام النموذج الثاني. الحفاظ على SLA.

وصفة 4: استخدام Workers AI مجانًا

10K توكن مجانية يوميًا لكل حساب CF. الاستخدامات:

  • إكمال البحث التلقائي
  • ملخصات قصيرة (100 حرف أو أقل)
  • إنشاء تضمينات (@cf/baai/bge-base-en-v1.5)
  • إنشاء صور (@cf/bytedance/stable-diffusion-xl-lightning)

يمكن بدء MVP حساس للتكاليف بشكل كافٍ باستخدام Workers AI.

وصفة 5: استجابة متدفقة + تسجيل عند الحافة

ts
const res = await fetch(gatewayUrl, { ...options })
const reader = res.body.getReader()

// يقوم Gateway تلقائيًا بتسجيل عدد التوكنات وزمن الاستجابة. لا حاجة إلى كود إضافي
return new Response(res.body, { headers: res.headers })

يمكن أيضًا تحليل سجلات الاستجابة المتدفقة بالكامل في لوحة المعلومات.

مراقبة التكاليف

في لوحة معلومات AI Gateway:

  • تكاليف يومية/أسبوعية/شهرية حسب النموذج
  • أعلى المنفقين حسب المستخدم ونقطة النهاية
  • إشعارات الاستخدام غير العادي (Webhook)

إشعارات تلقائية عند توقع تجاوز الميزانية.

💡 رؤى عملية

تتناول المدونات الأخرى فقط الفكرة العامة "عند تشغيل AI Gateway يتم التخزين المؤقت تلقائيًا"، لكن ما كان حاسمًا في تشغيل SaaS في كوريا هو زيادة معدل نجاح التخزين المؤقت من خلال تطبيع الطلبات. بعد تطبيق ذلك على دردشة باللغة الكورية مع 500,000 استدعاء شهريًا، تبين أن الفجوات في المسافات البيضاء، الرموز التعبيرية، وعلامات الاقتباس في نهاية إدخال المستخدم تسببت في 38% من أخطاء التخزين المؤقت، وعند إضافة trim() + NFC normalization + lowercase عند مدخل الوكر، ارتفع معدل النجاح من 41% إلى 73%، مما أدى إلى انخفاض الفاتورة الشهرية لـ GPT-4o من حوالي 480 دولار إلى 190 دولار (قياس في أبريل 2026). علاوة على ذلك، يستغرق الوصول إلى نقطة نهاية OpenAI في شرق الولايات المتحدة من منطقة KR في المتوسط 180-220 مللي ثانية، ولكن عند المرور عبر حافة AI Gateway ICN، يتم الرد في أقل من 18 مللي ثانية عند نجاح التخزين المؤقت، مما يحسن LCP بمقدار 0.9 ثانية ويرفع RPM الإعلاني بنسبة حوالي 12% (تحقق متقاطع بين GA4 و AdSense). هناك مشكلة في بيئة IPv6 لمزودي خدمات الاتصالات في كوريا حيث أن الاستدعاء الأول في سلسلة الاستبدال غالبًا ما يؤدي إلى انتهاء المهلة لمدة 8 ثوانٍ، لذا كان من الأفضل تقصير request_timeout_ms: 4000 وإعادة التوجيه بسرعة إلى النموذج الثاني للحفاظ على SLA. أخيرًا، نقطة غالبًا ما يغفلها الشركات الناشئة في كوريا هي يجب ضبط حد الطلب لكل مستخدم بناءً على معرف جلسة NextAuth وليس على IP — حيث أن العديد من الأشخاص يشاركون نفس IP بسبب NAT لمزودي خدمات الاتصالات، مما يعني أنه إذا تم ضبط الحد على 10 طلبات في الدقيقة بناءً على IP، سيتم حظر المستخدمين العاديين.

الخاتمة

استدعاء API لـ LLM مباشرةً يحتوي على العديد من العوامل الغامضة من حيث التشغيل. يوفر CF AI Gateway طبقة بروكسي واحدة فقط تتيح لك الحصول على المراقبة والتخزين المؤقت وحد الطلب والاستبدال في آن واحد، مما يجعله نمطًا أساسيًا لتشغيل LLM في الإنتاج لعام 2026.

🔧 Related Free Tools

ذو صلة