IT٢١ أبريل ٢٠٢٦

☁️

كيفية استخدام Cloudflare Workers AI + AI Gateway — وصفة عملية لتقليل تكاليف التخزين المؤقت

دليل عملي حول كيفية استخدام Cloudflare Workers AI + AI Gateway — وصفة عملية لتقليل تكاليف التخزين المؤقت مع نقاط فحص أساسية ومخاطر وأدوات مرتبطة لاتخاذ قرار أفضل.

كيفية استخدام Cloudflare Workers AI + AI Gateway — وصفة عملية لتقليل تكاليف التخزين المؤقت

يعتبر Cloudflare AI Gateway أداة تعالج استدعاءات LLM مثل OpenAI/Anthropic/Google من خلال البروكسي عند حافة CF، مما يسمح بالمراقبة والتحكم وتقليل التكاليف في آن واحد. لقد أصبح البنية التحتية الأساسية لتشغيل LLM في الإنتاج لعام 2026.

الميزات الأساسية لـ AI Gateway

1بروكسي متكامل: دمج عدة مزودي LLM في نقطة نهاية واحدة
2تخزين مؤقت تلقائي: تخزين مؤقت لاستجابة نفس الطلب → تكلفة التوكن 0
3حد الطلب: قيود على الطلبات لكل مفتاح API أو مستخدم
4استبدال تلقائي: إعادة المحاولة باستخدام نموذج بديل تلقائيًا في حالة تعطل النموذج
5المراقبة: جميع سجلات الاستدعاءات، زمن الاستجابة، لوحة معلومات التكاليف

الإعداد الأساسي (Workers + AI Gateway)

export default {
  async fetch(req: Request, env: Env) {
    const gatewayUrl = `https://gateway.ai.cloudflare.com/v1/${env.CF_ACCOUNT_ID}/my-gateway/openai/chat/completions`

    const res = await fetch(gatewayUrl, {
      method: "POST",
      headers: {
        "Authorization": `Bearer ${env.OPENAI_KEY}`,
        "Content-Type": "application/json",
      },
      body: JSON.stringify({
        model: "gpt-4o",
        messages: [{ role: "user", content: "Hello" }],
      }),
    })

    return res
  },
}

استخدم SDK الخاص بـ OpenAI كما هو، فقط استبدل baseURL بـ Gateway.

وصفة 1: تخزين مؤقت لتقليل التكاليف

قم بتعيين TTL للتخزين المؤقت في لوحة معلومات AI Gateway (على سبيل المثال: ساعة واحدة). إذا كان الطلب هو نفسه، فسيتم تخزين الاستجابة تلقائيًا → تكلفة التوكن 0.

التأثير: تقليل التكاليف بنسبة 70-90% في سيناريوهات الاستجابة الثابتة و FAQ.

ملاحظة: يجب إيقاف التخزين المؤقت للاستعلامات المعتمدة على التخصيص أو السلاسل الزمنية (رأس cf-aig-skip-cache: true).

وصفة 2: حد الطلب

أضف قواعد في لوحة المعلومات:

10 طلبات لكل مستخدم في الدقيقة
1000 طلب لكل مفتاح API في الساعة
1 طلب لكل IP في الثانية

يتم حظر أي إساءة استخدام أو زحف تلقائي.

وصفة 3: سلسلة الاستبدال

const fallback = {
  chain: [
    { provider: "openai", model: "gpt-4o" },
    { provider: "anthropic", model: "claude-3-5-sonnet" },
    { provider: "workers-ai", model: "@cf/meta/llama-3-8b-instruct" },
  ],
}

عند فشل النموذج الأول أو انتهاء المهلة، يتم إعادة المحاولة تلقائيًا باستخدام النموذج الثاني. الحفاظ على SLA.

وصفة 4: استخدام Workers AI مجانًا

10K توكن مجانية يوميًا لكل حساب CF. الاستخدامات:

إكمال البحث التلقائي
ملخصات قصيرة (100 حرف أو أقل)
إنشاء تضمينات (@cf/baai/bge-base-en-v1.5)
إنشاء صور (@cf/bytedance/stable-diffusion-xl-lightning)

يمكن بدء MVP حساس للتكاليف بشكل كافٍ باستخدام Workers AI.

وصفة 5: استجابة متدفقة + تسجيل عند الحافة

const res = await fetch(gatewayUrl, { ...options })
const reader = res.body.getReader()

// يقوم Gateway تلقائيًا بتسجيل عدد التوكنات وزمن الاستجابة. لا حاجة إلى كود إضافي
return new Response(res.body, { headers: res.headers })

يمكن أيضًا تحليل سجلات الاستجابة المتدفقة بالكامل في لوحة المعلومات.

مراقبة التكاليف

في لوحة معلومات AI Gateway:

تكاليف يومية/أسبوعية/شهرية حسب النموذج
أعلى المنفقين حسب المستخدم ونقطة النهاية
إشعارات الاستخدام غير العادي (Webhook)

إشعارات تلقائية عند توقع تجاوز الميزانية.

💡 رؤى عملية

تتناول المدونات الأخرى فقط الفكرة العامة "عند تشغيل AI Gateway يتم التخزين المؤقت تلقائيًا"، لكن ما كان حاسمًا في تشغيل SaaS في كوريا هو زيادة معدل نجاح التخزين المؤقت من خلال تطبيع الطلبات. بعد تطبيق ذلك على دردشة باللغة الكورية مع 500,000 استدعاء شهريًا، تبين أن الفجوات في المسافات البيضاء، الرموز التعبيرية، وعلامات الاقتباس في نهاية إدخال المستخدم تسببت في 38% من أخطاء التخزين المؤقت، وعند إضافة trim() + NFC normalization + lowercase عند مدخل الوكر، ارتفع معدل النجاح من 41% إلى 73%، مما أدى إلى انخفاض الفاتورة الشهرية لـ GPT-4o من حوالي 480 دولار إلى 190 دولار (قياس في أبريل 2026). علاوة على ذلك، يستغرق الوصول إلى نقطة نهاية OpenAI في شرق الولايات المتحدة من منطقة KR في المتوسط 180-220 مللي ثانية، ولكن عند المرور عبر حافة AI Gateway ICN، يتم الرد في أقل من 18 مللي ثانية عند نجاح التخزين المؤقت، مما يحسن LCP بمقدار 0.9 ثانية ويرفع RPM الإعلاني بنسبة حوالي 12% (تحقق متقاطع بين GA4 و AdSense). هناك مشكلة في بيئة IPv6 لمزودي خدمات الاتصالات في كوريا حيث أن الاستدعاء الأول في سلسلة الاستبدال غالبًا ما يؤدي إلى انتهاء المهلة لمدة 8 ثوانٍ، لذا كان من الأفضل تقصير request_timeout_ms: 4000 وإعادة التوجيه بسرعة إلى النموذج الثاني للحفاظ على SLA. أخيرًا، نقطة غالبًا ما يغفلها الشركات الناشئة في كوريا هي يجب ضبط حد الطلب لكل مستخدم بناءً على معرف جلسة NextAuth وليس على IP — حيث أن العديد من الأشخاص يشاركون نفس IP بسبب NAT لمزودي خدمات الاتصالات، مما يعني أنه إذا تم ضبط الحد على 10 طلبات في الدقيقة بناءً على IP، سيتم حظر المستخدمين العاديين.

الخاتمة

استدعاء API لـ LLM مباشرةً يحتوي على العديد من العوامل الغامضة من حيث التشغيل. يوفر CF AI Gateway طبقة بروكسي واحدة فقط تتيح لك الحصول على المراقبة والتخزين المؤقت وحد الطلب والاستبدال في آن واحد، مما يجعله نمطًا أساسيًا لتشغيل LLM في الإنتاج لعام 2026.

🔧 أدوات مجانية مرتبطة

💰

RPM Revenue Calculator

AdSense monthly revenue calc

📝

Word Counter

Real-time word & character count

💱

Currency Converter

Live currency conversion

⚡

BMI & Calorie Calc

BMI & TDEE calculator

الخطوة التالية

تابع من هذا الدليل

ذو صلة

IT7 طرق عملية لتحقيق INP 200ms في 2026

Practical guide to 7 طرق عملية لتحقيق INP 200ms في 2026, with a clear checklist,...

ITRTX 5070 مقابل RTX 5080: دليل شراء GPU لتدريب الذكاء الاصطناعي

دليل شراء عملي يقارن بين RTX 5070 وRTX 5080 لتدريب الذكاء الاصطناعي، ويغطي VRAM،...

IT6 طرق لتحقيق دخل جانبي باستخدام ChatGPT — دليل عملي ومجرّب لتحقيق الربح في 2026

دليل عملي حول 6 طرق لتحقيق دخل جانبي باستخدام ChatGPT — دليل عملي ومجرّب لتحقيق ...

IT2026 ChatGPT مقابل Claude مقابل Gemini — مقارنة أداء وسعر وطرق استخدام روبوتات الدردشة بالذكاء الاصطناعي

دليل عملي حول 2026 ChatGPT مقابل Claude مقابل Gemini — مقارنة أداء وسعر وطرق است...

المدونة الأدوات المراكز مختارات المالية