IT
🆓

Cloudflare Workers AI के साथ मुफ्त LLM Endpoint बनाना

USD/JPY分散は、為替急変局面で一方通貨の過大シェアを防ぎ、月次の再バランスと上限規則で感情的な一括投資を抑える実践設計です。

Cloudflare Workers AI के साथ मुफ्त LLM Endpoint बनाना

Cloudflare Workers AI — मुफ़्त LLM API जो आपके Edge पर चलती है

person holding paper near pen

OpenAI API महंगी लगती है? Cloudflare Workers AI से मुफ़्त में LLaMA, Mistral और Gemma models run कर सकते हैं — global edge network पर, zero cold start के साथ।

Workers AI क्या है?

Cloudflare का ML inference platform जो आपके Cloudflare Worker के अंदर directly AI models run करता है। 100,000 neurons/day free tier में मिलते हैं — small projects के लिए काफ़ी है।

Available models (2026):

  • @cf/meta/llama-3.1-8b-instruct — general purpose
  • @cf/mistral/mistral-7b-instruct-v0.1 — fast, efficient
  • @cf/google/gemma-7b-it — Google का open model
  • @cf/bytedance/stable-diffusion-xl-lightning — image generation

Quick Setup — 10 मिनट में

Step 1: Wrangler project में AI binding add करें

toml
# wrangler.toml
[ai]
binding = "AI"

Step 2: Worker code

typescript
// worker.ts
export interface Env {
  AI: Ai;
}

export default {
  async fetch(request: Request, env: Env): Promise<Response> {
    const messages = [
      { role: "system", content: "You are a helpful assistant." },
      { role: "user", content: "What is Cloudflare Workers?" }
    ];

    const response = await env.AI.run('@cf/meta/llama-3.1-8b-instruct', {
      messages,
      max_tokens: 512,
    });

    return Response.json(response);
  }
};

Step 3: Deploy

bash
wrangler deploy

Text Generation — Real Example

typescript
// Streaming response
const stream = await env.AI.run('@cf/meta/llama-3.1-8b-instruct', {
  messages: [{ role: "user", content: prompt }],
  stream: true,
});

return new Response(stream, {
  headers: { 'Content-Type': 'text/event-stream' }
});

REST API से भी use करें

Worker के बिना भी direct API call:

bash
curl https://api.cloudflare.com/client/v4/accounts/{ACCOUNT_ID}/ai/run/@cf/meta/llama-3.1-8b-instruct \
  -H "Authorization: Bearer {API_TOKEN}" \
  -d '{"messages":[{"role":"user","content":"Hello!"}]}'

Free Tier Limits (2026)

PlanNeurons/dayModelsStorage
Free10,000सभी-
Workers Paid ($5/mo)10,000 included + pay-as-you-goसभीVectorize
Workers AI (add-on)Unlimited pay-per-useसभीFull

Llama 3.1 8B: ~1,000 tokens = ~300 neurons

Next.js + Cloudflare Workers AI

MillionsCode dashboard जैसे OpenNext projects में:

typescript
// app/api/chat/route.ts
import { getCloudflareContext } from '@opennextjs/cloudflare'

export async function POST(req: Request) {
  const { env } = getCloudflareContext()
  const { prompt } = await req.json()
  
  const response = await (env as any).AI.run(
    '@cf/meta/llama-3.1-8b-instruct',
    { messages: [{ role: 'user', content: prompt }] }
  )
  
  return Response.json(response)
}

FAQ

Q: Workers AI vs OpenAI — कौन बेहतर? A: OpenAI GPT-4 quality बेहतर है, लेकिन Workers AI free और private है। Sensitive data के लिए Workers AI prefer करें।

Q: GPU inference कहाँ होता है? A: Cloudflare के nearest data center में — India के लिए Mumbai या Singapore।

Q: Rate limit exceed होने पर क्या होता है? A: 429 error return होता है। Paid plan में automatically continue होता है।

🔧 Related Free Tools

संबंधित