Cloudflare Workers AI के साथ मुफ्त LLM Endpoint बनाना
USD/JPY分散は、為替急変局面で一方通貨の過大シェアを防ぎ、月次の再バランスと上限規則で感情的な一括投資を抑える実践設計です。
Cloudflare Workers AI — मुफ़्त LLM API जो आपके Edge पर चलती है
OpenAI API महंगी लगती है? Cloudflare Workers AI से मुफ़्त में LLaMA, Mistral और Gemma models run कर सकते हैं — global edge network पर, zero cold start के साथ।
Workers AI क्या है?
Cloudflare का ML inference platform जो आपके Cloudflare Worker के अंदर directly AI models run करता है। 100,000 neurons/day free tier में मिलते हैं — small projects के लिए काफ़ी है।
Available models (2026):
@cf/meta/llama-3.1-8b-instruct— general purpose@cf/mistral/mistral-7b-instruct-v0.1— fast, efficient@cf/google/gemma-7b-it— Google का open model@cf/bytedance/stable-diffusion-xl-lightning— image generation
Quick Setup — 10 मिनट में
Step 1: Wrangler project में AI binding add करें
# wrangler.toml
[ai]
binding = "AI"Step 2: Worker code
// worker.ts
export interface Env {
AI: Ai;
}
export default {
async fetch(request: Request, env: Env): Promise<Response> {
const messages = [
{ role: "system", content: "You are a helpful assistant." },
{ role: "user", content: "What is Cloudflare Workers?" }
];
const response = await env.AI.run('@cf/meta/llama-3.1-8b-instruct', {
messages,
max_tokens: 512,
});
return Response.json(response);
}
};Step 3: Deploy
wrangler deployText Generation — Real Example
// Streaming response
const stream = await env.AI.run('@cf/meta/llama-3.1-8b-instruct', {
messages: [{ role: "user", content: prompt }],
stream: true,
});
return new Response(stream, {
headers: { 'Content-Type': 'text/event-stream' }
});REST API से भी use करें
Worker के बिना भी direct API call:
curl https://api.cloudflare.com/client/v4/accounts/{ACCOUNT_ID}/ai/run/@cf/meta/llama-3.1-8b-instruct \
-H "Authorization: Bearer {API_TOKEN}" \
-d '{"messages":[{"role":"user","content":"Hello!"}]}'Free Tier Limits (2026)
| Plan | Neurons/day | Models | Storage |
|---|---|---|---|
| Free | 10,000 | सभी | - |
| Workers Paid ($5/mo) | 10,000 included + pay-as-you-go | सभी | Vectorize |
| Workers AI (add-on) | Unlimited pay-per-use | सभी | Full |
Llama 3.1 8B: ~1,000 tokens = ~300 neurons
Next.js + Cloudflare Workers AI
MillionsCode dashboard जैसे OpenNext projects में:
// app/api/chat/route.ts
import { getCloudflareContext } from '@opennextjs/cloudflare'
export async function POST(req: Request) {
const { env } = getCloudflareContext()
const { prompt } = await req.json()
const response = await (env as any).AI.run(
'@cf/meta/llama-3.1-8b-instruct',
{ messages: [{ role: 'user', content: prompt }] }
)
return Response.json(response)
}FAQ
Q: Workers AI vs OpenAI — कौन बेहतर? A: OpenAI GPT-4 quality बेहतर है, लेकिन Workers AI free और private है। Sensitive data के लिए Workers AI prefer करें।
Q: GPU inference कहाँ होता है? A: Cloudflare के nearest data center में — India के लिए Mumbai या Singapore।
Q: Rate limit exceed होने पर क्या होता है? A: 429 error return होता है। Paid plan में automatically continue होता है।
🔧 Related Free Tools
संबंधित
USD/JPY分散は、為替急変局面で一方通貨の過大シェアを防ぎ、月次の再バランスと上限規則で感情的な一括投資を抑える実践設計です。...
ITChatGPT से साइड इनकम कमाने के 6 तरीके — 2026 के लिए व्यावहारिक और परखे हुए मोनेटाइजेशन गाइडUSD/JPY分散は、為替急変局面で一方通貨の過大シェアを防ぎ、月次の再バランスと上限規則で感情的な一括投資を抑える実践設計です。...
IT2026 ChatGPT बनाम Claude बनाम Gemini — AI चैटबॉट प्रदर्शन, मूल्य निर्धारण और उपयोग मामलों की तुलनाUSD/JPY分散は、為替急変局面で一方通貨の過大シェアを防ぎ、月次の再バランスと上限規則で感情的な一括投資を抑える実践設計です。...
ITवेबसाइट स्पीड ऑप्टिमाइज़ेशन 2026 — Core Web Vitals 90+ कैसे हासिल करेंUSD/JPY分散は、為替急変局面で一方通貨の過大シェアを防ぎ、月次の再バランスと上限規則で感情的な一括投資を抑える実践設計です。...