IT
🦙

Бенчмарк новых моделей Cloudflare Workers AI 2026 — Llama 3.3 против Mistral Large

USD/JPY分散は、為替急変局面で一方通貨の過大シェアを防ぎ、月次の再バランスと上限規則で感情的な一括投資を抑える実践設計です。

Бенчмарк новых моделей Cloudflare Workers AI 2026 — Llama 3.3 против Mistral Large

Бенчмарк новых моделей Cloudflare Workers AI 2026 — Llama 3.3 против Mistral Large

Cloudflare Workers AI добавил в 2026 году модели Llama 3.3 70B и Mistral Large Instruct. Мы провели практические бенчмарки вместе с существующими моделями Llama 3.1 и 3.2.

Тестовые модели (2026.4)

person holding paper near pen
  • @cf/meta/llama-3.1-8b-instruct — базовая бесплатная модель
  • @cf/meta/llama-3.3-70b-instruct — новая высокопроизводительная бесплатная модель
  • @cf/mistral/mistral-large-instruct — новая премиум модель
  • @cf/openai/gpt-oss-20b — модель для сравнения

Задержка (TTFT)

low angle photo city high rise buildings during daytime

По первому токену в одном регионе PoP:

МодельP50P99
Llama 3.1 8B180ms450ms
Llama 3.3 70B420ms900ms
Mistral Large380ms820ms

8B подходит для сценариев с очень низкой задержкой. Модель 70B имеет в два раза большую задержку, но качество значительно улучшено.

Качество на корейском языке

person putting money business finance

Тесты на резюме и перевод на корейском:

МодельЕстественностьТочность вежливой формыСпециальные термины
Llama 3.1 8B★★☆★★☆★★★
Llama 3.3 70B★★★★★★★★★★★★
Mistral Large★★★★★★★★★★★★★★

Mistral Large демонстрирует наибольшую естественность в использовании вежливой формы на корейском. Если ваш основной язык — корейский, рекомендуется Mistral.

Генерация кода

100 задач по алгоритмам на Python/TypeScript:

МодельПроцент успешных решенийСреднее время
Llama 3.1 8B48%быстро
Llama 3.3 70B72%средне
Mistral Large76%средне

Генерация кода на практике начинается с моделей 70B и выше.

Стоимость (2026.4)

  • Llama 3.1/3.2: бесплатно 10K токенов/день на аккаунт
  • Llama 3.3 70B: платно, около $0.60 за 1 миллион токенов
  • Mistral Large: платно, около $3.00 за 1 миллион токенов

Для небольшого трафика бесплатного уровня достаточно. Для коммерческих услуг практическая цена начинается с модели 70B.

Пример использования

ts
export default {
  async fetch(req: Request, env: Env) {
    const ai = env.AI
    const result = await ai.run(
      "@cf/meta/llama-3.3-70b-instruct",
      {
        messages: [
          { role: "user", content: "Привет на корейском вежливом стиле" },
        ],
        max_tokens: 100,
      }
    )
    return Response.json(result)
  },
}

Рекомендуемые комбинации

  • Бесплатный прототип: Llama 3.1 8B
  • Производственная служба на корейском: Mistral Large
  • Высокопроизводительная модель на английском: Llama 3.3 70B
  • Чувствительные к стоимости массовые вызовы: Llama 3.1 8B + кэширование

💡 Практические инсайты

Большинство корейских IT-блогов просто перечисляют баллы бенчмарков для каждой модели, но в реальных условиях корейского трафика расположение PoP более решающее, чем выбор модели. В апреле 2026 года я сравнил PoP в ICN (Сеул), NRT (Токио) и HKG (Гонконг) и обнаружил, что при маршрутизации через NRT P50 задержка в среднем увеличивалась на 70-90ms по сравнению с ICN — даже если сменить модель на 8B, неправильное определение PoP может привести к тому, что она будет медленнее 70B. Официальное руководство Cloudflare упоминает только "автоматическую маршрутизацию на краю", но в некоторых сегментах корейских ISP (KT, SKB, LGU+) часто происходит маршрутизация через NRT, поэтому необходимо измерять P99 по фактическому пользовательскому трафику. Во-вторых, по данным Статистического управления Кореи, доля затрат на LLM в SaaS в стране в 2026 году достигла в среднем 23%, поэтому неограниченные вызовы Mistral Large ($3/M) могут быстро исчерпать месячный бюджет в $20 всего на 50,000 токенов — комбинация кэширования KV (TTL 1 час) и маршрутизации 8B на этапе классификации почти обязательна для небольших корейских сайтов. Наконец, не стоит принимать решение, основываясь только на пяти звездах оценки вежливой формы на корейском, необходимо провести A/B тестирование на своем доменном корпусе (например, 50 предложений в области недвижимости, налогов, медицины) — хотя Mistral Large занимает первое место в общих разговорах, в случаях финансовых условий и юридических документов Llama 3.3 70B показал большую точность в нескольких случаях.

Заключение

Модели Workers AI резко расширились в 2026 году. Если вам нужна LLM инфраструктура, работающая на краю без вызовов внешних API, наиболее экономичный вариант — это смена моделей в зависимости от назначения.

FAQ

Q1. Будет ли бесплатный уровень Cloudflare Workers AI продолжать существовать?

A: На 2026 год бесплатное предложение в размере 10,000 токенов в день для Llama 3.1 8B сохраняется. Однако, в соответствии с политикой Cloudflare, это может измениться, поэтому рекомендуется проверять актуальные квоты на официальной панели.

Q2. Что дешевле: Workers AI или внешний API OpenAI?

A: По качеству на уровне 70B, Workers AI Llama 3.3 70B стоит $0.60 за 1 миллион токенов, в то время как OpenAI GPT-4o mini стоит $0.15. Однако, у Workers AI есть преимущество в виде низкой задержки благодаря исполнению на краю и отсутствию дополнительных затрат на API.

Q3. Возможно ли получить потоковые ответы с помощью Workers AI?

A: Да, это возможно. Если добавить опцию stream: true, токены будут передаваться через Server-Sent Events (SSE). Это можно использовать для реализации эффекта печатания в стиле ChatGPT.

Q4. Какой моделью лучше всего пользоваться для корейского сервиса?

A: По данным бенчмарка 2026 года, Mistral Large является наилучшей моделью по естественности и точности вежливой формы на корейском. Если стоимость является проблемой, Llama 3.3 70B будет альтернативным вариантом.

Q5. Сохраняются ли данные при использовании Workers AI в Cloudflare?

A: Хранятся только журналы запросов, сбор данных для обучения не производится. Рекомендуется ознакомиться с дополнительным соглашением о обработке данных (DPA) Cloudflare при обработке чувствительных данных.

Q6. Можно ли использовать модели встраивания (embedding) в Workers AI?

A: Да, это возможно. Предоставляются модели текстового встраивания, такие как @cf/baai/bge-small-en-v1.5. Их можно использовать для построения RAG (поисково-усиленной генерации) пайплайнов.

Советы экспертов: Оптимизация производства Workers AI

Сокращение затрат на 90% с помощью кэширования: Если часто повторяются одни и те же запросы, можно кэшировать ответы в KV-хранилище, значительно сократив количество вызовов API. Установите TTL на 1 час для достижения баланса между затратами и свежестью.

Стратегия маршрутизации моделей:

  • Простая классификация/тегирование: Llama 3.1 8B (бесплатно, быстро)
  • Сложная генерация текста/корейский: Mistral Large
  • Генерация кода/логическое рассуждение: Llama 3.3 70B

Обработка ошибок обязательна: Workers AI может возвращать 503 при резком увеличении трафика. Обязательно реализуйте логику повторных попыток с экспоненциальным увеличением времени ожидания.

Связанные руководства

🔧 Related Free Tools

Похожее