Ruflo – как экономить до 75% токенов в Claude Code
Ruflo маршрутизирует задачи между WASM, Haiku и Opus. Простые правки обрабатываются бесплатно, сложные – дорогой моделью. Результат: до 75% экономии токенов без потери качества.
Проблема: токены заканчиваются быстро
Подписка Claude Code – не бесконечная. Max даёт больше, Pro – ещё меньше. При активной работе лимит сгорает за несколько часов. Причина простая: Claude Code отправляет каждую задачу на Opus. Переименовать переменную – Opus. Добавить type hint – Opus. Поправить отступ – Opus.
80% задач в типичной coding-сессии – механические. Они не требуют reasoning уровня Opus. Но Claude Code не различает сложность – он просто шлёт всё на одну модель.
Ruflo решает эту проблему. Он встраивается между вами и Claude Code как MCP-сервер и маршрутизирует задачи по сложности на три уровня. Простое – бесплатно. Среднее – дёшево. Сложное – Opus, как раньше.
Установка
Одна команда:
Флаг `--full` устанавливает MCP-интеграцию с Claude Code и настраивает телеметрию.
Или через npx с интерактивным визардом:
Визард проведёт через настройку: выбор модели по умолчанию, пороги маршрутизации, конфигурация памяти.
После установки Ruflo автоматически появляется как MCP-сервер в Claude Code. Перезапустите сессию – и он активен.
curl -fsSL https://cdn.jsdelivr.net/gh/ruvnet/ruflo@main/scripts/install.sh | bash -s -- --fullnpx ruflo@latest init --wizardЧто Ruflo делает в фоне
После установки Ruflo работает прозрачно – вы продолжаете использовать Claude Code как обычно. Под капотом:
- 17 хуков перехватывают события: edit файла, запуск команды, создание PR
- 3 фоновых воркера обрабатывают очередь задач
- HNSW-индекс хранит паттерны успешных решений для переиспользования
- ReasoningBank кэширует reasoning-цепочки, чтобы не повторять одинаковые рассуждения
Вы не взаимодействуете с этим напрямую. Ruflo сам решает, когда использовать кэш, когда WASM, когда отправить на Haiku.
Swarm: параллельные агенты
Для крупных задач Ruflo запускает несколько агентов одновременно. Четыре топологии:
- Hierarchy – один координатор, несколько исполнителей. Подходит для code review (6–8 агентов проверяют разные аспекты)
- Mesh – агенты общаются напрямую. Для задач с тесной зависимостью
- Ring – каждый агент передаёт результат следующему. Pipeline-обработка
- Star – один агент собирает результаты от всех. Для параллельного сбора данных
Пример – запуск code review через swarm:
6 агентов работают параллельно: один проверяет security, другой – performance, третий – стиль. Координатор собирает и объединяет результаты. При этом большинство проверок идёт через Tier 1–2, Opus задействуется только для сложных security-кейсов.
ruflo swarm start --topology hierarchy --agents 6 --task "Review src/ for security vulnerabilities, performance issues, and code style violations"
Шаблоны CLAUDE.md
Ruflo включает 30+ готовых шаблонов CLAUDE.md под разные типы проектов:
- Web – React, Next.js, Vue
- API – REST, GraphQL, gRPC
- Mobile – React Native, Flutter
- AI/ML – training pipelines, model serving
- Методологии – TDD, DDD, Agile
Каждый шаблон содержит оптимизированные правила маршрутизации для конкретного типа проекта. Шаблон для React, например, знает, что создание компонентов-обёрток – это Tier 2, а проектирование state management – Tier 3.
ruflo template list
ruflo template apply nextjs-app
Честные ограничения
Cold start. Ruflo самообучающийся – Q-Learning роутер набирает точность со временем. Первые сессии экономия будет скромнее. Реальные преимущества появляются после накопления паттернов.
Alpha-статус. Пакет активно разрабатывается. В апреле 2026 вышло три релиза за один день (v3.5.49–3.5.51) с P0-фиксами. Ожидайте шероховатости.
Фоновые воркеры. До v3.5.48 воркеры запускались автоматически и сами потребляли токены. Сейчас `autoStart` по умолчанию выключен, количество воркеров сокращено с 10 до 3. Но следите за метриками.
Независимых бенчмарков нет. Цифры 75% экономии и 250% эффективности – заявления авторов. Реальные результаты зависят от проекта.
Место на диске. HNSW-индексы, knowledge graphs и vector embeddings занимают место. Для крупных проектов – несколько сотен мегабайт.
Итого: стоит ли ставить
Ruflo решает реальную проблему – бездумный расход токенов на механические задачи. Идея 3-тировой маршрутизации здравая: не все задачи заслуживают Opus.
Ставить имеет смысл если:
- Вы упираетесь в лимит токенов на подписке
- Большая часть работы – рефакторинг, правки, тесты (много Tier 1–2 задач)
- Готовы к alpha-качеству и периодическим багам
Не ставить если:
- Работаете в основном с архитектурой (всё равно пойдёт на Tier 3)
- Проект маленький и лимита хватает
- Нужна абсолютная стабильность
Попробуйте на тестовом проекте, посмотрите на `token-report` через пару дней. Цифры скажут больше, чем любые обещания.
:::cta
Вступить в Edge Lab
:::