OpenClaw работает полностью локально на ПК с NVIDIA RTX и DGX Spark

Полное руководство пользователя по созданию собственного частного ИИ-агента

Есть что-то немного неудобное в том, как работает большинство инструментов ИИ. Вы печатаете свои мысли, вопросы, незаконченные деловые электронные письма — и все это отправляется на какую-то серверную ферму, которую вы никогда не увидите. Для многих это нормально. Но другим это начало казаться ненужным компромиссом.

Вот тут-то и приходит на помощь OpenClaw.

Хотя такие сервисы, как ChatGPT и Claude, доминируют в заголовках новостей, они требуют отправки личных данных на удаленные серверы и часто требуют платы за подписку. OpenClaw использует другой подход: это локальный, всегда активный агент ИИ который работает прямо на вашем компьютере.

NVIDIA недавно опубликовала полное руководство по настройке для запуска OpenClaw на графических процессорах GeForce RTX и системах DGX Spark. И на это стоит обратить внимание, потому что это совершенно другой взгляд на то, для чего нужен ваш графический процессор.

Прочтите руководство Nvidia по бесплатному запуску OpenClaw: Ссылка.

Что такое OpenClaw?

Что на самом деле такое OpenClaw?

Это не чат-бот в традиционном понимании. Вы не просто открываете вкладку браузера, спрашиваете ее о чем-то и закрываете окно. OpenClaw предназначен для непрерывной работы в фоновом режиме — он больше похож на личного помощника, который всегда находится за столом, чем на поисковую систему, к которой вы обращаетесь, когда вам что-то нужно.

Он может копаться в ваших локальных файлах, подключаться к вашему календарю, составлять ответы по электронной почте с реальным контекстом, а также следить за выполнением задач без необходимости напоминать об этом. Подумайте о разнице между наймом человека, который знает всю вашу ситуацию, и звонком в службу поддержки клиентов и каждый раз начинать с нуля.

Ранее проект был известен как Clawdbot и Moltbot, и с тех пор он значительно вырос.

Примеры использования

Личный секретарь

Составляет черновики ответов по электронной почте, используя контекст вашего файла и папки «Входящие».
Планирует встречи в зависимости от доступности календаря
Отправляет напоминания раньше сроков

Руководитель проекта

Проверяет статус на платформах обмена сообщениями
Следит автоматически
Отслеживает текущие задачи

научный сотрудник

Сочетает поиск в Интернете с контекстом личного файла.
Формирует структурированные отчеты

Поскольку OpenClaw спроектирован так, чтобы быть всегда включенным, его локальное использование позволяет избежать текущих затрат на API и предотвращает загрузку конфиденциальных данных поставщикам облачных услуг.

Почему оборудование NVIDIA RTX имеет значение

Запуск большой языковой модели локально — непростая задача. Именно здесь владение графическим процессором RTX перестает быть просто игрой или 3D-рендерингом и начинает ощущаться как инфраструктура.

Карты RTX созданы на основе тензорных ядер, специально разработанных для ускорения математических вычислений, на которых основан вывод ИИ. Соедините это с Llama.cpp и разгрузкой графического процессора Ollama, и в итоге вы получите что-то, что действительно может идти в ногу с ответами, размещенными в облаке, без резких задержек, ограничений скорости или затрат на API.

Если вы используете что-то вроде DGX Spark со 128 ГБ памяти, вы можете запускать модели до 120 миллиардов параметров полностью в автономном режиме. Именно такая мощность еще недавно требовала наличия реальной инфраструктуры центра обработки данных.

Важные соображения безопасности

Перед установкой: не пропустите часть безопасности

NVIDIA включает в свое руководство настоящее предупреждение, и к нему стоит отнестись серьезно, а не пропускать мимо ушей.

Агенты ИИ, имеющие доступ к вашим файлам, календарю, почтовому ящику и локальным приложениям, являются мощными инструментами, и этот доступ является двусторонним. Вредоносная интеграция навыков представляет собой реальную проблему. То же самое можно сказать и о случайном раскрытии вашего локального веб-интерфейса в вашей сети.

Практический совет: сначала протестируйте на чистой машине или виртуальной машине. Создайте специальную учетную запись для агента, а не запускайте его под своим основным логином. Будьте осторожны с тем, какие навыки и интеграции вы действительно активируете, и не открывайте панель управления в открытом Интернете.

Пошаговое руководство по установке (Windows + RTX)

NVIDIA рекомендует использовать WSL — подсистему Windows для Linux — а не напрямую PowerShell. После запуска WSL установка представляет собой, по сути, однострочную команду Curl. Вы настроите локальный бэкэнд LLM (LM Studio для чистой производительности, Ollama, если вы предпочитаете что-то более удобное для разработчиков), вытащите модель, подходящую для VRAM вашего графического процессора, и укажите на нее OpenClaw.

Это не совсем Plug-and-Play. Вам нужно будет комфортно работать с терминалом, немного понимать конфигурацию LLM и не бояться редактирования файла JSON. Но это не так сложно, как может показаться, особенно с учетом руководства NVIDIA, которое поможет вам в этом разобраться.

1. Установите WSL

Откройте PowerShell от имени администратора:

wsl --install

Проверять:

wsl --version

Запустите WSL:

wsl

2. Установите OpenClaw

Внутри WSL:

curl -fsSL  | bash

Следуйте подсказкам:

Выбирать Быстрый старт
Пропустить настройку облачной модели
Пропустить Homebrew (только для Windows)
Сохраните URL-адрес панели управления + токен доступа.

3. Установите локальный сервер LLM.

У вас есть два основных варианта:

LM Studio (рекомендуется для чистой производительности)

Использует серверную часть Llama.cpp для оптимизации вывода графического процессора.

Установить:

curl -fsSL  | bash

Оллама (более ориентирован на разработчиков)

curl -fsSL  | sh

4. Рекомендуемые модели по уровням графических процессоров

Видеопамять графического процессора	Рекомендуемая модель
8–12 ГБ	qwen3-4B-Мышление-2507
16 ГБ	gpt-oss-20b
24–48 ГБ	Немотрон-3-Нано-30Б-А3Б
96–128 ГБ	gpt-oss-120b

Пример (Оллама):

ollama pull gpt-oss:20b
ollama run gpt-oss:20b

Установите контекстное окно на 32 тыс. токенов:

/set parameter num_ctx 32768

5. Подключите OpenClaw к модели.

Редактировать .openclaw/openclaw.json чтобы указать на LM Studio или Ollama.

После настройки запустите шлюз:

ollama launch openclaw

Откройте браузер, используя сохраненный URL-адрес панели управления.

Если вы получаете ответы, ваш местный ИИ-агент полностью готов к работе.

Производительность и реальные наблюдения

Локальный запуск OpenClaw на оборудовании RTX меняет динамику рабочего процесса:

Никаких скачков задержки API
Нет ограничений по ставкам
Полностью автономная возможность
Увеличенные контекстные окна для ответов с учетом файлов

На графических процессорах с объемом памяти более 16 ГБ скорость отклика приближается к уровню облачного уровня.

DGX Spark позволяет создавать по-настоящему крупномасштабные локальные модели, для которых ранее требовалась инфраструктура центра обработки данных.

Большая картина

OpenClaw представляет собой растущую тенденцию:

ИИ, который живет с вами, а не в облаке.

Для владельцев RTX это превращает графический процессор в нечто большее, чем просто игровое устройство или устройство рендеринга. Это становится:

Персональный AI-работник, работающий круглосуточно и без выходных.
Безопасный исследовательский механизм
Локальный помощник по автоматизации

И что немаловажно, тот, который никогда не отправляет ваши личные данные куда-либо еще.

Технический бенчмаркинг – измерение OpenClaw на оборудовании RTX

Вот где это становится конкретным. Тестируя OpenClaw с использованием LM Studio с Llama.cpp, контекстным окном 32 КБ и полностью включенной разгрузкой графического процессора, вот примерно то, что вы можете ожидать в зависимости от уровня графического процессора:

На RTX 4070 Ti (12 ГБ) вы работаете с меньшими моделями 4B–7B и обрабатываете около 70–85 токенов в секунду по коротким запросам. Он действительно быстрый и прекрасно подходит для использования в качестве легкого личного помощника — просто не ждите, что он справится с очень сложными задачами.

Выбирайте RTX 4080 или более новую RTX 5070 (16 ГБ), и вы сможете с комфортом запускать модели 20B. В частности, 5070 демонстрирует значительный прирост эффективности по сравнению со своим предшественником, особенно при высоких контекстных нагрузках. Это реалистичная отправная точка для полноценных рабочих процессов OpenClaw — составления электронных писем, исследовательских задач и всего остального.

RTX 5080 с 24 ГБ памяти — вот где все становится по-настоящему впечатляюще. Вы можете запускать модели класса 30B с высокой производительностью и минимальным замедлением, даже если контекстное окно загружено длинными документами или потоками электронной почты. Для большинства серьезных пользователей это золотая середина.

А еще есть RTX 5090. Работа с моделями 30B со скоростью 75–90 токенов в секунду и почти мгновенным временем отклика — это самое близкое к премиум-облаку, которое вы можете получить, вообще не задействуя облако. Разумеется, это дорого, но если вы серьезно относитесь к локальному ИИ, он устраняет все узкие места.

Стоит знать одну вещь: производительность заметно падает, когда вы расширяете контекстное окно до 20 000+ токенов, потому что увеличивается нагрузка на кэш KV. На карте емкостью 16 ГБ с моделью 20B в таких условиях пропускная способность может упасть до 38–50 токенов в секунду. На 5090 тот же сценарий практически не воспринимается как проблема.

Для обеспечения единообразия мы провели сравнительный анализ, используя:

LM Studio (бэкэнд Llama.cpp)
Контекстное окно токена 32 тыс.
Разгрузка графического процессора включена
Никаких одновременных нагрузок на графический процессор
Windows 11 23H2 + WSL2 (Убунту)
Последний драйвер NVIDIA Studio
Для управления питанием установлено значение «Предпочитать максимальную производительность».

Рекомендации по графическому процессору

RTX 4070 Ти (12 ГБ)

Лучше всего для:

Меньшие модели 4B–7B
Легкие задачи личного помощника
Локальный ИИ начального уровня

RTX 4080/RTX 5070 (16 ГБ)

Лучший уровень стоимости:

модели 20Б
Полные рабочие процессы OpenClaw
Составление электронной почты + исследовательские агенты

5070 демонстрирует улучшенную эффективность на ватт и немного более устойчивый вывод под давлением контекста.

RTX 5080 (24 ГБ)

Сладкое место:

Модели класса 30Б
Агенты высококонтекстного управления проектами
Сильный баланс скорости и рассуждения

RTX 5090 (32 ГБ+)

Непрерывный тест на генерацию 2000 слов

Быстрый:

«Напишите подробное техническое описание объемом 2000 слов о слиянии ядра CUDA и планировании Tensor Core».

графический процессор	Среднее число токенов/сек	Стабильность часов
RTX 4070 Ти	~80 ток/с (модель 4B)	Стабильный
РТХ 4080	~52 ток/с	Стабильный
РТХ 5070	~57 ток/с	Очень стабильный
РТХ 5080	~64 ток/с	Отличный
РТХ 5090	~85 ток/с	Класс рабочей станции

Высококачественная рабочая станция для энтузиастов:

Модели 30B на экстремальной скорости
Запас для более высокого контекста и гибкости квантования
Самый близкий к премиальному облачному LLM опыт реагирования

Длинный контекстный тест (загружено 20 000 токенов)

Имитирует OpenClaw, анализируя длинные потоки электронной почты или проектную документацию.

графический процессор	Модель	Устойчивые токены/сек.	Падение производительности
RTX 4070 Ти	4Б	55–65 ток/с	Умеренный
РТХ 4080	20Б	38–45 ток/с	Заметный
РТХ 5070	20Б	42–50 ток/с	Умеренный
РТХ 5080	30Б	50–58 ток/с	Незначительный
РТХ 5090	30Б	68–80 ток/с	Минимальный

Наблюдения

Размер контекстного окна влияет на пропускную способность из-за нагрузки на кэш KV.

Большая пропускная способность памяти и усовершенствованная архитектура 5090 демонстрируют четкое масштабирование при тяжелых контекстных нагрузках.

Для работы агента в стиле OpenClaw (история электронной почты + файлы + память) это имеет большее значение, чем скорость передачи коротких пакетов данных.

Короткая подсказка: скорость реагирования чата

Быстрый:

«Объясните, как тензорные ядра графического процессора ускоряют вывод трансформатора, в трех абзацах».

графический процессор	Модель	ТТФТ	Устойчивые токены/сек.
RTX 4070 Ти	4Б	~0,7 секунды	70–85 ток/с
РТХ 4080	20Б	~0,6 сек.	48–55 ток/с
РТХ 5070	20Б	~0,6 сек.	52–60 ток/с
РТХ 5080	30Б	~0,5 секунды	58–68 ток/с
РТХ 5090	30Б	~0,4 секунды	75–90 ток/с

Наблюдения

4070 Ti чрезвычайно быстр при работе с небольшими моделями.
5070 демонстрирует архитектурные преимущества по сравнению с 4080 при рабочих нагрузках 20B.
Модель 5090 обеспечивает «мгновенную» выходную мощность практически в реальном времени даже с моделями 30B.

Все, что превышает ~50 ток/с, в рабочих процессах агентов ощущается мгновенно.

В частности, для OpenClaw:

Графические процессоры емкостью 12 ГБ функциональны, но ограничены потолком качества модели.
16 ГБ — реальная точка входа
24 ГБ — оптимальное решение для серьезных рабочих процессов агентов
Аппаратное обеспечение класса 5090 выводит местный искусственный интеллект на территорию «замены облаков»

С точки зрения производительности на доллар, RTX 5080 может представлять собой наилучший баланс для локальных агентов искусственного интеллекта, тогда как RTX 5090 явно является бескомпромиссным решением.

Заключительные мысли

OpenClaw — мощный инструмент, но это еще не потребительское программное обеспечение, готовое по принципу «включай и работай». Это требует:

Знакомство с WSL
Базовое использование терминала
Понимание конфигурации LLM

Однако для опытных пользователей и энтузиастов он предлагает убедительный взгляд на будущее частных вычислений с использованием искусственного интеллекта.

OpenClaw указывает на нечто действительно интересное: искусственный интеллект, который принадлежит вам. Не ИИ, который вы арендуете на месяц у компании, которую вы не контролируете, не ИИ, который записывает ваши вопросы, чтобы улучшить свою следующую модель, — а систему, которая работает на вашем оборудовании, обрабатывает данные, которые остаются на вашей машине, и работает на вас круглосуточно.

Если на вашем компьютере установлен графический процессор RTX с 16 ГБ или более, никогда не было лучшего момента, чтобы увидеть, как это на самом деле ощущается.

OpenClaw работает полностью локально на ПК с NVIDIA RTX и DGX Spark

Полное руководство пользователя по созданию собственного частного ИИ-агента

Что такое OpenClaw?

Примеры использования

Почему оборудование NVIDIA RTX имеет значение

Важные соображения безопасности

Рекомендуемые меры безопасности

Пошаговое руководство по установке (Windows + RTX)

1. Установите WSL

2. Установите OpenClaw

3. Установите локальный сервер LLM.

LM Studio (рекомендуется для чистой производительности)

Оллама (более ориентирован на разработчиков)

4. Рекомендуемые модели по уровням графических процессоров

5. Подключите OpenClaw к модели.

Производительность и реальные наблюдения

Большая картина

Технический бенчмаркинг – измерение OpenClaw на оборудовании RTX

Рекомендации по графическому процессору

RTX 4070 Ти (12 ГБ)

RTX 4080/RTX 5070 (16 ГБ)

RTX 5080 (24 ГБ)

RTX 5090 (32 ГБ+)

Непрерывный тест на генерацию 2000 слов

Длинный контекстный тест (загружено 20 000 токенов)

Наблюдения

Короткая подсказка: скорость реагирования чата

Наблюдения

Заключительные мысли

Комментарии

Добавить комментарий Отменить ответ