💡Ниже краткий словарь базовых понятий в GPU-вычислениях для новичков, ушлые все это уже очень надеюсь знают.
|
Термин |
Определение |
Аналогия |
Зачем важно при аренде |
|---|---|---|---|
|
GPU (Graphics Processing Unit) |
Процессор, изначально созданный для рендеринга графики, но сейчас используемый для параллельных вычислений (ИИ, научные расчёты). |
Автобус с 100 местами (потоками) против легковой машины CPU с 8 местами. Для перевозки 100 человек автобус быстрее. |
Вы арендуете именно GPU, а не обычный сервер. От его мощности зависит скорость обучения модели. |
|
VRAM (Video RAM) |
Оперативная память, встроенная в видеокарту. Хранит модель, данные и промежуточные результаты во время вычислений. |
Рабочий стол инженера. Чем больше стол — тем больше чертежей и деталей можно разложить одновременно. |
Главный лимитирующий фактор: модель не запустится, если не влезет в VRAM. Для модели 7B параметров нужно минимум 14 ГБ. |
|
CUDA (Compute Unified Device Architecture) |
Проприетарная платформа и язык программирования от NVIDIA для запуска кода на GPU. |
«Операционная система» для общения с видеокартой NVIDIA. Без неё код не поймёт, как использовать мощь GPU. |
95% фреймворков ИИ (PyTorch, TensorFlow) работают через CUDA. При выборе образа проверяйте версию CUDA — должна совпадать с версией драйвера. |
|
cuDNN |
Библиотека от NVIDIA с оптимизированными операциями для нейросетей (свёртки, нормализация). |
Готовые шаблоны для частых операций — вместо ручного распила доски используете заводскую заготовку. |
Ускоряет обучение на 20–40%. Должна быть установлена в образе провайдера — иначе модель будет работать в 2–3 раза медленнее. |
|
Термин |
Определение |
Аналогия |
Зачем важно при аренде |
|---|---|---|---|
|
CUDA cores |
Базовые вычислительные блоки в GPU NVIDIA. Отвечают за общие вычисления (сложение, умножение). |
Рабочие на заводе, выполняющие простые операции (закрутить гайку, нанести клей). |
Чем больше ядер — тем выше общая производительность. Но для ИИ важнее тензорные ядра (см. ниже). |
|
Tensor cores |
Специализированные блоки для операций с матрицами (умножение тензоров) — основа нейросетей. |
Роботизированные станки на заводе, которые за 1 секунду делают то, что 100 рабочих делали бы 10 минут. |
Критично для ИИ: модели на картах с тензорными ядрами (RTX 3090+, A100, H100) обучаются в 3–6 раз быстрее. Избегайте старых карт без тензорных ядер (GTX 1080 Ti). |
|
FP16 / BF16 / FP32 |
Форматы хранения чисел с плавающей точкой: - FP32: 32-бит (стандартная точность) - FP16/BF16: 16-бит (половинная точность, но в 2 раза быстрее) |
Взвешивание муки: - FP32: кухонные весы с точностью 0.1 г - FP16: мерные стаканы — быстрее, но ±5 г погрешность |
Современные модели обучаются в FP16/BF16 без потери качества. Проверяйте, поддерживает ли карта нужный формат (все карты с тензорными ядрами — да). |
|
Полоса пропускания памяти |
Скорость, с которой данные перемещаются между процессором и видеопамятью (ГБ/с). |
Ширина дороги от склада (память) к заводу (ядра). Узкая дорога = простои на производстве. |
У RTX 4090 — 1 ТБ/с, у A100 — 2 ТБ/с. При обучении больших моделей узкая полоса становится «бутылочным горлышком». |
|
Термин |
Определение |
Аналогия |
Зачем важно при аренде |
|---|---|---|---|
|
Инстанс (Instance) |
Виртуальный сервер с выделенным GPU, который вы арендуете на время. |
Арендованный автомобиль: вы получаете машину на время поездки, а не покупаете её. |
Вы платите за час работы инстанса. После остановки плата прекращается (если провайдер не обманывает — см. «скрытые платежи»). |
|
Спот-инстанс (Spot instance) |
Инстанс со скидкой 30–70%, но с риском прерывания в любой момент. |
Авиабилет в последний момент за 30% цены — но авиакомпания может снять вас с рейса за 10 минут до вылета. |
Экономия до 60%, но только для задач с чекпоинтами. Никогда не используйте для инференса в продакшене. |
|
On-demand инстанс |
Стандартный инстанс без скидки, но с гарантией непрерывной работы. |
Обычный авиабилет — дороже, но место гарантировано до пункта назначения. |
Выбирайте для критичных задач и дедлайнов. |
|
Резервирование (Reservation) |
Предоплата за гарантированный доступ к GPU в будущем (часто со скидкой 20–40%). |
Бронирование столика в ресторане за неделю — гарантия места, иногда со скидкой. |
Выгодно при стабильной загрузке >150 ч/мес. Не возвращается при отказе. |
|
Чекпоинт (Checkpoint) |
Сохранённое состояние модели в процессе обучения (веса, оптимизатор, номер эпохи). |
Сохранение игры в RPG: если персонаж погибнет, начнёте не с начала, а с последнего сохранения. |
Обязателен для спот-инстансов. Без чекпоинтов потеряете весь прогресс при прерывании. |
|
Образ (Image) |
Преднастроенный «слепок» системы с установленными фреймворками (ОС + CUDA + PyTorch). |
Готовый кухонный набор: ножи заточены, специи на полках — можно сразу готовить. |
Экономит 1–3 часа на настройку. Выбирайте образ под вашу задачу («Stable Diffusion», «PyTorch 2.3»). |
|
Cold boot |
Первый запуск инстанса после долгого простоя — загрузка ОС, драйверов, образа. |
Прогрев двигателя автомобиля зимой — первые 2 минуты медленнее. |
Занимает 60–180 сек. У некоторых провайдеров (Сбер) оптимизирован до 30 сек. |
|
Термин |
Определение |
Аналогия |
Зачем важно при аренде |
|---|---|---|---|
|
Inference (Инференс) |
Запуск уже обученной модели для получения результата (генерация текста, изображения). |
Печать книги на готовом типографском станке — быстро и предсказуемо. |
Требует меньше ресурсов: модель 7B параметров для инференса — 14 ГБ VRAM, для обучения — 35+ ГБ. |
|
Training (Обучение) |
Процесс настройки весов модели на данных. |
Написание книги с нуля — долго, требует много черновиков (итераций). |
Требует в 2–3× больше VRAM и времени. Выбирайте мощный инстанс (2×RTX 4090 или A100). |
|
Fine-tuning |
Дообучение предобученной модели на узком датасете (адаптация под домен). |
Обучение шефа-повара новому блюду вместо обучения готовить с нуля. |
Экономит 90% времени и ресурсов против обучения с нуля. Используйте методы вроде QLoRA для экономии памяти. |
|
QLoRA |
Техника дообучения с квантизацией до 4 бит + адаптация только малой части весов. |
Перекрасить стены в доме вместо строительства нового — дешевле и быстрее. |
Позволяет дообучать модель 13B на одной RTX 4090 (24 ГБ). Без QLoRA потребовалось бы 2–4 карты. |
|
Quantization (Квантизация) |
Снижение точности весов модели (например, с 16 бит до 4 бит) для уменьшения потребления памяти. |
Сжатие фото из RAW в JPEG: файл меньше, качество почти не теряется. |
Модель 7B в 16-бит: 14 ГБ → в 4-бит: 4 ГБ. Позволяет запускать большие модели на слабых картах. |
|
Prompt |
Текстовый запрос к языковой модели («Напиши стих про кота»). |
Рецепт для повара: чем точнее рецепт — тем лучше блюдо. |
Важно для безопасности: промпты с ПДн могут логироваться провайдером. Избегайте передачи ФИО/номеров в промптах на непроверенных платформах. |
|
Tokens |
Части текста, на которые разбивается промпт перед подачей в модель (слова, подслова). |
Разрезание пирога на кусочки перед подачей гостям. |
Стоимость инференса часто считается за токен. Модель обрабатывает ~20 токенов/сек на RTX 4090. |
|
Термин |
Определение |
Аналогия |
Зачем важно при аренде |
|---|---|---|---|
|
Локализация данных |
Физическое размещение серверов и данных на территории РФ. |
Хранение денег в сейфе в Москве против сейфа в Лондоне. |
Обязательно для ПДн по ФЗ-152. Проверяйте документы провайдера — устных заверений недостаточно. |
|
Шифрование at rest |
Шифрование данных на диске инстанса в состоянии покоя (когда вычисления не идут). |
Замок на сейфе, даже когда вы не работаете с деньгами. |
Защищает от извлечения диска из сервера. Включайте галочку при создании инстанса (есть у Сбера/Яндекса). |
|
Шифрование in transit |
Шифрование данных при передаче (загрузка/выгрузка). |
Броневик для перевозки денег вместо обычного автомобиля. |
Используйте SFTP/HTTPS вместо FTP/HTTP. Большинство провайдеров поддерживают по умолчанию. |
|
Изоляция (Isolation) |
Отделение вашего инстанса от других пользователей на уровне гипервизора. |
Отдельная квартира в доме против коммуналки. |
У крупных провайдеров — аппаратная изоляция. У бюджетных — возможна утечка через общую память хоста. |
|
СЗИ (Средство защиты информации) |
Программно-аппаратный комплекс для защиты ПДн по требованиям ФСТЭК. |
Сигнализация + камеры + охрана для банка. |
Обязателен для госконтрактов. Провайдер должен предоставить сертификат СЗИ. |
|
Заблуждение |
Реальность |
Как избежать |
|---|---|---|
|
«Чем больше ядер у GPU — тем лучше» |
Для ИИ важнее тензорные ядра и объём VRAM. RTX 4090 (16 384 CUDA cores) быстрее обучает модели, чем карта с 20 000 ядер без тензорных блоков. |
Смотрите на архитектуру (Ada Lovelace, Ampere) и наличие тензорных ядер, а не только на число ядер. |
|
«24 ГБ памяти = могу запустить любую модель до 24 ГБ» |
При обучении требуется в 2–3× больше памяти из-за градиентов и оптимизатора. Модель 13B (26 ГБ в FP16) не запустится на 24 ГБ без квантизации. |
Для обучения: требуемый VRAM = размер модели × 2.5. Для инференса: ×1.2. |
|
«Спот-инстанс = всегда дешевле» |
Если задача прервётся 3 раза подряд без чекпоинтов — вы потратите больше времени и денег, чем на гарантированный инстанс. |
Используйте спот только с автоматическими чекпоинтами каждые 15 минут. |
|
«Образ с PyTorch = всё будет работать» |
Версия CUDA в образе должна совпадать с версией драйвера на карте. PyTorch 2.3 + CUDA 12.1 на карте с драйвером под CUDA 11.8 = ошибка. |
Перед запуском выполните |
|
«Провайдер хранит мои данные только пока инстанс работает» |
Многие провайдеры сохраняют данные в объектном хранилище после остановки инстанса и тарифицируют хранение отдельно. |
Удаляйте датасеты и чекпоинты сразу после завершения задачи или перемещайте в «холодное» хранилище. |
|
Ситуация |
Что проверить в первую очередь |
|---|---|
|
Модель не запускается |
1. |
|
Очень медленно работает |
1. |
|
Счёт растёт быстрее ожидаемого |
1. Работает ли инстанс после остановки задачи? 2. Сколько ГБ исходящего трафика использовано? |
|
Ошибка «CUDA out of memory» |
1. Используйте квантизацию (4-bit) 2. Уменьшите размер батча (`batch_size=1`) 3. Для обучения — включите градиентный аккумулятор |
|
Не могу подключиться к инстансу |
1. Есть ли публичный IP? 2. Открыт ли порт 22 (SSH) в настройках сети? 3. Не блокирует ли брандмауэр провайдера подключение? |
💡 Главный совет: Первые 3 запуска делайте на небольших задачах (генерация 10 изображений) с гарантированным инстансом. Освойте интерфейс и автоматизацию остановки — только потом переходите к споту и большим моделям.
Источник


