Китайская фирма по искусственному ИИ говорит, что ее модель стоит всего 294 000 долларов на тренировку

DeepSeek China утверждала, что его флагманская система ИИ, известная как R1, была обучена всего за 294 000 долларов, что является частью сумм, которые, как считается, потрачены конкурентами США.

Детали были опубликованы в рецензируемой статье в природе на этой неделе, и, вероятно, будет способствовать дальнейшей дискуссии о амбициях Пекина в глобальной гонке искусственного интеллекта. Компания, базирующаяся в Ханчжоу, сказала, что модель, ориентированная на аргументацию, была обучена с использованием 512 чипов NVIDIA H800. Это оборудование было разработано специально для Китая после того, как США запретили продажи более мощных процессоров H100 и A100.

Документ, который был соавтором основателя Ляна Венфэна, отмечает первый раз, когда фирма раскрыла такие расходы.

DeepSeek использует часть стоимости моделей США

В январе выпуск более дешевых инструментов AI Deepseek, дестабилизированных мировыми рынками, что привело к распродаже технических акций в отношении опасений, что они могут подорвать установленных гигантов, таких как Nvidia и Openai.

Тем не менее, Лян и его команда сохранили с тех пор, как они сохранили обновления спорадических продуктов.

Цена в размере 294 000 долларов резко контрастирует с оценками американских фирм.

Исполнительный директор Openai, Сэм Альтман, в 2023 году сказал: «Обучение фундаментальных моделей стоит намного более 100 миллионов долларов». Тем не менее, он не выдал никакого конкретного срыва.

Обучение крупных языковых моделей включает в себя управление банками мощных чипов в течение длительных периодов, потребляя огромное количество электроэнергии при обработке текста и кода. Отраслевые наблюдатели давно предполагают, что законопроект о таких проектах составляет десятки или даже сотни миллионов.

Это предположение в настоящее время оспаривается, и в дополнительном документе Deedseek признал, что владеет чипсом A100 и использовал их в раннем развитии, прежде чем перенести полномасштабную подготовку в свой кластер H800. По словам технической фирмы, модель работала в течение 80 часов на своем окончательном этапе обучения.

.uc553b5249f28d54673fe78354fa2f090 {padding: 0px; поля: 0; надоеволок: 1ем! Важно; надоеволос: 1ем! Важно; Ширина: 100%; дисплей: блок; шрифт-вес: жирный шрифт; фоновый цвет: #eaeaea; Граница: 0! Важно; РЕМЖА СЛЕДУ: 4PX SOLID #3498DB! Важно; Box-Shadow: 0 1px 2px rgba (0, 0, 0, 0,17); -Мозо-бокс-тень: 0 1px 2px rgba (0, 0, 0, 0,17); -О-бокс-подвеска: 0 1px 2px rgba (0, 0, 0, 0,17); -Webkit-box-shadow: 0 1px 2px rgba (0, 0, 0, 0,17); Текстовое декорация: нет; } .UC553B5249F28D54673FE78354FA2F090: Active, .UC553B5249F28D54673FE78354FA2F090: Hover {непрозрачность: 1; Переход: непрозрачность 250 мс; Вебкит-транзиция: непрозрачность 250 мс; Текстовое декорация: нет; } .UC553B5249F28D54673FE78354FA2F090 {Переход: фоновый цвет 250 мс; Webkit-трансляция: фоновый цвет 250 мс; непрозрачность: 1; Переход: непрозрачность 250 мс; Вебкит-транзиция: непрозрачность 250 мс; } .uc553b5249f28d54673fe78354fa2f090 .ctatext {font-weight: bold; Цвет:#464646; Текстовое декорация: нет; размер шрифта: 16px; } .uc553b5249f28d54673fe78354fa2f090 .posttitle {color:#000000; Текстовое декорация: подчеркнуть! Важно; размер шрифта: 16px; } .UC553B5249F28D54673FE78354FA2F090: HOVER .PostTitle {Text-Decoration: Underline! Важно; }

Смотрите также Huawei открывается публично с Chip Ambitions, повышая техническую автономию Китая после Нвидии

Несмотря на то, что Nvidia настаивала на том, что китайский стартап имеет доступ только к их процессорам H800, американские чиновники остаются скептическими. Несколько месяцев назад источники в США сообщили Reuters, что DeepSeek незаконно владеет большими объемами чипов H100, которые имеют запреты на экспорт в Китай.

Поставить инновации под микроскоп

R1 привлек внимание не только свои низкие затраты на обучение, но и потому, что это может быть первой основной моделью, которая прошла официальную рецензию.

«Это очень долгожданный прецедент, и если у нас нет этой нормы обмена, становится очень трудно оценивать риски»,-сказал Льюис Тунсталл, инженер по производству машинного обучения, который обнимал лицо, который рассмотрел газету Nature.

Процесс обзора побудил DeepSeek уточнить технические детали, в том числе то, как обучалась ее модель и какие гарантии были на месте.

«Прохождение строгого процесса рецензирования, безусловно, помогает проверить обоснованность и полезность модели»,-сказал Хуан Сан, исследователь ИИ в Университете штата Огайо.

Ключевым прорывом DeepSeek был использование подхода к обучению чистым подкреплением. Вместо того, чтобы полагаться на примеры рассуждений с человеком, согласно документу. Модель была вознаграждена за правильное решение проблем и постепенно разработала свои собственные стратегии решения проблем.

Фирма заявляет, что эта система проб и ошибок позволила R1 проверить свою работу без копирования человеческой тактики.

«Эта модель была довольно влиятельной», — добавил Сан. «Почти вся подкрепление обучающей работы в 2025 году, возможно, была вдохновлена R1, так или иначе».

.uf4a8e4f5f5d02dc5a4668d4b8ff7870c {padding: 0px; поля: 0; надоеволок: 1ем! Важно; надоеволос: 1ем! Важно; Ширина: 100%; дисплей: блок; шрифт-вес: жирный шрифт; фоновый цвет: #eaeaea; Граница: 0! Важно; РЕМЖА СЛЕДУ: 4PX SOLID #3498DB! Важно; Box-Shadow: 0 1px 2px rgba (0, 0, 0, 0,17); -Мозо-бокс-тень: 0 1px 2px rgba (0, 0, 0, 0,17); -О-бокс-подвеска: 0 1px 2px rgba (0, 0, 0, 0,17); -Webkit-box-shadow: 0 1px 2px rgba (0, 0, 0, 0,17); Текстовое декорация: нет; }. Переход: непрозрачность 250 мс; Вебкит-транзиция: непрозрачность 250 мс; Текстовое декорация: нет; } .uf4a8e4f5f5d02dc5a4668d4b8ff7870c {переход: фоновый цвет 250 мс; Webkit-трансляция: фоновый цвет 250 мс; непрозрачность: 1; Переход: непрозрачность 250 мс; Вебкит-транзиция: непрозрачность 250 мс; } .uf4a8e4f5f5d02dc5a4668d4b8ff7870c .ctatext {font-weight: bold; Цвет:#464646; Текстовое декорация: нет; размер шрифта: 16px; } .uf4a8e4f5f5d02dc5a4668d4b8ff7870c .posttitle {color:#000000; Текстовое декорация: подчеркнуть! Важно; размер шрифта: 16px; }. }

Смотрите также Amazon’s AWS возглавляет облачный рынок, но замедление заставляет некоторых инвесторов нерешительными

DeepSeek отрицает копирование претензий

Вскоре после выпуска R1 спекуляции закрутились, что Deepseek опирался на конкурирующие результаты, особенно от Openai, чтобы ускорить обучение; Тем не менее, компания теперь категорически отрицает эту плату.

В переписке с судьями Deepseek настаивал на том, что R1 не копировал примеры рассуждений, сгенерированные OpenAI. Однако, как и большинство крупных языковых моделей, он был обучен в интернет -тексте. Это означает, что какой-то контент, созданный AI, неизбежно включена, и объяснение убедило некоторых рецензентов.

«Я не могу быть на 100% уверен, что R1 не обучался примерам Openai. Однако попытки репликации других лабораторий предполагают, что обучение подкрепления достаточно хорошо самостоятельно». Тунсталл сказал.

DeepSeek говорит, что R1 создан для преучения по поводу задач, таких как кодирование и математика. В отличие от большинства закрытых систем, разработанных американскими фирмами, она была выпущена как модель с открытым весом, которую можно бесплатно загружать исследователями. На сайте сообщества ИИ, обнимающего лицо, он уже загружался более 10 миллионов раз.

Фирма потратила около 6 миллионов долларов на разработку базовой модели, на которой строится R1, но даже с добавлением этого, ее затраты не соответствуют суммам, связанным с конкурентами. Для многих в этой области это делает R1 привлекательным.

Sun и коллеги недавно проверили систему по научным данным и обнаружили, что она не самая точная, но среди лучших с точки зрения затрат на производительность.

Самые умные крипто -умы уже читают нашу новостную рассылку. Хотите в? Присоединяйтесь к ним.