DeepSeek облегчил мир ИИ так, как мы только начинаем понимать

Как геймер, я поражен передовыми системами ИИ, такими как CHATGPT Openai, Google Gemini и Claude’s Antropic. Этим техническим гигантам удалось создать чат -ботов, которые свободно реагируют на различных языках на подсказки пользователей, что действительно привлекло внимание людей. Не только это, но они сделали всплеск с огромными ресурсами, которые они вложили в разработку все более мощных моделей.


🚀 Хочешь улететь на Луну вместе с нами? Подписывайся на CryptoMoon! 💸 Новости крипты, аналитика и прогнозы, которые дадут твоему кошельку ракетный ускоритель! 📈 Нажмите здесь: 👇

CryptoMoon Telegram


Китайская компания по искусству, DeepSeek, удивила многих своим инновационным подходом к созданию передовых AIS, что привело к тому, что некоторые поставили под сомнение массовые финансовые инвестиции, сделанные крупными компаниями ИИ.

Будучи энтузиастом игр, погружаясь глубоко в мир машинного обучения, то, что действительно отличает DeepSeek, не какое-то новаторское технологическое откровение, а скорее вековая стратегия: максимизация эффективности. В отрасли, которая поглощает огромные вычислительные ресурсы, этот фокус оказал значительное влияние.

Где расходы

Создание мощных систем ИИ сначала включает в себя создание обширных моделей прогнозирования языка. Эти модели прогнозируют последующее слово, основанное на ранее данных словах, например, если предложение начинается с «Теории относительности была обнаружена Альбертом», «Большая языковая модель могла бы догадаться, что следующее слово, вероятно,» Эйнштейн «. Такие языковые модели точно настроены, чтобы преуспеть в этих прогнозах во время процесса, называемого предварительной подготовкой.

Обучение крупных моделей требует значительного объема данных и вычислительных ресурсов. Эти ресурсы часто собираются с помощью веб -ползания и сканирования книг, в то время как вычисления обычно выполняются с использованием графических единиц (графические процессоры). Причина этого выбора заключается в общей основе математики — линейной алгебры — между компьютерной графикой и искусственными нейронными сетями, которые составляют основу для моделей крупных языков. Внутри этих моделей существует огромное количество чисел, называемых параметрами или весами, которые подвергаются корректировке во время обучения.

Как геймер, я знаю, что просто предварительного обучения недостаточно, чтобы создать что-то вроде CHATGPT. Вы видите после предварительного обучения, модель должна быть точно настроена и обучена дальше. Тем не менее, даже хорошо обученная большая языковая модель не всегда может точно следовать человеческим инструкциям. В нем также может быть отсутствие согласования с нашими предпочтениями и может непреднамеренно генерировать вредный или оскорбительный язык. К сожалению, такой контент широко существует в Интернете.

Как правило, предварительно обученная модель подвергается дальнейшим процессам обучения. Одним из этих этапов является инструкция, которую модель учится из примеров человеческих инструкций и соответствующих соответствующих ответов. Впоследствии он входит в фазу, известную как обучение подкреплению с использованием обратной связи человека. На этом этапе человеческим оценщикам представлено несколько ответов от большой языковой модели для той же подсказки. Их задача — выбрать, какой ответ они находят наиболее подходящим.

Совершенно очевидно, что расходы накапливаются при построении модели ИИ: вам необходимо привлечь на борт специалистов в области искусственного интеллекта с высоким уровнем калибра, создать центр обработки данных, оснащенный многочисленными графическими процессорами, собирать данные для предварительной подготовки и выполнять предварительное обучение с использованием этих графических процессоров. Более того, существуют затраты, связанные с сбором данных и вычислением на этапах настройки инструкций и обучения подкреплению, основанными на обратной связи человека.

Общие затраты на построение современной модели ИИ могут достигать 100 миллионов долларов. Значительная часть этой стоимости объясняется обучением графического процессора (графическая обработка).

Затраты продолжаются даже после того, как модель полностью разработана, поскольку она требует дополнительных вычислений при развертывании для взаимодействия с пользователями. Этот процесс, называемый выводом или вычислениями на тестирование, потребляет такие ресурсы, как графические процессоры. Интересно, что OpenAI сообщил о интригующем наблюдении с их последней моделью O1 в декабре 2024 года: по мере увеличения количества вычислений на время теста модель продемонстрировала улучшенную производительность в задачах логических рассуждений, таких как математическая Олимпиада и конкурентные проблемы кодирования.

Похудение потребления ресурсов

Похоже, что ключ к созданию моделей ИИ высшего уровня глобально заложен в инвестировании в вычислительные ресурсы, как во время обучения, так и во время обучения и выводов. Однако DeepSeek бросил вызов этой норме.

В более простых терминах их модели V-серии, достигшие пика с моделью V3, внедрили многочисленные эффективности, чтобы резко снизить стоимость обучения передовыми системами ИИ. Их технический документ показывает, что для обучения модели V3 стоит всего 6 миллионов долларов. Они проясняют, что этот рисунок исключает расходы, связанные с наймом команды, исследованиями, экспериментами и сбором данных. Несмотря на это, 6 миллионов долларов удивительно низкие по сравнению с затратами, связанными с обучением, сопоставимыми моделями ИИ.

Снижение затрат не было связано с одним чудесным решением. Вместо этого он проистекает из сочетания стратегических инженерных решений, таких как минимизация количества битов, необходимых для представления веса модели, изобретательных редизайн в структуре нейронной сети и оптимизации передачи данных путем уменьшения накладных расходов по мере перемещения данных между графическими процессорами.

Стоит отметить, что из-за торговых ограничений в США команда DeepSeek не могла получить высококлассные графические процессоры, такие как NVIDIA H100. Вместо этого они выбрали более низкие графические процессоры NVIDIA H800, предназначенные для соответствия правилам экспорта США. Несмотря на это ограничение, кажется, что команда DeepSeek продемонстрировала замечательные инновации при работе с этими менее мощными графическими процессорами.

DeepSeek также обнаружил способы снижения расходов, связанных с выводом, что делает его более экономичным для эксплуатации модели. Кроме того, они обнародовали модель, известную как R1, которая работает аналогично модели Operai O1 с точки зрения задач рассуждения.

Как геймер, я взволнован выпуском с открытым исходным кодом веса модели V3 и R1! Теперь все должны исследовать, улучшать или настраивать эти модели по своему усмотрению. Более того, DeepSeek сделал это возможным по лицензии MIT, что означает, что мы можем использовать эти модели для личных проектов, академических исследований или даже коммерческих целей с минимальными ограничениями. Это изменяющий игру ход, который открывает бесконечные возможности!

Сброс ожиданий

DeepSeek значительно преобразовал модель искусственного интеллекта, позволяя доступной модели веса с открытым исходным кодом работать на том же уровне, что и более дорогие, эксклюзивные модели, которые требуют дорогостоящих подписок.

Исследовательскому сообществу и фондовому рынку потребуется некоторое время, чтобы приспособиться к этой новой реальности.

Смотрите также

2025-02-14 17:29