Ставка Китая на ИИ: DeepSeek Provrer V2 настолько велик, что ему нужен собственный офис

Это установленная истина в области искусственного интеллекта: достаточно большая модель является современным эквивалентом остроумного дани – никто не знает точно, на что она способна, но все впечатлены тем количеством пространства, которое она занимает. Встречайте DeepSeek, интеллектуальное любопытство Китая, вышедшее из своих алгоритмических гостиных с безусловно геракловой Provver V2 — столь внушительной «большой языковой моделью», что кажется, она требует шампанского и икры прежде чем приступить к вычислениям.

📚

Думаешь, S&P 500 — это марка автомобиля? Ничего страшного. У нас тут объясняют сложные вещи простыми словами и пытаются понять, куда рынок пойдет завтра. Без обещаний, просто факты.

Изучить основы

Одним прекрасным апрельским днем — точнее 30 апреля для тех, кто ведет дневники, — DeepSeek опубликовали свою последнюю диковину на Hugging Face, не столько приняв открытую лицензию MIT, сколько распахнув дверь и крича: «Все приглашены!» Что такое Provér V2? А, чтобы сразиться с самыми запутанными доказательствами и проверить математику, тем самым спасая философов от преждевременного старения.

Теперь с параметрами в количестве 671 миллиарда, Provér V2 стоит на плечах своего предшественника Provér V1 и его более атлетичного брата V1.5, которые сами были выпущены в августе прошлого года. Учёные, сопровождающие первую версию, подробно рассказали о способности модели преобразовывать самые страшные задачи соревнования в язык программирования Lean 4 — ведь нет ничего более увлекательного, чем убедить компьютер, что треугольники существуют.

Создатели Provér V2 утверждают, что они превращают математические знания в изящную цифровую колбасу, генерируя доказательства настолько быстро, что даже Пифагор мог бы почувствовать комплекс неполноценности. Математика, некогда считавшаяся последним убежищем тех, кто избегал AI, теперь сталкивается с цифровым захватом.

Что всё это за шум? (фус)

Модели – эти великолепные собрания двоичного лепета – в кругах искусственного интеллекта неточно называют «весами», как будто они находятся на бесконечной диете. Скачивания самых современных LLM (языковых моделей), однако, заставляют обычный компьютер стиснуть свои банки памяти и изображать викторианское обморочное состояние.

На 650 гигабайт Provia V2 либо языковая модель, либо крайне нуждающийся багаж. Большинству смертных не хватает необходимого объёма ОЗУ или видеопамяти — термин, который, подозреваю, относится к тому роду геркулесовых GPU, которые играют главные роли в совещаниях по бюджету технологических компаний.

Отчаявшись сделать Provér V2 чуть менее чудовищным, DeepSeek сжал параметры до 8-битной точности плавающей запятой, что для тех, кто считает дома, означает сокращение пространства вдвое лишь с несколькими дополнительными экзистенциальными кризисами. Какая диета! Если бы только она работала с макаронами.

Предыдущие воплощения, например Provier V1, были основаны на DeepSeekMath и взращены на синтетических данных, эквивалентных воображаемым друзьям. Можно сказать, что синтетические данные — это результат сплетен между компьютерами, тогда как реальные человеческие данные становятся всё более редкими, подобно хорошему обеденному разговору.

Провер V1.5 была более быстрой, умной и стильной моделью — сравнивалась с большей точностью, хотя точные улучшения версии 2 остаются окутанными академическим удивлением, подобно философу перед утренней чашкой кофе. Огромное количество параметров Провера V2 сильно намекает на то, что она основана на R1, предыдущей модели DeepSeek — дебютантке, которая однажды вальсировала в AI-зал, завораживая гостей наравне с такими как о1 от OpenAI.

Открытые веса: благословение или экзистенциальный страх?

Сделать AI ‘открытым весом’ — это современный аналог оставить свою коллекцию вина и ключи от дома в общественном доступе. С одной стороны, это демократия с RAM, а с другой — приглашение к хаосу, когда Чайковский играет, а опасность танцует.

Первый дебют R1 вызвал озабоченность безопасностью и разговоры о моментах «Спутника». Ведь что такое глобальная конкуренция, как не поиск новых способов замены холодных взглядов на холодные ЦП? Сторонники открытого исходного кода радовались тому, что DeepSeek продолжает работу там, где остановилась Meta, показывая, что публичные ИИ могут заставить частные нервничать достаточно для изменения кодов доступа.

ИИ для масс — или, по крайней мере, для тех, у кого есть свободные ноутбуки

Наконец, даже те, чьи ноутбуки скорее напоминают тостер, чем суперкомпьютер, могут вызвать своих собственных локальных AI благодаря двум хитроумным трюкам: дистилляции моделей (при которой мощная «учительская» модель передает свою цифровую мудрость ученику меньшего размера) и квантизации (сжатие чисел до такой степени, что каждый байт жаждет воздуха).

Провайдер V2, гордый наполовину битом, сам является доказательством; и всегда есть место для дополнительных сокращений, при условии что вам нравится балансировать на грани числовой катастрофы. В худшем случае модель остается ‘в значительной степени функциональной’ – фраза, которая также описывает диких даней после двух бутылок шампанского.

Тем временем, модели DeepSeek R1 занимают разнообразные формы — от легкой waif с параметрами в 1,5 миллиарда, которая может жить на вашем телефоне, до мощной версии из 70 миллиардов параметров, требующей собственной энергетической сети. Демократизация никогда не выглядела столь математически пугающе.

Смотрите также

2025-04-30 17:11