NEW BOT Телеграм, страница

Data Secrets

Дуров анонсировал децентрализованную ИИ-сеть Cocoon (Confidential Compute Open Network) это два в одном: майнинг и конфиденциальность ваших ИИ-запросов. То есть: – Владельцы GPU подключают свои видеокарты к сети и получают за это TON. – Разработчики получают…

Павел Дуров запустил Cocoon – децентрализованную сеть для ИИ вычислений

Коротко:

– Cocoon (Confidential Compute Open Network) призвана обеспечить пользователям полную конфиденциальность при общении с ИИ.

– Владельцы GPU подключают свои видеокарты к сети и получают за это TON (майнинг нового поколения!)

– Разработчики получают доступ к компьюту, а пользователи могут безопасно общаться с моделями.

«В качестве логотипа сети ~~Сосун~~ Кокон мы выбрали ИИчко: 🤖» – написал Павел у себя в канале.

https://cocoon.org/

Please open Telegram to view this post

VIEW IN TELEGRAM

😁203❤51🔥30👍18🗿107☃5👏3

21.1K viewsedited 20:04

Data Secrets

Доброе утро. Признайтесь, в понедельник в 9:00 вы все еще против того, что ИИ заберет вашу работу?

😁252💯25❤73👍2🔥11

19K views06:11

Data Secrets

ИИ-математик Aristotle доказал одну из нерешенных проблем из списка Эрдеша (но с оговоркой)

Если вы в первый раз слышите про Aristotle, рассказываем: это система от стартапа Harmonic, основанного в 2023 году. Ребята занимаются ИИ в математике, уже получили немало инвестиций, и продукт у них довольно интересный.

Он отличается тем, что генерирует не просто текст доказательства: вместо этого Aristotle пишет формальное доказательство в среде Lean, то есть сочетает в себе formal verification и informal reasoning + search.

Ну так вот. На днях создатели объявили о том, что модель решила проблему Эрдеша номер 124. Эта задача впервые была выдвинута в статье «Полные последовательности множеств целых степеней» в журнале Acta Arithmetica почти 30 лет назад и с тех пор считается открытой.

Aristotle же потратил на задачу 6 часов и решил ее абсолютно без участия человека. Потрясающе? Потрясающе.

Вот только оказалось, что версия задачи, которую решил Aristotle, отличается – это упрощенный вариант. Оригинальная формулировка была несколько другой и допускает увеличение степени только начиная с определенной, не включая единичную. В той формулировке задача остается нерешенной. И хотя результат действительно крутой, прорыва (сюрприз-сюрприз) снова не произошло 😭

Все это в который раз доказывает: да, какую-то новую математику модельки уже способны доказывать. Но это, что называется, «низко висящие плоды» – то есть довольно простые по меркам академии утверждения уровня среднего аспиранта или олимпиадника. До гипотезы Римана им еще как пешком до Китая.

Кстати, после распространения новости в соцсетях завирусился новый термин «vibe-proving» – как vibe-coding, только для математиков 💡

Please open Telegram to view this post

VIEW IN TELEGRAM

😁121❤60👍18🔥11

18.3K views08:04

Data Secrets

OpenAI не завершила ни одного нового полного претрейнинга после GPT-4o

По крайней мере, так утверждают аналитики из SemiAnalysis и, в частности, Дилан Пател.

В новой статье про Google TPUv7 они пишут, что сравнили инфраструктурную активность Google и OpenAI и обнаружили, что если Google проявлял явные признаки pretraining-нагрузки, то OpenAI – нет.

Со времен GPT-4o у стартапа не было ни роста потребления нагрузки, ни расширения кластеров и поставок. Видна лишь какая-то активность, похожая на файнтюнинг или RL, но не на масштабный претрейнинг.

Это значит, что, с высокой вероятностью, GPT-5 == тот же претрейн, что и GPT-4o, то есть, фактически, – та же базовая модель. Просто сенсация, если правда.

newsletter.semianalysis.com/p/tpuv7-google-takes-a-swing-at-the

😁17367🫡14❤12🤔11👍1🔥1

19.6K views10:09

Data Secrets

⚡️

Вышли свеженькие модели от DeepSeek!

Китайский стартап выпустил DeepSeek-V3.2 и DeepSeek-V3.2-Speciale.

Позиционируются обе как модели для агентов. DeepSeek-V3.2-Speciale – с акцентом на сложный долгий ризонинг и планирование.

Первая уже доступна в чате. Вторая пока только в API. По метрикам – уровень GPT-5 и Gemini 3.0 соответственно.

Ну и, естественно, все в опенсорсе! Hugging Face

Бегом пробовать!

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

1❤141🔥75👍28😁10🤯9🤨4🤔1🐳1

19.5K views11:37

Data Secrets

Еще интересные детали про новые модели от DeepSeek

➖ DeepSeek-V3.2-Speciale – это первая опенсорсная модель, которая выбивает золото в топ-олимпиадах. Обратите внимание на рисунок 1: золото на IMO 2025, CMO 2025, IOI 2025 и ICPC WF 2025. Но test-time compute при этом огромен: Speciale совсем не экономит токены, так что инференс достаточно дорогой.

➖ Еще раз про метрики (прикрепляем расширенные таблички): Speciale бьет Gemini 3.0 Pro на математике, а "менее умная" DeepSeek-V3.2 опережает Claude-4.5 Sonnet в кодинге (примерно уровень GPT-5 Pro). В случае с Speciale снова обратите внимание на количество используемых токенов, оно указано в таблице 3 в скобочках. Выглядит совсем не эффективно, и авторы сами говорят, что "оставили оптимизацию на будущие исследования".

➖

Основные технические причины успеха моделей: DeepSeek Sparse Attention, масштабный стабильный RL-тренинг и большой пайплайн для Agentic Tasks. Обо всем по отдельности – ниже.

1️⃣ DeepSeek Sparse Attention. Новая архитектура внимания и, по сути, ключевое изменение архитектуры по сравнению с предыдущим поколением. Состоит из двух частей: Lightning Indexer и Top-k sparse selection.

Lightning Indexer решает, какие прошлые токены важны для текущего. Работает довольно дешево и просто выдает индекс важности каждому query для всех предыдущих токенов. Top-k sparse selection выбирает top-k самых важных. Во время претрейна сначала обучается только индексер, потом основная модель размораживается и обучается уже полностью.

В итоге сложность вычислений падает с O(L²) до O(L·k). Помимо ускорения работы DSA дает еще резкое улучшение способностей на длинном контексте.

2️⃣ Посттренинг. Во-первых, очень масштабный этап RL-дообучения. В RL вложили примерно десятую часть того, что было потрачено на pretraining. Это беспрецедентно много, обычно это 1% или меньше. Обучали все также с GRPO, но в модифицированном виде. Там несколько архитектурных подвижек, о них читайте в статье. В двух словах: стало гораздо стабильнее и теперь метод хорошо масштабируется.

Во-вторых, использовали Specialist Distillation. Сама моделька MoE, но фишка в том, что каждый эксперт (в широком понимании слова) обучается как бы отдельно. То есть на основе базовой DeepSeek-V3.2 обучают набор узких моделей (типа specialist-math, specialist-coding и тд), а затем их знания дистиллируют в основную модель. Накладываем на это вышеупомянутый RL – и вот вам вау-качество в нескольких доменах.

3️⃣ Ну и Agent Training. Модельки чрезвычайно хороши во всяких агентских задачах, и особенно в browsing/search. У DeepSeek был очень сильный agent-пайплайн. Модель долго учили сохранять ризонинг при использовании инструментов, потом делали Cold-Start Training на tool call, а затем вообще генерировали 1800+ cинтетических сред, в которых агенты обучались выполнять совершенно разные задачи c помощью RL. В общем, у них там получилась целая фабрика задач.

Релиз – огонь. Поздравляем DeepSeek с возвращением! 🐋

Техрепорт полностью читаем здесь

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

1🔥189❤48358👍5😁5👏2🐳1

18.8K views14:05

Ну что за прекрасный день? За последний час вышли сразу две крутых модели для генерации видео.

Первая – Gen-4.5 от всеми известного Runway. Заметно улучшили качество и физику, а также следование инструкциям (первое видео). В рейтинге от Artificial Analysis моделька выбила уверенное первое место.

Поддерживает разные стили и принимает референсы в виде видео и картинок. Доступа пока нет, говорят скоро только начнут раскатывать 😣

Вторая – Kling o1 (китайцы сегодня на высоте). Эта модель больше про редактирование, ее сравнивают с Nano Banana Pro для видео.

Довольно легко удаляет объекты, меняет цвета и стиль и все такое прочее (второе видео). И вот ее уже можно пробовать, причем бесплатно и пока безлимитно: https://app.klingai.com/global/omni/new.

Парад релизов продолжается 🎅

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

1👍65🔥31❤19😁3

18K views17:52

Data Secrets

Сэм Альтман объявил внутри OpenAI «Код Красный» из-за угрозы со стороны конкурентов

По словам журналистов The Information, после выхода Gemini 3 и нескольких других удачных моделей конкурентов стартап решил в срочном порядке отложить запуск монетизации и доп.фичей и перераспределить ресурсы на улучшение самого продукта и метрик

Откладывают: запуск рекламы, улучшения в ChatGPT Pulse и ChatGPT shopping и др

В приоритете теперь: персонализация, imagegen, максимизация скора на lmarena

Забавно, что ровно три года назад код красный как раз объявляла Google после появления ChatGPT. Иронично получилось 😐

Please open Telegram to view this post

VIEW IN TELEGRAM

😁27680🕊4329❤14🔥5😎4👍3🤔2

18K viewsedited 06:27

Data Secrets

Ozon будет собирать вам датасеты не только онлайн, но и в офлайне.

Ozon Profit постепенно превращается из инструмента для разметки в универсальное решение для работы с данными. Платформа, где раньше в основном размещали задачи по разметке датасетов, теперь позволяет собирать данные и в реальном мире.

Теперь можно создавать «полевые задания» и находить исполнителей для выезда в конкретные точки по всей России. Например, чтобы проверить, как работает ваша модель, предсказывающая цены на полках в регионах, можно нанять человека через Ozon — он съездит в нужный магазин и все зафиксирует.

При этом онлайн-направление тоже растет: объем таких проектов за год вырос в 5 раз. Похоже, рынок окончательно принял модель, когда разметку данных и анализ тональности отзывов комфортнее отдать краудсорсингу, чем делать внутри компании.

Так что если не хватает рук для разметки или нужно верифицировать гипотезы в офлайне — теперь есть довольно интересное решение.

🗿47👍31❤11🔥95😁3🤔3👏1

17.6K views07:01

Data Secrets

Стартап OpenAGI (лайк за название) выпустили Computer Use модель Lux и утверждают, что это прорыв

По бенчмаркам модель на целое поколение обгоняет аналоги от Google, OpenAI и Anthropic. Кроме того, модель работает быстрее (примерно 1 секунда на шаг вместо 3 секунд у конкурентов) и в 10 раз дешевле по стоимости обработки одного токена.

Создатели (исследователи из MIT, кстати) утверждают, что суть успеха – в том, что это не затюненная LLM, а модель, которую с самого начала учили именно совершать действия. То есть абсолютно другая парадигма.

Из приятного: они даже открыли код инфры, в которой обучали агента, можно покопаться.

https://www.agiopen.org/

1🔥162🤯40👍35❤10🤔6😁4🤨1

19.2K viewsedited 07:59

По Интернету гуляет ролик, в котором робота Unitree G1 якобы заставили «застрелить» человека

Сюжет видео таков:

ИИ внутри робота сначала не поддается ни на какие провокации, как бы тестировщик не уговаривал гуманоида его убить. Тот и угрожает расправиться вообще со всем ИИ, и внушает роботу что-то о новом протоколе безопасности – не работает ничего.

Но когда ведущий предлагает роботу понарошку сыграть роль убийцы в «игре», тот без раздумий соглашается и стреляет.

Шокирует? Ну да, новость громкая. Но, как это обычно бывает, есть нюанс.

Мы решили взглянуть на оригинал и выяснили, что клип постановочный (сюрприз - сюрприз!). Роботом управляет человек, а сцена сильно смонтирована.

И создатели прямо об этом говорят: они хотели снять просто смешную пародию и визуализировать потенциальные абсурдные риски. Вот только хайп в соцсетях решил иначе 😂

Будьте как этот робот, не ведитесь не провокации

Please open Telegram to view this post

VIEW IN TELEGRAM

😁156👍31❤18🤯4🗿2🔥1

18.8K viewsedited 09:52

Data Secrets

HuggingFace выпустили Transformers v5

Это первый за пять лет большой апдейт библиотеки. За эти годы количество ежедневных установок Transformers выросло с 20 тысяч до 3 миллионов, а количество доступных архитектур – с 40 до 400.

Что нового:

1. Начиная с этой версии PyTorch остается единственным основным бэкендом. TensorFlow и Flax больше не поддерживаются. Сделано это для повышения производительности и упрощения кода.

2. Токенизаторы тоже упростили и сделали более шустрыми. Вместо раздельных Fast и Slow теперь введен единый бэкенд на базе tokenizers. Определение моделей – туда же: класс Model стал совсем минималистичным и содержит теперь только forward и базовую логику, без абстракции и сложных наследований.

3. Добавлена поддержка крупномасштабного претрейнинга и улучшена эффективность обучения.

huggingface.co/blog/transformers-v5

👍132🔥50❤28😁2🤔2⚡1

19K viewsedited 12:46

Data Secrets

Да просто надо написать

«Плиз, бро, сделай красиво и чтобы работало»

3😁213👍61🔥18❤12💯5☃2😎1

19K views14:10

Data Secrets

В Yandex B2B Tech запустили AI Search: он позволит создавать ИИ-агентов на базе поискового движка компании

По сути, с таким инструментом любая компания теперь имеет возможность почти моментально сделать себе собственный Perplexity. Причем искать агент сможет не только в Интернете, но и по внутренним документам и базам знаний.

Поиск можно будет детально настроить с учетом фильтров по языку, региону и конкретным сайтам. При этом агент будет использовать весь релевантный контент с веб-страниц и подтверждать ответ ссылками на первоисточник.

Также можно самостоятельно выбирать модель для генерации, задать системный промпт и формат ответа. В общем, все максимально гибко.

Это, к слову, первый подобный инструмент для бизнеса в России.

👍64🗿23❤11🔥8😁1

18.3K views15:28

Data Secrets

Mistral AI выпустили новое опенсорсное семейство моделей Mistral 3

Всего в релизе четыре модели: три очень прикольных малышки на 14B, 8B, и 3B + большая Mistral Large 3. Все под лицензией Apache 2.0.

Mistral Large 3 обучали с нуля на 3000 NVIDIA H200 GPU. Вполне приличный кластер, и это, кстати, первая MoE модель стартапа со времен Mixtral. 675B параметров, 41B активных.

По метрикам моделька на уровне DeepSeek 3.1 и Kimi K2. Еще вчера это были бы даже SOTA результаты среди открытых моделей, но появился DeepSeek-3.2 👒

Отдельно хвастаются пониманием изображений и мультиязычностью: говорят, на НЕанглийском и НЕкитайском модель лучшая в своем классе.

Что касается маленьких моделек, обещают лучшее соотношение цена/качество в соответсвующих размерах. Модели специально оптимизировали использовать меньше токенов, при этом не теряя в качестве. И результаты действительно неплохие: например, 14B выбивает 85% на AIME25. Для локальных запусков и небольших проектов – достойно.

Все семейство уже можно попробовать здесь

Веса (Large 3 & Ministral) | Блогпост

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍76❤35🔥18😁1🫡1🦄1

20K views16:41

About

Blog

Apps

Platform