#новости
😊 Colossus 2 почти готов
xAI, уже через несколько недель, начнут вводить в строй кластер из 550к GB200/GB300 на жидкостном охлаждении. Чтобы запитать этого монстра, xAI купили электростанцию в другой стране и привезли её в США — обойтись мобильными генераторами, как в случае с оригинальным Colossus, не вышло.
Добро пожаловать в эру гигаваттных кластеров
👉 Новости 👉 База вопросов
xAI, уже через несколько недель, начнут вводить в строй кластер из 550к GB200/GB300 на жидкостном охлаждении. Чтобы запитать этого монстра, xAI купили электростанцию в другой стране и привезли её в США — обойтись мобильными генераторами, как в случае с оригинальным Colossus, не вышло.
Добро пожаловать в эру гигаваттных кластеров
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2
#полезное
😇 Qwen 3 Coder
Ещё один релиз от китайцев, тоже без ризонинга. На кодинг и агентных бенчах почти дотягивает до Claude 4 Sonnet. Нативно поддерживает до 256к токенов контекста, но масштабируется до миллиона с использованием YaRN.
Архитектурно это MoE на 480B параметров (35B активных), который натренировали на 7.5 триллионах токенов, 70% из них — код. Это почти в 5 раз меньше датасет чем у оригинального Qwen 3. Много внимание уделили скейлингу RL — модель учили решать реальные задачи используя реальные тулы в течении множества попыток. Чтобы это всё нормально тренировалось, они скейлили свою RL систему до 20к параллельных энвайронментов.
В официальном API у модели очень резко растёт цена с длиной контекста: до 32k контекста модель стоит $1/$5 за миллион токенов, при 128k-256k — стоит как Claude Sonnet, а при миллионе токенов контекста цена доходит до бешенных $6/$60 за миллион токенов. Так что вряд ли стоит использовать официальное API — сторонние API провайдеры хоть и дают пока лишь до 262к контекста, но там нет шанса стать на грабли бешеного прайсинга. Да и цена у сторонних провайдеров заметно ниже — самый дешёвый отдаёт модель по цене $1.5/$2 за миллион токенов.
С моделью опубликовали и Qwen Code — форк Gemini CLI, специально заточенный под Qwen Coder. Для пользователей Claude Code запустили совместимый с API Anthropic эндпоинт, но ему присущи все проблемы официального API.
С большим любопытством слежу за противостоянием открытых китайских моделей и закрытых западных. Китайцы уж очень дышат в затылок своими опенсорсными моделями.
Веса
Блогпост
Qwen Code
👉 Новости 👉 База вопросов
Ещё один релиз от китайцев, тоже без ризонинга. На кодинг и агентных бенчах почти дотягивает до Claude 4 Sonnet. Нативно поддерживает до 256к токенов контекста, но масштабируется до миллиона с использованием YaRN.
Архитектурно это MoE на 480B параметров (35B активных), который натренировали на 7.5 триллионах токенов, 70% из них — код. Это почти в 5 раз меньше датасет чем у оригинального Qwen 3. Много внимание уделили скейлингу RL — модель учили решать реальные задачи используя реальные тулы в течении множества попыток. Чтобы это всё нормально тренировалось, они скейлили свою RL систему до 20к параллельных энвайронментов.
В официальном API у модели очень резко растёт цена с длиной контекста: до 32k контекста модель стоит $1/$5 за миллион токенов, при 128k-256k — стоит как Claude Sonnet, а при миллионе токенов контекста цена доходит до бешенных $6/$60 за миллион токенов. Так что вряд ли стоит использовать официальное API — сторонние API провайдеры хоть и дают пока лишь до 262к контекста, но там нет шанса стать на грабли бешеного прайсинга. Да и цена у сторонних провайдеров заметно ниже — самый дешёвый отдаёт модель по цене $1.5/$2 за миллион токенов.
С моделью опубликовали и Qwen Code — форк Gemini CLI, специально заточенный под Qwen Coder. Для пользователей Claude Code запустили совместимый с API Anthropic эндпоинт, но ему присущи все проблемы официального API.
С большим любопытством слежу за противостоянием открытых китайских моделей и закрытых западных. Китайцы уж очень дышат в затылок своими опенсорсными моделями.
Веса
Блогпост
Qwen Code
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес #ScikitLearn
🤔 Как реализовать ансамблевый метод в Scikit-Learn и объяснить его преимущества?
Ансамблевые методы, такие как Random Forest, используют несколько моделей для улучшения точности предсказаний, уменьшая переобучение. Они работают путем агрегирования результатов нескольких моделей, что позволяет уменьшить вариативность и смещение.
👉 Новости 👉 База вопросов
Ансамблевые методы, такие как Random Forest, используют несколько моделей для улучшения точности предсказаний, уменьшая переобучение. Они работают путем агрегирования результатов нескольких моделей, что позволяет уменьшить вариативность и смещение.
Please open Telegram to view this post
VIEW IN TELEGRAM
YeaHub
YeaHub — тренажер собеседований по IT
5000+ вопросов для подготовки к интервью. Фильтры, квизы, статистика!
#полезное
📞 Китайцы решили убить Claude 4 — релизнулась модель Qwen 3 Coder, которая сможет накодить проект абсолютно любой сложности, работает на уровне Sonnet 4, но при этом бесплатна.
Тестируем нового помощника для прогеров — тут.
👉 Новости 👉 База вопросов
Тестируем нового помощника для прогеров — тут.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
#полезное
🥱 ChatGPT Agent теперь доступен всем подписчикам Plus и Team
Раскатывали режим дольше чем обещали, ссылаясь на повышенный спрос. Попробовать агента можно в Tools>Agent mode, там же где Deep Research.
👉 Новости 👉 База вопросов
Раскатывали режим дольше чем обещали, ссылаясь на повышенный спрос. Попробовать агента можно в Tools>Agent mode, там же где Deep Research.
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес #ScikitLearn
🤔 Можете ли вы описать сценарий, где вы бы использовали Random Forest вместо линейной регрессии и почему?
Random Forest стоит использовать вместо линейной регрессии, когда данные имеют сложные взаимосвязи и нелинейные зависимости, например, в задачах классификации заболеваний на основе множества параметров здоровья. Линейная регрессия предполагает линейную зависимость между признаками и результатом, что может не подходить для таких ситуаций. Random Forest может эффективно работать с такими данными, создавая несколько деревьев решений и комбинируя их результаты.
👉 Новости 👉 База вопросов
Random Forest стоит использовать вместо линейной регрессии, когда данные имеют сложные взаимосвязи и нелинейные зависимости, например, в задачах классификации заболеваний на основе множества параметров здоровья. Линейная регрессия предполагает линейную зависимость между признаками и результатом, что может не подходить для таких ситуаций. Random Forest может эффективно работать с такими данными, создавая несколько деревьев решений и комбинируя их результаты.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
#полезное
🛞 Microsoft снова доказывает силу синтетических данных для задач компьютерного зрения!
Современные модели компьютерного зрения с фокусом на человека (Human-centric CV) требуют миллиардов параметров, гигантских датасетов и дорогостоящего инференса. Но можно ли добиться такой же точности, не тратя миллионы?
Исследователи показали: модели можно обучать только на синтетических данных высокого качества — и при этом достигать тех же результатов.
Microsoft представили DAViD — open-source фреймворк, позволяющий создавать цифровых людей с точной геометрией лиц и текстурами.
Проект демонстрирует, как можно использовать синтетические датасеты для:
🟠 Предсказания глубины изображения (Depth Prediction)
🟠 Оценки поверхностей (Normal Estimation)
🟠 Сегментации фона и людей на фото/видео (Background & Human Segmentation)
Почему это круто:
🔵 Синтетические данные = пиксельная точность разметки
🔵 Почти бесконечное разнообразие сцен, ракурсов, освещения и поз
🔵 Прекрасно масштабируются для обучения моделей с нуля или дообучения
Самое приятное, что Microsoft выложили всё в опенсорс:
✅ 300 000 сэмплов
✅ Предобученные модели
✅ Исходный код фреймворка
Проект: https://microsoft.github.io/DAViD/
Статья: https://arxiv.org/abs/2507.15365
Github: https://github.com/microsoft/DAViD
👉 Новости 👉 База вопросов
Современные модели компьютерного зрения с фокусом на человека (Human-centric CV) требуют миллиардов параметров, гигантских датасетов и дорогостоящего инференса. Но можно ли добиться такой же точности, не тратя миллионы?
Исследователи показали: модели можно обучать только на синтетических данных высокого качества — и при этом достигать тех же результатов.
Microsoft представили DAViD — open-source фреймворк, позволяющий создавать цифровых людей с точной геометрией лиц и текстурами.
Проект демонстрирует, как можно использовать синтетические датасеты для:
Почему это круто:
Самое приятное, что Microsoft выложили всё в опенсорс:
Проект: https://microsoft.github.io/DAViD/
Статья: https://arxiv.org/abs/2507.15365
Github: https://github.com/microsoft/DAViD
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
🤯 GLM 4.5 — китайский опенсорс продолжает доминировать
Очередная очень сильная открытая MoE модель от китайцев, с очень хорошими результатами на бенчах. Гибридний ризонер, с упором на тулюз. Доступна по MIT лицензии, 128к контекста, нативный function calling, из коробки работают стриминг и batching, есть FP8‑инференс и совместимость с vLLM/SGLang.
Как и Kimi K2 модельку тренировали с Muon, но в отличие от Kimi авторы использовали QK норму вместо клиппинга — Kimi такой трюк не позволило провернуть использование MLA, из-за чего им пришлось придумывать свою версию оптимайзера. Для спекулятивного декодинга получше модельку тренировали с MTP. Она заметно глубже чем другие открытые китайские MoE — это повышает перформанс, за счёт роста размера KV-кэша. Вместе с этим они используют заметно больше attention heads. Это хоть и не помогает лоссу, но заметно улучшает ризонинг бенчмарки.
Модель идёт в двух размерах — 355B (32B active) и 106B (12B active). Претрейн был на 22 триллионах токенов — 15 триллионов токенов обычных данных, а после них 7 триллионов кода с ризонингом. На мидтрейне в модель запихнули по 500 миллиардов токенов кода и ризонинг данных с контекстом расширенным до 32к, а после этого 100 миллиардов long context и агентных данных при контексте уже в 128к.
Посттрейн двухэтапный — сначала из базовой модели через cold‑start+RL тренируют три эксперта (reasoning модель, agentic модель, и для общих тасков) и сводят их знания в одну модель через self‑distillation. Затем идёт объединённое обучение: общий SFT → Reasoning RL → Agentic RL → General RL.
Для ризонинга применяют одноступенчатый RL на полном 64K‑контексте с curriculum по сложности, динамическими температурами и адаптивным клиппингом. Агентные навыки тренируют на верифицируемых треках — поиск информации и программирование с обратной связью по исполнению. Полученные улучшения помогают и deep search и общему tool‑use. Кстати, их посттрейн фреймворк открытый и лежит на гитхабе.
Веса
Демо
Блогпост
Посттрейн фреймворк
👉 Новости 👉 База вопросов
Очередная очень сильная открытая MoE модель от китайцев, с очень хорошими результатами на бенчах. Гибридний ризонер, с упором на тулюз. Доступна по MIT лицензии, 128к контекста, нативный function calling, из коробки работают стриминг и batching, есть FP8‑инференс и совместимость с vLLM/SGLang.
Как и Kimi K2 модельку тренировали с Muon, но в отличие от Kimi авторы использовали QK норму вместо клиппинга — Kimi такой трюк не позволило провернуть использование MLA, из-за чего им пришлось придумывать свою версию оптимайзера. Для спекулятивного декодинга получше модельку тренировали с MTP. Она заметно глубже чем другие открытые китайские MoE — это повышает перформанс, за счёт роста размера KV-кэша. Вместе с этим они используют заметно больше attention heads. Это хоть и не помогает лоссу, но заметно улучшает ризонинг бенчмарки.
Модель идёт в двух размерах — 355B (32B active) и 106B (12B active). Претрейн был на 22 триллионах токенов — 15 триллионов токенов обычных данных, а после них 7 триллионов кода с ризонингом. На мидтрейне в модель запихнули по 500 миллиардов токенов кода и ризонинг данных с контекстом расширенным до 32к, а после этого 100 миллиардов long context и агентных данных при контексте уже в 128к.
Посттрейн двухэтапный — сначала из базовой модели через cold‑start+RL тренируют три эксперта (reasoning модель, agentic модель, и для общих тасков) и сводят их знания в одну модель через self‑distillation. Затем идёт объединённое обучение: общий SFT → Reasoning RL → Agentic RL → General RL.
Для ризонинга применяют одноступенчатый RL на полном 64K‑контексте с curriculum по сложности, динамическими температурами и адаптивным клиппингом. Агентные навыки тренируют на верифицируемых треках — поиск информации и программирование с обратной связью по исполнению. Полученные улучшения помогают и deep search и общему tool‑use. Кстати, их посттрейн фреймворк открытый и лежит на гитхабе.
Веса
Демо
Блогпост
Посттрейн фреймворк
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес #mongoDB
🤔 Как выполнить поиск без учета регистра в MongoDB?
Для поиска без учета регистра в MongoDB используется оператор Sregex в сочетании с опцией
soptions, установленной в "i". Это позволяет искать значения, игнорируя различия между заглавными и
строчными буквами. Пример запроса:
👉 Новости 👉 Платформа
Для поиска без учета регистра в MongoDB используется оператор Sregex в сочетании с опцией
soptions, установленной в "i". Это позволяет искать значения, игнорируя различия между заглавными и
строчными буквами. Пример запроса:
db.collectionName.find([field: Sregex: "searchTerm", Soptions: "i" ] |)
Please open Telegram to view this post
VIEW IN TELEGRAM
YeaHub
YeaHub — тренажер собеседований по IT
5000+ вопросов для подготовки к интервью. Фильтры, квизы, статистика!
#полезное
😊 Обновлённый Qwen 30B-A3B Instruct
Влезающая в одну видеокарту MoE модель с 256к контекста, по многим бенчам обгоняет DeepSeek V3-0324 и GPT 4o-0327. Это не гибридная модель, ризонинг версию выкатят чуть позже. Боюсь представить какие там будут результаты, если обычный Instruct так сильно всё рвёт.
Веса
👉 Новости 👉 База вопросов
Влезающая в одну видеокарту MoE модель с 256к контекста, по многим бенчам обгоняет DeepSeek V3-0324 и GPT 4o-0327. Это не гибридная модель, ризонинг версию выкатят чуть позже. Боюсь представить какие там будут результаты, если обычный Instruct так сильно всё рвёт.
Веса
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес #mongoDB
🤔 Что такое агрегация в MongoDB и зачем она нужна?
Агрегация в MongoDB - это процесс обработки данных с использованием конвейера (pipeline), где данные проходят через последовательность этапов для фильтрации, группировки и преобразования. Она используется для выполнения сложных аналитических операций.
👉 Новости 👉 Платформа
Агрегация в MongoDB - это процесс обработки данных с использованием конвейера (pipeline), где данные проходят через последовательность этапов для фильтрации, группировки и преобразования. Она используется для выполнения сложных аналитических операций.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
#полезное
😴 Microsoft — стала второй компанией в истории с капитализацией $4 триллиона
Microsoft выросла до $4 трлн не за счёт Windows, а благодаря облакам и ИИ.
Azure строили 10 лет. Сегодня она:
— на втором месте после AWS
— обгоняет Google Cloud по выручке
— питает всё: от Office и Xbox до Copilot и генеративных моделей
Каждый продукт — это ещё один повод платить за облако. Всё работает на одной инфраструктуре.
Satya Nadella (генеральный директор (CEO) компании Microsoft уже выделил $80 млрд на новые дата-центры.
Ставка очевидна: весь Microsoft переезжает в облако.
👉 Новости 👉 База вопросов
Microsoft выросла до $4 трлн не за счёт Windows, а благодаря облакам и ИИ.
Azure строили 10 лет. Сегодня она:
— на втором месте после AWS
— обгоняет Google Cloud по выручке
— питает всё: от Office и Xbox до Copilot и генеративных моделей
Каждый продукт — это ещё один повод платить за облако. Всё работает на одной инфраструктуре.
Satya Nadella (генеральный директор (CEO) компании Microsoft уже выделил $80 млрд на новые дата-центры.
Ставка очевидна: весь Microsoft переезжает в облако.
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
👋 Gemini Deep Think завезли в Ultra подписку
Оптимизированная версия модели, выигравшей золото на IMO. Она сама по себе способна получить бронзу, а доступ к полноценной модели дали ряду математиков. Работает она примерно как o3 Pro — запускает несколько параллельных потоков рассуждения и потом комбинирует результаты.
Модель разваливает Grok 4 и o3 без тулюза на Humanity's Last Exam и прочих бенчах. Не дают доступа к внешним инструментам чтобы сравнить модели в одинаковых условиях, тем не менее Deep Think умеет выполнять код и пользоваться поиском.
Если не помните, Google AI Ultra — это максимальный тир ИИ подписки от Google. Он более дорогой чем ChatGPT Pro или Claude Max — $250, но в подписку, кроме Veo 3 и продвинутой Gemini, входит ещё и 30 терабайт на Google Drive. На первые три месяца делают 50% скидку.
👉 Новости 👉 База вопросов
Оптимизированная версия модели, выигравшей золото на IMO. Она сама по себе способна получить бронзу, а доступ к полноценной модели дали ряду математиков. Работает она примерно как o3 Pro — запускает несколько параллельных потоков рассуждения и потом комбинирует результаты.
Модель разваливает Grok 4 и o3 без тулюза на Humanity's Last Exam и прочих бенчах. Не дают доступа к внешним инструментам чтобы сравнить модели в одинаковых условиях, тем не менее Deep Think умеет выполнять код и пользоваться поиском.
Если не помните, Google AI Ultra — это максимальный тир ИИ подписки от Google. Он более дорогой чем ChatGPT Pro или Claude Max — $250, но в подписку, кроме Veo 3 и продвинутой Gemini, входит ещё и 30 терабайт на Google Drive. На первые три месяца делают 50% скидку.
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес #mongoDB
🤔 Как ограничить количество возвращаемых документов в MongoDB?
Метод
👉 Новости 👉 Платформа
Метод
limit() позволяет ограничить количество документов, возвращаемых запросом. Вы передаёте в него число, указывающее максимальное количество возвращаемых документов.Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
This media is not supported in your browser
VIEW IN TELEGRAM
#полезное
👨💻 GPT-OSS 120B выдаёт 3000 токенов в секунду на Cerebras
Цены не заоблачные — $0.25/$0.69 за миллион токенов, это дороже чем у GPU провайдеров, но в десятки раз быстрее. Groq тоже запустили у себя эту модель, но результаты менее впечатляющие — 500 токенов в секунду для 120B ($0.15/$0.75 за миллион токенов) и 1000 токенов в секунду для 20B ($0.1/$0.5 за миллион).
inference.cerebras.ai
👉 Новости 👉 База вопросов
Цены не заоблачные — $0.25/$0.69 за миллион токенов, это дороже чем у GPU провайдеров, но в десятки раз быстрее. Groq тоже запустили у себя эту модель, но результаты менее впечатляющие — 500 токенов в секунду для 120B ($0.15/$0.75 за миллион токенов) и 1000 токенов в секунду для 20B ($0.1/$0.5 за миллион).
inference.cerebras.ai
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
This media is not supported in your browser
VIEW IN TELEGRAM
#полезное
😐 Ничего необычного, просто исследователи из Google обнаружили что Genie 3 может эмулировать саму себя внутри симуляции. Заметьте, как картинка на экране ноутбука и на телевизоре синхронизируется.
👉 Новости 👉 База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
#Собес #mongoDB
🤔 Что такое курсор в MongoDB и как он используется?
Курсор в MongoDB - это объект, возвращаемый методами вроде
👉 Новости 👉 Платформа
Курсор в MongoDB - это объект, возвращаемый методами вроде
find() , который позволяет итерировать по результатам запроса. Вместо возврата всех документов сразу, курсор загружает их по мере необходимости, что удобно для обработки больших наборов данных.Please open Telegram to view this post
VIEW IN TELEGRAM
❤1