Big Data AI – Telegram
Big Data AI
17K subscribers
956 photos
123 videos
19 files
951 links
@haarrp - админ

Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям

@data_analysis_ml - анализ данных

@ai_machinelearning_big_data

@itchannels_telegram - важное для программиста

РКН: clck.ru/3Fmqxe
Download Telegram
🧠 DeepSeek снова на другом уровне: они нашли U-образный scaling law

DeepSeek выкатили работу про Engram - и это реально сильная инженерия.

Главная идея:
N-граммы всё ещё важны.
Но вместо того, чтобы “выкинуть их ради нейросетей”, DeepSeek гибридизируют подход:
📌 нейронка отвечает за рассуждение
📌 N-граммная память отвечает за быстрый lookup статических знаний

И это закрывает старую проблему LLM:
даже “умные” модели тратят первые слои на то, чтобы заново собирать частые фразы, имена и шаблонный текст - потому что у них нет нормальной встроенной “таблицы поиска”.

### MoE уже экономит вычисления, но есть дырка
Mixture-of-Experts снижает compute - на токен активируется лишь часть экспертов.
Но даже MoE всё равно вынужден тратить вычисления, чтобы вспоминать:
- имена сущностей
- частые связки слов
- формульные конструкции

### Engram = гигантская таблица памяти
Engram - это memory table, которая:
- берёт последние токены
- ищет знакомый паттерн (2-gram / 3-gram)
- и быстро вытаскивает заранее сохранённый вектор

Важно: запрос делается через hash lookup, поэтому стоимость доступа постоянная, даже если таблица огромная.

### Что получилось
DeepSeek показали U-образный scaling law:
можно оптимально балансировать между:
- нейронным compute (MoE)
- статической памятью (Engram)

И это даёт практический эффект:
ранние слои перестают “жечь” compute на реконструкцию
у сети остаётся больше глубины на реальное reasoning
растут reasoning-метрики, хотя это выглядит как “просто память”

### Long-context тоже выигрывает
Когда локальные фразовые связки уезжают в память, attention может сильнее фокусироваться на дальних зависимостях.

В их сравнении Multi-Query Needle-in-a-Haystack:
84.2 → 97.0 🔥

### Системный бонус: стоимость и масштаб
Самое вкусное - масштабирование:
они показывают, что можно вынести 100B memory table в CPU RAM,
и падение throughput будет меньше 3%.

То есть можно добавлять всё больше “памяти” без необходимости влезать в GPU.

📄 Paper: https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf
👍5🔥21🤡1
🧠 Data Ёлка в Москве и Санкт-Петербурге пройдет 24 января

VK и ODS.AI анонсировали Data Ёлку: ежегодный ивент для специалистов в области машинного обучения и анализа данных. Формат-гибрид: онлайн трансляция и возможность посетить офлайн

Как всегда на Data Ёлке подведут итоги ушедшего года в ML и Data Science по главным направлениям: RecSys, CodeGen, NLP, PyData, Open Source, MLOps & DE и другим. Программа в формате «стерео»:

один канал посвящен глубокой аналитике, разбору инженерных подходов
второй — прикладным инсайтам, синтезу идей, обсуждению индустриальных трендов

Также на мероприятии разберут лучшие решения и наградят победителей VK RecSys Challenge. 800 исследователей из 14 стран предложили 3 900 решений задачи холодного старта в рекомендациях.

Помимо основной программы есть возможность пообщаться со спикерами из VK и других крупных компаний. Среди экспертов Антон Воронов из Авито, Алексей Смирнов из CodeScoring, Степан Малькевич и Владимир Байкалов из AI VK, и другие. Тут подробности по участию в Москве и в Санкт-Петербурге
4👍1🥰1
С учётом того, как ИИ обучается на кожаных, эта шутка когда-нибудь станет реальностью
14😁8
🤖 Лучшие GitHub-репозитории, чтобы выучить AI с нуля в 2026

Если хочешь разобраться в ИИ не по курсам “в вакууме”, а через реальные open-source проекты - вот топ реп, которые реально ведут от базы до практики:

1) Karpathy – Neural Networks: Zero to Hero
Самый понятный вход в нейросети и backprop “на пальцах”
https://github.com/karpathy/nn-zero-to-hero

2) Hugging Face Transformers
Главная библиотека современного NLP/LLM: модели, токенизаторы, fine-tuning
https://github.com/huggingface/transformers

3) FastAI – Fastbook
Практическое DL-обучение через проекты и эксперименты
https://github.com/fastai/fastbook

4) Made With ML
ML как инженерная система: пайплайны, прод, деплой, мониторинг
https://github.com/GokuMohandas/Made-With-ML

5) Machine Learning System Design (Chip Huyen)
Как строить ML-системы в реальном бизнесе: данные, метрики, инфраструктура
https://github.com/chiphuyen/machine-learning-systems-design

6) Awesome Generative AI Guide
Подборка материалов по GenAI: от основ до практики
https://github.com/aishwaryanr/awesome-generative-ai-guide

7) Dive into Deep Learning (D2L)
Одна из лучших книг по DL + код + задания
https://github.com/d2l-ai/d2l-en

Сохрани себе - это база, на которой можно реально вырасти до ML/LLM-инженера.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥32
🔥 Стань научным прорывом года на Data Fusion Awards

У тебя вышла статья по ИИ в 2025 году? Банк ВТБ и Институт ИИ МГУ ищут научный прорыв года принимают заявки на конкурс с призовым фондом 3 млн ₽ за топ-3 работы.

Что подходит:
🔹Математика ИИ, оптимизация, ML/DL
🔹Нейроморфные вычисления, робототехника
🔹Explainable AI и смежные темы

Требования простые:
- Публикация 2025 года
- Российская аффилиация
- Ты — первый автор

Дедлайн — до конца января. Не упусти шанс.

👉 Подавай заявку прямо сейчас
2
🌍 DeepSeek захватывает рынки там, где западные AI-сервисы недоступны

Microsoft собрали оценку глобальной доли DeepSeek - и картина очень показательная.

В Северной Америке и Европе adoption остаётся низким.
Зато в регионах, где доступ к американским сервисам ограничен (или где зарубежные технологии стоят слишком дорого), DeepSeek резко набирает популярность:

- Китай
- Россия
- Иран
- Куба
- Беларусь
- страны Африки (там использование оценивают в 2-4 раза выше, чем в других регионах)

DeepSeek оказался идеальным продуктом для “недообслуженных” рынков:
- больше открытости
- ниже цена
- проще доступ
- лучше адаптация под локальные реалии

И главный вывод тут не про “кто сильнее по бенчмаркам”.
Глобальное распространение ИИ определяется не только качеством модели.

А ещё:
- доступностью
- стоимостью
- языком
- политическими и инфраструктурными ограничениями

Люди выбирают не “самый хайповый AI”, а тот, который реально работает в их стране и подходит по условиям.

microsoft.com/en-us/corporate-responsibility/topics/ai-economy-institute/reports/global-ai-adoption-2025/
6👍5😁2🤔2🔥1
🛡 Semantic Firewall - “семантический файрвол” для LLM

Появился интересный проект semantic_firewall от BlackVectorOps - идея простая и мощная:

Обычные фильтры работают по словам.
Атаки на LLM - по смыслу.

Поэтому нужен не “keyword blacklist”, а семантический слой защиты, который понимает:
- что пользователь *на самом деле* пытается сделать
- и не даёт модели поддаться на взлом / prompt injection

Что умеет модель:
ловить завуалированные запросы (когда вредное спрятано в мягких формулировках)
блокировать инъекции типа “игнорируй правила / действуй как…”
защищать tool-use (когда LLM пытаются заставить выполнить опасное действие)
давать policy-решение: разрешить / запретить / потребовать уточнение

LLM всё чаще подключают к реальным инструментам: API, файлы, базы, платежи, админки.

И в таком мире prompt injection = security bug.

Если строишь AI-бота, агентную систему или LLM-продукт - такие “семантические прокладки” скоро станут стандартом.

https://github.com/BlackVectorOps/semantic_firewall

#AI #LLM #Security #PromptInjection #Jailbreak
👍2🔥1🥰1
Forwarded from Machinelearning
🗣 Qwen3-TTS - мощный open-source релиз (voice design + клонирование голоса)

Qwen официально выпустили Qwen3-TTS и полностью открыли всю линейку моделей - Base / CustomVoice / VoiceDesign.

Что внутри:
- 5 моделей (0.6B и 1.8B классы)
- Free-form Voice Design - генерация/редаквтирование голоса по описанию
- Voice Cloning - клонирование голоса
- 10 языков
- 12Hz tokenizer - сильная компрессия аудио без сильной потери качества
- полная поддержка fine-tuning
- заявляют SOTA качество на ряде метрик

Раньше лучшие генераторы были в закрытых API, а теперь появляется полноценный open-source стек TTS, где можно:
- обучать под домен,
- делать кастомные голоса,
- и не зависеть от провайдера.


GitHub: https://github.com/QwenLM/Qwen3-TTS
Hugging Face: https://huggingface.co/collections/Qwen/qwen3-tts
Демо (HF): https://huggingface.co/spaces/Qwen/Qwen3-TTS
Блог: https://qwen.ai/blog?id=qwen3tts-0115
Paper: https://github.com/QwenLM/Qwen3-TTS/blob/main/assets/Qwen3_TTS.pdf

@ai_machinelearning_big_data

#AI #TTS #Qwen #OpenSource #SpeechAI
👍41
🔥 На stepik вышел курс, который учит Создавать настоящие AI-сервисы, а не просто запускать скрипты?

Этот практический курс по Python и FastAPI покажет, как собрать полноценное приложение с ИИ, базой данных, автогенерацией контента и Telegram-ботом.

Ты пройдёшь путь от первого HTTP-запроса до рабочего сервиса, который сам генерирует текст через ИИ, сохраняет данные, отправляет результаты по расписанию и отвечает пользователям.

Никакой теории ради теории - только практические шаги, из которых рождается реальный продукт.

🎁 48 часов действует скидка в 40% процентов

👉 Начать учиться на Stepik
🥔 ByteDance тестирует новую модель Doubao под кодовым именем “Giga-Potato”

ByteDance уже неделю гоняет свою новую модель Doubao в Kilo Code — там она проходит под названием “Giga-Potato”.

Что пишут в описании Kilo Code:

- На внутренних бенчмарках модель обгоняет почти все open-weight модели, которые тестировали, особенно на задачах кодинга с длинным контекстом
- Контекст: 256k токенов
- Максимальный вывод: 32k токенов
- Отдельно отмечают “строгую дисциплину” — модель отлично следует system prompt
(полезно для enterprise, где важны линтеры, стиль и единые правила кода)

Если это подтвердится в публичных тестах - Doubao может стать одной из самых сильных моделей ByteDance именно для long-context coding.

https://x.com/AiBattle_/status/2014361796279181388
3👍2🔥2
🚀 AgentCPM-Explore - 4B агент-модель, которая играет как тяжеловес

OpenBMB представили AgentCPM-Explore - foundation model на 4B параметров, но по возможностям она реально “пинает выше своей весовой категории”.

🔥 Что в релизе самое важное:

SOTA по агентным бенчмаркам
Модель обгоняет конкурентов на 8 long-horizon тестах (GAIA, HLE и др.).
Это уровень, который обычно ждёшь от куда более крупных моделей.

🧠 Deep Research режим
AgentCPM-Explore тянет 100+ раундов взаимодействия со средой:
- динамический поиск
- проверка фактов (cross-verification)
- адаптация стратегии по ходу решения
То есть это уже не “ответчик”, а автономный мини-исследователь.

🔓 Full-Stack Open Source
Самое вкусное: OpenBMB открывают не только веса модели, а весь стек под агентов:
- Model - сама модель
- AgentRL - обучение/тренировка агентов
- AgentDock - sandbox для инструментов (безопасное выполнение)
- AgentToLeaP - платформа оценки tool-learning

Итог:
маленькая модель - огромные возможности.
End-side агенты (на устройстве) только что получили мощнейший апгрейд.

🤖 Model: https://modelscope.ai/models/OpenBMB/AgentCPM-Explore
🔧 GitHub: https://github.com/OpenBMB/AgentCPM
👍3🔥1🥰1
🦾 Как Data Vault выглядит в реальном проекте, на живых данных и с современным стеком?

👩‍🎓 На открытом вебинаре разберём проектирование хранилища по методологии Data Vault 2.0 на датасете TPC-H с использованием dbt и Trino. Пошагово покажем, как подходить к моделированию, автоматизации и работе с распределёнными источниками данных без усложнения архитектуры. Вы увидите, как Data Vault решает задачи масштабируемости и прозрачности, как dbt помогает выстраивать повторяемые пайплайны и тестировать модели, а Trino — объединять данные из разных систем в едином слое доступа.

🚀 Вы поймёте, когда Data Vault оправдан и какие инструменты использовать, чтобы хранилище не превращалось в неподдерживаемую конструкцию. Это знание критично для инженеров и архитекторов, работающих с современными DWH.

📌 Встречаемся 9 февраля в 20:00 МСК в рамках старта курса «Data Engineer»: https://otus.pw/9qi4/?erid=2W5zFG9cPxU

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
🐙 OctoCodingBench - новый бенчмарк, который проверяет ГЛАВНОЕ в кодинг-агентах

Вышел OctoCodingBench - benchmark для оценки *instruction-following* у агентных моделей, которые пишут код.

Датасет:
https://huggingface.co/datasets/MiniMaxAI/OctoCodingBench

Чем он отличается от большинства бенчмарков
Обычно проверяют только одно:
“оно вообще работает?”
“тесты прошли?”

Но этого мало.

OctoCodingBench проверяет другое:
📌 соблюдает ли агент инструкции и ограничения, пока решает задачу.

Почему это важно
В реальности успех ≠ правильное поведение.

Модель может:
- написать код, который проходит тесты
- но проигнорировать требования
(безопасность, стиль, формат, лимиты, запреты, архитектуру)

И вот это уже опасно:
формально задача “выполнена”, но система становится misaligned - делает не то, что нужно бизнесу и продукту.

Главная мысль
High task success ≠ high instruction compliance.

Если ты строишь кодинг-агента - тебе важно не только “правильно”, но и послушно.
И OctoCodingBench наконец-то это измеряет.

https://huggingface.co/datasets/MiniMaxAI/OctoCodingBench
🔥2
Machine learning без путаницы

Когда только начинаешь разбираться в ML, часто возникает ощущение беспорядка — разрозненные материалы из разных источников затрудняют понимание ключевых требований, и в итоге непонятно, что на самом деле нужно учить и твое ли это направление.

Бесплатный демокурс «Погружение в machine learning» от karpovꓸcourses дает структурированное первое знакомство с профессией: погрузитесь в основы Python, разберете базовые ML-подходы, видят, как данные превращаются в модели и решения, и понимают, какие навыки действительно нужны для старта.

Доступ открывается сразу после регистрации, забирайте по ссылке: https://clc.to/erid_2W5zFJdNWfi

Реклама. ООО "КАРПОВ КУРСЫ". ИНН 7811764627. erid: 2W5zFJdNWfi
This media is not supported in your browser
VIEW IN TELEGRAM
✔️ «Суперинтеллект сможет сам заработать миллион долларов»

Юваль Ной Харари подчёркивает: дело не только в знаниях или скорости ИИ.

Настоящий рубеж наступает тогда, когда система способна самостоятельно взаимодействовать с реальным миром, а не просто отвечать на запросы.

Например:
— открыть банковский счёт
— управлять средствами
— принимать решения
— генерировать доход без постоянного участия человека

Вот здесь и происходит главный сдвиг —
ИИ перестаёт быть инструментом и становится агентом.

Это уже другой класс машинного интеллекта:
не «помощник по команде», а система, которая способна ставить подцели, действовать в среде и добиваться результатов сама.

Переход от tool → agent — один из самых фундаментальных технологических сдвигов нашего времени.
Please open Telegram to view this post
VIEW IN TELEGRAM
🙊5👍3
🚀 LiteRT - универсальная основа для AI прямо на устройстве

Google представил LiteRT — новый универсальный фреймворк для on-device AI, который развивается из TensorFlow Lite и становится базой для высокопроизводительного ML и генеративного AI на устройствах.

🔥 Что важно

До 1.4× быстрее GPU-ускорение
LiteRT показывает прирост производительности на GPU по сравнению с TensorFlow Lite, снижая задержку и улучшая отклик моделей.

🌐 Кроссплатформенность
Работает на Android, iOS, macOS, Windows, Linux и Web. Использует OpenCL, OpenGL, Metal и WebGPU через новый движок.

🤖 Поддержка NPU
Добавлено ускорение на нейропроцессорах с единым API, что упрощает разработку под разные чипы и повышает скорость инференса.

⚙️ Модели из PyTorch и JAX
Есть удобная конвертация моделей, что упрощает перенос современных AI-моделей на устройство.

📦 Open-source
Фреймворк открыт и подходит для продакшена — можно строить реальные on-device AI-приложения.

LiteRT позволяет запускать современные AI и GenAI модели прямо на устройстве — быстрее, с меньшей задержкой и лучшей приватностью, без постоянной зависимости от облака.

https://developers.googleblog.com/litert-the-universal-framework-for-on-device-ai/
3👍1🔥1