Анализ данных (Data analysis) – Telegram
Анализ данных (Data analysis)
47.1K subscribers
2.68K photos
304 videos
1 file
2.3K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
💸 Акции ведущих производителей просели на фоне резкого усиления интереса к TPU от Google.

- NVDA упала примерно на 6 процентов
- AMD упала примерно на 8 процентов
- ORCL снизилась примерно на 5 процентов
- CRWV просела примерно на 8 процентов

Спрос на AI никуда не исчез.

Anthropic а теперь и Компания Цукерберга начинают переносить серьезные рабочие нагрузки на TPU от Google.

Рынок заново оценивает расстановку сил в индустрии.
TPU Google воспринимаются как реальная альтернатива GPU.

@data_analysis_ml
🔥166👍2👏1
⚡️ Математический roadmap для ML специалистов: от линала до теорвера

Это подробный гайд по математическому фундаменту, необходимому для понимания работы алгоритмов «под капотом». Материал полезен тем, кто хочет углубиться в теорию дальше вызова .fit() в scikit-learn.

Ключевые поинты:

* Структура: Roadmap базируется на трех дисциплинах:
1. Linear Algebra: Язык описания данных и моделей (векторы, матрицы, тензоры).
2. Calculus: Инструментарий для обучения и оптимизации (производные, градиенты).
3. Probability Theory: Фреймворк для оценки неопределенности.

Подход: Автор делает упор на интуицию, а не на заучивание формул.

Гайд связывает абстрактную математику с конкретными ML-задачами - от понимания того, как работает Backpropagation и SGD, до причин взрыва градиентов и выбора функции потерь.

🔗 Читать полную версию: https://thepalindrome.org/p/the-roadmap-of-mathematics-for-machine-learning
🔗 Мат база на русском: https://stepik.org/course/226596/info

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
15👍5🔥3
NeurIPS 2025: краткий разбор ключевых наград

Оргкомитет опубликовал победителей. Общий тренд — работы про масштабирование моделей, устойчивость обучения и фундаментальные теоретические результаты.

🏆 Special Awards

- Test of Time (2015): Faster R-CNN
- Ввели RPN, отказавшись от Selective Search.
- Сделали детекцию полностью end-to-end и задали стандарт индустрии на десятилетие.

- Sejnowski–Hinton Prize (2016): Feedback Alignment
- Показали, что backprop работает даже при случайных фиксированных обратных весах.
- Это решает «weight transport problem» и делает алгоритм ближе к биологически правдоподобным.

🌟 Best Papers (Main Track)

- Architecture: Gated Softmax Attention
- Решает нестабильность больших трансформеров и проблему attention sinks.
- Добавляет простое sigmoid-gating для отдельных heads.
- Даёт стабильность почти без оверхеда; уже используется в Qwen3-Next.

- RL: Scaling to 1024 Layers
- Self-Supervised RL сделал возможным обучение сети глубиной 1024 слоя.
- На задачах локомоции — до 50× улучшения относительно стандартных моделей.

- Theory: Diffusion Dynamics
- Выделены две фазы обучения диффузионных моделей: быстрая generalization и медленная memorization.
- Формализована implicit regularization, объясняющая поведение моделей.

- LLM: Artificial Hivemind
- Анализ того, как разные LLM начинают давать похожие ответы.
- Новый датасет Infinity-Chat для изучения этого эффекта и потери разнообразия.

- Theory: Online Learning Gap
- Доказан квадратичный разрыв в sample complexity между transductive и обычным online-обучением.
- Закрытие старой теоретической задачи.

🔗 Полный список: https://blog.neurips.cc/2025/11/26/announcing-the-neurips-2025-best-paper-awards/
8🔥3👍1
⚡️ VK открыл VK-LSVD — один из крупнейших датасетов для рекомендательных систем. Сейчас на его базе идет топовое соревнование по ML VK RecSys Challenge

🎯 Для чего подходит датасет
- Быстрый старт в рекомендательных алгоритмах
- Тест бэйзлайнов и гибридов «контент + поведение»
- Можно использовать для воспроизводимых тестов различных моделей

🔗 Подробнее + код: https://habr.com/ru/companies/vk/articles/970350/

В самом VK RecSys Challenge можно участвовать соло или командой до 4 человек, а подать заявку — до 15 декабря. Призовой фонд — 2 500 000 рублей.

@data_analysis_ml
6👍3🔥2🤣1
Новая научная работа от Apple -⚡️ серьёзный шаг к следующему поколению видеогенерации.

Команда представила STARFlow V
полностью каузальную видеомодель, которая по качеству конкурирует с диффузионными системами
и обучена как единая сквозная архитектура.

Основная идея
STARFlow V — первый нормализующий поток, который:
- показывает конкурентное качество длинных видео
- работает одинаково с текстом, изображениями и видео

Чем отличается от диффузии
Ранние видеогенераторы использовали многошаговую диффузию.
STARFlow V вместо этого применяет:
- один обратимый маппинг между шумом и видео
- без сотен итераций очистки
- без пошагового шума

Как устроена модель
Каждый кадр сжимается в скрытый компактный код.
Дальше работают два ключевых компонента:

- Глобальный блок
- отвечает за временную последовательность
- работает авторегресивно
- каждый латент зависит только от предыдущих
- уменьшает накопление ошибок на длинных роликах

- Локальные блоки
- отвечают за детализацию внутри кадра
- усиливают качество визуальных элементов

Трюки обучения
Модель обучают с дополнительными техниками:
- добавляется малый искусственный шум для устойчивости
- применяется каузальный денойзер flow score matching
- он убирает шум, заглядывая только на один кадр вперёд
- используются параллельные Jacobi блоковые обновления для ускорения

Результаты
STARFlow V демонстрирует:
- качество почти уровня диффузии
- более стабильные длинные видеоролики
- единую архитектуру для всех задач
- полностью каузальную генерацию

arxiv.org/abs/2511.20462
8👍3🔥2🤣1
🤖 Мир меняется быстрее, чем мы успеваем осознавать.

Китай начинает развёртывание гуманоидных роботов на границе с Вьетнамом.
Они будут помогать с навигацией путешественников, инспекциями, патрулированием, логистикой - и параллельно использоваться на промышленных объектах: металлургия, сталь, медь, алюминий.

Особое внимание на Walker S2.
Это первый гуманоид, который умеет автономно менять собственную батарею, фактически работая почти 24/7.
У него 52 степени свободы, ловкие руки, высокая грузоподъёмность, стереозрение и система UBTech BrainNet 2.0 / Co-Agent AI для автономного планирования задач.

UBTech уже получила заказы на 1.1 млрд юаней и планирует поставить 500 роботов в этом году, увеличить производство в 10 раз в следующем и выйти на 10 000 единиц в год к 2027.

Гуманоидные роботы - больше не прототипы.
Это новая часть инфраструктуры, которую начинают внедрять прямо сейчас.

https://interestingengineering.com/innovation/ubtech-secures-us37-million-deal
Please open Telegram to view this post
VIEW IN TELEGRAM
12🔥11👍2🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
Ноябрь — месяц One Day Offer в GigaChat и Kandinsky 📆

В ноябре команды двух топовых IT-продуктов Сбера планируют обрести новых классных коллег — DL Engineers и Researchers, чтобы вместе работать над GigaChat и Kandinsky: развивать, обучать и дообучать модели.

Смотрите расписание One Day Offer и не упустите шанс присоединиться к крупнейшему AI-комьюнити. Целых восемь мероприятий, чтобы изменить свою карьеру и жизнь — выбирайте то, что подходит под навыки и цели, и регистрируйтесь!
3🔥2👍1
🤖 Multi-Agent Evolve теперь полностью open-source 🚀

С его кодовой базой ты можешь взять любой LLM-чекпойнт и позволить ему саморазвиваться без внешнего надзора.
Это экспериментальная система, в которой агенты эволюционируют, создавая и оценивая собственные улучшения.

💻 Код:
https://github.com/ulab-uiuc/Multi-agent-evolve

🤗 Модели (Checkpoints):
https://huggingface.co/collections/ulab-ai/multi-agent-evolve

#AI #LLM #MultiAgent #OpenSource #EvolutionaryAI
🔥15👍2🥰2🤨1
🖥 NVIDIA тихо выкатили -Orchestrator-8B

На бенчмарке Humanity's Last Exam (HLE) маленькая 8-модель обходит GPT-5:
37.1% против 35.1%, при этом работает примерно в 2.5 раза эффективнее.

Что вообще происходит?

Orchestrator-8B - это не просто ещё одна модель. Это “роутер” над стеком инструментов.
Она решает, отвечать ли самой или вызвать поиск, код-модель, API или другой LLM.

Вместо парадигмы «один огромный LLM делает всё» —
маленький мозг, который умно и экономно распределяет задачи между инструментами.

Чтобы этому научить, NVIDIA сделали ToolScale — гигантский синтетический датасет с многошаговыми задачами, где агент:

- видит доступные инструменты, их цену и задержку
- выбирает последовательность вызовов
- получает трассу идеального решения
- оптимизируется под качество, скорость и деньги

По сути, каждый пример — это инструкция:
“вот запрос, вот инструменты, вот их цены, вот как решить задачу оптимально”.

Алгоритм Group Relative Policy Optimization обучает политика так, чтобы она балансировала:
- точность
- скорость
- стоимость
- предпочтения пользователя

На HLE, FRAMES и tau-squared Bench оркестратор (Qwen3-8B внутри) обходит:
- tool-augmented GPT-5
- Claude Opus 4.1
- Qwen3-235B-A22B

И делает меньше дорогих вызовов, лучше адаптируется к новым инструментам и ценам — и всё это в открытом доступе для ресёрча под лицензией NVIDIA.

Вывод: маленький интеллектуальный оркестратор поверх набора инструментов может выдавать фронтирный уровень агентных возможностей — но с точным контролем вычислений и бюджета.

ToolScale учит не “зови самый большой LLM”, а думай, сколько это будет стоить, и выбирай оптимальный путь.

Это именно тот сдвиг, который мы ждали в эру “AGI из инструментов”, а не из гигантских монолитных моделей.

huggingface.co/datasets/nvidia/ToolScale

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2214👍13❤‍🔥1
📚 У OpenAI снова юридические проблемы, и ситуация становится заметно серьезнее.

Суд обязал компанию передать внутренние переписки о том, зачем и почему были удалены два огромных датасета пиратских книг.

Если в этих сообщениях окажется, что сотрудники понимали незаконность данных и пытались quietly erase их, авторам будет проще доказать умышленное нарушение авторских прав. А это значит гораздо более высокие штрафы за каждую книгу.

Что известно сейчас:

- Авторы утверждают, что модели OpenAI обучались на больших наборах пиратских книг.
- Истцы уже получили Slack-переписки сотрудников по датасетам books1 и books2.
- Судья потребовала раскрыть документы, объясняющие мотивы удаления этих датасетов.
- Внутренние юристы OpenAI будут допрошены.
- Если окажется, что компания меняла объяснение причин удаления, это усиливает позицию истцов.

Почему это поворотный момент:

Суд указал, что OpenAI сначала объясняла удаление тем, что данные не использовались, а позже пыталась закрыть переписки под юрпривилегией. Такое изменение позиции суд расценил как отказ от привилегии. Поэтому теперь Slack-каналы project clear и excise libgen могут быть раскрыты.

Этот кейс создаёт значимый сигнал для всей AI-индустрии:
то, как компании обсуждают скрапинг, теневые библиотеки и чистку данных внутри Slack или других рабочих инструментов, может напрямую влиять на то, попадут ли они под обычные штрафы или под огромную финансовую ответственность.

hollywoodreporter.com/business/business-news/openai-loses-key-discovery-battle-why-deleted-library-of-pirated-books-1236436363/
11🤣6👍4🔥3🤔3
🧮 Интересная и подробная статья о том, почему TPU становятся ключевым фактором в удешевлении инференса.

- TPUs дают примерно в 4 раза лучшую стоимость за производительность по сравнению с Nvidia GPU в задачах инференса
- Инференс за время жизни модели стоит в 15 раз дороже, чем её обучение
- К 2030 году инференс будет потреблять около 75 процентов всего AI compute (рынок на 255 млрд долларов)

Основная мысль проста: инференс полностью доминирует итоговую стоимость эксплуатации модели. Обучение модели уровня GPT-4 стоит примерно 150 миллионов долларов, но поддержание инференса - около 2.3 миллиарда долларов в год.

Nvidia H100 отлично подходит для гибкого обучения, но их универсальная архитектура добавляет лишнюю логику управления и движение данных, что увеличивает энергопотребление при простых forward-pass операциях — поэтому длительный инференс обходится дорого.

Google TPU - специализированные чипы для tensor math, построенные на систолических массивах и агрессивной инженерии энергопотребления. В итоге они потребляют примерно на 60-65 процентов меньше энергии и дают около четырёхкратного выигрыша по стоимости инференса трансформеров по сравнению с H100.

Практика это подтверждает:
Midjourney снизил затраты на инференс примерно на 65 процентов после перехода на TPU.
Anthropic закупает до миллиона TPU.
Meta, Salesforce, Cohere и многие другие также переводят всё больше трафика на TPU-поды, поскольку инференс стремительно растёт и к 2030 году станет около 75 процентов всех вычислений в AI.

ainewshub.org/post/ai-inference-costs-tpu-vs-gpu-2025
14🔥7👍5
llama.cpp (PR #16095) теперь поддерживает Qwen3-Next - новую гибридную архитектуру от Qwen.

Теперь Qwen3-Next можно запускать локально с эффективным CPU/GPU-инференсом. 🚀

https://github.com/ggml-org/llama.cpp/pull/16095
👍12🔥96
Бизнесу данные нужны как воздух

На их основе компании принимают важные стратегические решения. Поэтому спрос на аналитиков растёт в самых разных сферах: от банковской до медицинской.

На курсе «Аналитика данных с МФТИ» готовят специалистов универсальной квалификации. За 10 месяцев вы научитесь использовать Python для анализа данных, применять методы ИИ в своих задачах и работать с базами данных.

С универсальными знаниями вы сможете строить карьеру в одном из трёх направлений аналитики:

☑️ Аналитика данных.
☑️ Data Science.
☑️ Инженерия данных.

После обучения получите дипломы о профессиональной переподготовке от МФТИ и Нетологии. Центр развития карьеры поможет с трудоустройством, резюме и портфолио.

Записывайтесь на курс и становитесь универсальным специалистом в аналитике → https://netolo.gy/eurg

Реклама. ООО “Нетология” ОГРН 1207700135884 Erid:2VSb5yCracR
5😁3👍1🔥1
🐋 DeepSeek выкатили не «ещё одну модель», а полноценную топ-систему уровня IMO/IOI/ICPC - при этом обучение и генерация стоят в десятки раз дешевле, чем у GPT-5 и Gemini 3 Pro.

Главное:
• DeepSeek-V3.2-Speciale обгоняет Gemini 3.0 Pro в математике и коде
• Новая флагманская модель совмещает рассуждения + агентность
• Архитектура MoE из семейства V3.1 Terminus, контекст 128k
• Главное нововведение — DeepSeek Sparse Attention (DSA), сделанный ради дешёвого длинного контекста

Что делает DSA
Обычное внимание - O(T²), что больно при 128k токенов.
DSA снижает стоимость до O(T·U), где U - только небольшое число релевантных токенов.

Как работает:
1) Lightning Indexer - лёгкая сеть оценивает важность каждого прошлого токена
2) Fine-grained top-k - модель выбирает только самые полезные токены и считает внимание по ним

Как обучали
Начали с чекпоинта V3.1 (128k) и сделали 2-ступенчатое дообучение:
• Stage 1 - плотное внимание, замороженная модель, обучается только DSA
• Stage 2 - постепенный переход на DSA по всей модели

Итог: длинный контекст стал реально дешёвым, а качество выше, чем у предыдущих версий и конкурентов.

Tech report: https://huggingface.co/deepseek-ai/DeepSeek-V3.2/resolve/main/assets/paper.pdf
14👍9🔥7😁1