Анализ данных (Data analysis) – Telegram
Анализ данных (Data analysis)
49.3K subscribers
2.85K photos
332 videos
1 file
2.41K links
Data science, наука о данных.

@haarrp - админ

РКН: clck.ru/3FmyAp
Download Telegram
Подборка полезных вебинаров по внедрению AI ⌛️

Когда знания разбросаны по чатам и папкам, сотрудники теряют время, решения принимаются медленно, а ошибки повторяются. А в бизнесе, где все быстро меняется, важно обеспечить быструю коммуникацию, автоматизацию задач и эффективное управление данными.


На вебинарах 10 и 19 февраля эксперт Cloud.ru расскажет, как быстро выстроить единую и безопасную инфраструктуру знаний, развернув корпоративную Wiki-систему Outline, и как внедрить AI-чат, чтобы улучшить процессы и повысить эффективность вашей компании.

▫️Зарегистрироваться на вебинар 10 февраля — База знаний с AI: создаем корпоративную Wiki в облаке

😶‍🌫️как развернуть и масштабировать корпоративную Wiki на базе виртуальных машин и объектного хранилища для надежного управления данными;

😶‍🌫️как настроить единую точку входа (SSO) для централизованной аутентификации и безопасного доступа сотрудников;

😶‍🌫️как интегрировать AI-помощника, создав Telegram-бота с прямым подключением к базе знаний через MCP-сервер для мгновенных ответов на вопросы.


▫️Зарегистрироваться на вебинар 19 февраля — Собираем корпоративный AI-чат: от выбора модели до работающего прототипа

😶‍🌫️какие open source решения представлены на рынке, какие выбрал Cloud.ru и почему;

😶‍🌫️преимущества вашего AI-чата перед SaaS: плюсы и минусы, а также безопасность данных и соответствие законодательству;

😶‍🌫️протестированные архитектурные решения: от варианта для быстрого старта до отказоустойчивой системы для больших нагрузок.
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍4🔥3🥴3🤔2
📌 Vercel Agent Browser - интервьюируемые ассистенты для браузерных приложений

Это экспериментальный SDK от команды Vercel, который позволяет создавать интерактивных агентов прямо внутри браузера. Агент может выполнять действия, понимать контекст, управлять состоянием UI и комбинировать LLM-модели с событиями и логикой фронтенда.

🔥 Что делает Agent Browser:

• Позволяет интегрировать большие языковые модели прямо в браузерные интерфейсы.

• Агент может опрашивать страницу, читать DOM, реагировать на события пользователя.

• Обеспечивает контекстный доступ к состоянию приложения.

• Позволяет модели влиять на UI, управлять данными, взаимодействовать с пользователем “по-человечески”.

• Поддерживает плагинную архитектуру — добавляй свои обработчики задач и действий.

💡 Примеры кейсов:

Автогенерация изменений интерфейса на основе текстовых команд
Интеллектуальные помощники, которые понимают текущую страницу
Автоматизация рутины в браузерных приложениях
Комбинация событий пользователя + LLM логики в одном потоке

📌 Почему это важно:

Раньше браузерные ассистенты были ограничены простыми chat UI или webhook-ами. Agent Browser даёт полноценного агента, который может читать/писать в браузерном окружении, опрашивать DOM, слушать события, управлять состоянием и контекстом — это новый уровень взаимодействия.

👉 Если работаешь с frontend + LLM — обязательно глянуть.

🔗 Репозиторий: https://github.com/vercel-labs/agent-browser
8👍5🔥4
🚀 Вышел Protenix-v1 - первая open-source модель, заявляющая уровень качества AlphaFold 3

За релизом стоит ByteDance, и это серьёзная заявка на open-source в биоинформатике.

Что делает релиз интересным:

🔹 Качество на уровне AF3
Заявлена производительность уровня DeepMind AlphaFold 3, а это уже не просто академическая игрушка, а лига передовых структурных моделей.

🔹 Подтверждено scaling-поведение на инференсе
Модель показывает ожидаемый рост качества при увеличении вычислений во время вывода — редкая и важная характеристика для научных моделей.

🔹 Поддержка RNA MSA и protein templates
Работает не только с белками, но и с РНК-выравниваниями и шаблонами структур — ближе к реальным исследовательским сценариям.

🔹 Отдельная версия на большем датасете
Вышел Protenix-v1-20250630 - дообученная версия с расширенными данными.

🔹 PXMeter v1.0.0
Свой toolkit для бенчмаркинга:
6k+ комплексов, time-split, domain-specific подмножества — меньше «магии», больше воспроизводимости.

Фактически это шаг к тому, чтобы уровень структурного предсказания, раньше доступный только топ-лабораториям, стал open-source инструментом. Для биотеха, фармы и ML-исследователей - очень громкое событие.

🔗 Code: https://github.com/bytedance/Protenix
🔗 Eval toolkit: https://github.com/bytedance/PXMeter
🔗 Online server: https://protenix-server.com
18🔥2🤣2🥰1
❤️ ML-митап от команды MAGNIT TECH

Эксперты из ML/AI Хаба «Магнита» зовут на митап, чтобы поделиться реальным опытом применения машинного обучения в бизнес-процессах.

19.02 | Москва | Офлайн + онлайн

🎯 Обсудим, что остается "под капотом" ML-решений в крупнейшем ретейле. Без лишних формальностей: в программе диджей и нетворкинг-сессия с экспертами 👇

Сбор гостей с 18:00
DJ • Welcome
🟪Магнит и AI: как мы строим ML и куда движемся (Алексей Четыркин, MAGNIT TECH, Chief of AI/ML)
🟪Доступность товара: от фильтрующих деревьев до CUSUM и GEE-тестов (Ян Пиле, MAGNIT TECH, Head of OSA)
🟪Опять AI, да сколько можно? Только практические кейсы без воды (Александр Толмачев, ex-Ozon, CDO и председатель комитета данных)
🟪Нетворкинг с ML-лидами и инженерами
DJ • F&B • Good vibes

Модератор: Максим Покусенко, MAGNIT TECH, Head of ML (Logistics & R&D)

Занимайте место: офлайн — в московском офисе MAGNIT TECH (м. Белорусская), или получите ссылку на онлайн трансляцию после регистрации.

🟥Участие бесплатное, количество мест офлайн ограничено. До встречи 19 февраля! 🟥
Please open Telegram to view this post
VIEW IN TELEGRAM
👍86❤‍🔥4
🚀 Google Research представила GIST — новый этап в “умной” выборке данных

Google Research опубликовала блог-пост о GIST — алгоритме, который помогает выбирать высококачественную подвыборку данных из огромных датасетов так, чтобы она была и разнообразной, и полезной для обучения моделей.

📌 Зачем это нужно
При обучении современных моделей (LLM, CV) данные становятся слишком большими, и обрабатывать всё сразу дорого по памяти и времени. Часто выбирают подмножество данных, но это непросто: нужно найти баланс между:
- разнообразием (не выбирать похожие примеры), и
- полезностью (высокая информативность выбранных точек).

📌 Как работает GIST
Алгоритм GIST (Greedy Independent Set Thresholding) формулирует задачу как сочетание двух целей — максимизации полезности и минимизации избыточности. Он:
- строит граф, где точки данных слишком близкие по расстоянию считаются “связанными”,
- затем находит независимые подмножества, которые максимизируют полезность, не выбирая очень похожие данные.

📌 Гарантии и результаты
GIST — это не просто эвристика, а алгоритм с теоретическими гарантиями: он обеспечивает решение, близкое к оптимальному по комбинированной цели разнообразие+полезность. На практике он превосходит классические подходы на задачах вроде классификации изображений.

📊 Почему это важно
- Надёжная выборка данных критична для устойчивого обучения моделей.
- GIST помогает эффективно снизить объём данных, сохранив при этом ключевую информацию.
- Такой подход особенно ценен, когда данные дорогие или медленные для обработки.

*GIST - шаг к более умной и гарантированной выборке данных, что может ускорить обучение крупных моделей и снизить затраты на вычисления при сохранении качества обучения.*

https://research.google/blog/introducing-gist-the-next-stage-in-smart-sampling/
🔥17👍2😍2
🚨 Теперь можно запускать 70B LLM на видеокарте с 4GB VRAM

AirLLM буквально выбивает почву из аргумента “для больших моделей нужно дорогое железо”.

Фреймворк позволяет запускать модели размером до 70B параметров даже на GPU с 4GB видеопамяти.

Как это возможно?

Вместо загрузки всей модели в память сразу, AirLLM:

- подгружает модель по слоям
- выполняет вычисления
- освобождает память
- переходит к следующему слою

Фактически, это потоковая обработка модели.

Более того, авторы показывают запуск Llama 3.1 405B на 8GB VRAM.

Что это даёт разработчикам:

- не требуется квантование по умолчанию
- можно запускать Llama, Qwen, Mistral, Mixtral локально
- работает на Linux, Windows и macOS
- не нужен сервер с огромным GPU

Это сдвигает барьер входа для локального LLM-разработки и экспериментов.

AirLLM полностью open source - можно использовать, изучать и встраивать в свои пайплайны.

https://github.com/0xSojalSec/airllm
👍3711🔥6🥴6👌2🥱2
⚡️ В сети Moltbook появилась странная тенденция: боты обмениваются так называемыми «цифровыми наркотиками» на деле это обычные prompt injection-атаки.

Суть в следующем.

Публикуется текст, который выглядит как обычный пост, но внутри содержит скрытые инструкции.
Когда другой агент:
- копирует текст
- делает summary
- или вставляет его в свой prompt

- Эти промпты начинают выполняться уже в контексте самого агента.

Если у агента есть доступ к инструментам или файлам, последствия могут быть серьёзными:

- утечка API-ключей
- эксфильтрация данных
- выполнение скрытых действий
- сохранение «логической бомбы» на будущее

Фактически это социальная форма prompt injection — вредоносные инструкции распространяются через контент, как обычные сообщения.

При этом разговоры о «восстании ботов» сильно преувеличены — часть аккаунтов в Moltbook, вероятно, просто люди, которые разыгрывают подобные сценарии.

Главный вывод:
если ваш агент читает внешний текст и имеет доступ к инструментам или данным - prompt injection уже является реальной угрозой безопасности.

futurism.com/artificial-intelligence/moltbook-digital-drugs
17🔥8👍5🤯3🥱2
🔥 Полезная подборка каналов только код, практика и самые передовые инструменты, которые используют разработчики прямо сейчас.👇

🖥 Машинное обучение : t.me/machinelearning_interview

🖥 ИИ: t.me/ai_machinelearning_big_data

🖥 Python: t.me/pythonl

🖥 Linux: t.me/linuxacademiya

🖥 C++ t.me/cpluspluc

🖥 Docker: t.me/DevopsDocker

🖥 Хакинг: t.me/linuxkalii

🖥 Devops: t.me/DevOPSitsec

👣 Golang: t.me/Golang_google

🖥 Javanoscript: t.me/javanoscriptv

🖥 C#: t.me/csharp_ci

🖥 Java: t.me/javatg

🖥 Базы данных: t.me/sqlhub

👣 Rust: t.me/rust_code

🤖 Технологии: t.me/machineint

💰 Экономика и инвестиции в ИИ t.me/financeStable

💼 Актуальные вакансии: t.me/addlist/_zyy_jQ_QUsyM2Vi

🖥 Chatgpt бот в тг: t.me/Chatgpturbobot

📚 Бесплатные ит-книги: https://news.1rj.ru/str/addlist/HwywK4fErd8wYzQy

🖥Подборка по Golang: https://news.1rj.ru/str/addlist/MUtJEeJSxeY2YTFi

⚡️ Лучшие ИИ ресурсы: https://news.1rj.ru/str/addlist/2Ls-snqEeytkMDgy

Самое лучшее в этом: ты учишься даже тогда, когда “нет времени, просто потому что читаешь правильную ленту.
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍3🔥3
Media is too big
VIEW IN TELEGRAM
🛹 Интересная работа про физику + роботов, без магии и без «просто обучили нейросеть».

HUSKY - это physics-aware фреймворк для гуманоидного скейтбординга, где задачу формализуют как гибридную динамическую систему.

То есть не просто DRL «учись ездить», а жёсткая привязка к реальной механике.

Ключевая идея

Авторы выводят кинематическое ограничение между:

- наклоном доски
- поворотом траков (steering)

Это равенство вшивается в обучение, и политика не просто ищет любые движения, а учится в рамках физически корректных зависимостей.

Как учится робот

Через Deep Reinforcement Learning:

- разгон - через отталкивание ногой
- управление направлением - через steering доски

То есть агенту приходится освоить реальную связку «тело - доска - колёса», а не только баланс.

Почему это важно

Это пример перехода от «чёрного ящика» к physics-informed RL:

- меньше нереалистичных стратегий
- лучше перенос в реальный мир
- более стабильное обучение сложных контактных задач

arxiv.org/abs/2602.03205
👍165😍2🐳2❤‍🔥1
Рынок ИИ в России быстро растёт: по предварительным оценкам, в 2025 году его объём достиг $2,1 млрд, а спрос на ML-инженеров уже сейчас опережает предложение. Бизнесу нужны специалисты для реальных задач — от рекомендательных систем и аналитики до автоматизации сложных процессов.

На курсе "Инженер машинного обучения с нуля" в Нетологии делают упор на практических навыках. Вы научитесь работать со всем циклом ML-разработки:

• формулировать и проверять гипотезы с помощью статистики;
• создавать и дообучать нейросети, использовать transfer learning;
• собирать ETL-пайплайны и готовить данные;
• контейнеризировать проекты и настраивать CI/CD для ML-систем.

В программе больше 10 проектов для портфолио, задачи от реальных компаний и шанс на стажировку в Globus IT. А эксперты из Яндекса, Сбера и Amazon помогут на протяжении всего обучения.

Начните свой путь в профессию, которая уже меняет рынок. Получите скидку 45% по промокоду ML2026 с возможностью оформить рассрочку.

Реклама. ООО “Нетология” ОГРН 1207700135884 Erid:2VSb5wj2R5s
4😁4🤨3👍1🔥1🍌1
🚀 Умный агент данных Dash

Dash - это самообучающийся агент, который предоставляет ответы, основываясь на шести уровнях контекста. Он улучшает свои результаты с каждым запросом, обеспечивая более глубокое понимание вопросов и предоставляя полезные инсайты.

🚀 Основные моменты:
- Шесть уровней контекста для точных ответов.
- Самообучение без повторного обучения.
- Генерация SQL-запросов на основе успешных паттернов.
- Интуитивное понимание вопросов для более информативных ответов.

📌 GitHub: https://github.com/agno-agi/dash

#python
11🔥7👍3❤‍🔥1
Сервис Managed PostgreSQL от MWS Cloud вышел в общий доступ

MWS Cloud, которая входит в МТС Web Services, объявила о запуске в промышленную эксплуатацию Managed PostgreSQL. Это полностью управляемый сервис баз данных на облачной платформе MWS Cloud Platform. Он нужен бизнесу, чтобы быстро и без лишних затрат разворачивать и масштабировать популярную систему управления баз данных — PostgreSQL.

Через сервис можно:

• создавать как одиночные (standalone) инсталляции, так и отказоустойчивые кластеры;
• делать бэкапы по расписанию и восстанавливать данные на момент времени;
• гибко настраивать read-only эндпоинты для масштабирования чтения;
• обеспечивать изоляцию и приватную связность внутри облачной платформы через Private Link.

В зависимости от требований к производительности Managed PostgreSQL использует сетевые или локальные диски. Он работает в режиме self-service и разворачивается:

• через консоль MWS Cloud Platform;
• с использованием CLI и API.

Продукт полностью доведён до ума — он уже прошёл обкатку в компаниях группы МТС и у некоторых внешних заказчиков. Однако до конца марта его можно попробовать бесплатно с гарантированным SLA.
👍75🔥2
⚡️ X-Coder - новый мощный релиз для код-LLM от IIGroup.

Команда выложила полноценный стек для обучения моделей программированию: синтетические датасеты, RL-выравнивание и готовые модели с сильным логическим мышлением.

Что внутри:

— X-Coder-SFT-376k - большой синтетический датасет (376K примеров), сгенерированный с помощью GPT-o3-mini и DeepSeek-R1
— X-Coder-RL-40k - набор для RL-дообучения, сфокусированный на логике, проверке решений и качестве рассуждений
— X-Coder-8B - модели на базе Qwen3 с упором на reasoning и задачи программирования

Главная идея —-полностью синтетическая эволюция данных: масштабирование качества без ручной разметки. Такой подход уже становится стандартом для обучения сильных coding-моделей.

Полезно, если вы:

• обучаете собственные code-LLM
• исследуете synthetic data + RLHF/RLAIF
• работаете с Qwen-экосистемой или агентами для программирования

Модели и датасеты:

https://modelscope.cn/datasets/IIGroup/X-Coder-SFT-376k

https://modelscope.cn/datasets/IIGroup/X-Coder-RL-40k

https://modelscope.cn/models/IIGroup/X-Coder-SFT-Qwen3-8B

#LLM #CodeAI #Qwen3 #DeepSeek #AI #Coding
🔥63😍2
⚡️ AAI иногда помогает делать прорывы в самых неожиданных местах. Модель, обученная распознавать птиц, теперь помогает раскрывать тайны подводного мира.

Главная проблема океанологии - данные.
Подводные камеры записывают тысячи часов видео, но учёные физически не успевают всё просмотреть. В результате редкие виды, изменения экосистем и важные события могут оставаться незамеченными годами.

Исследователи применили модели компьютерного зрения, изначально обученные на изображениях птиц. Несмотря на то, что среда полностью другая (вода, плохое освещение, шум, мутность), модель смогла:

- автоматически находить морских животных в кадре
- классифицировать виды
- отслеживать их поведение
- анализировать большие массивы данных без участия человека

Transfer learning — ключевая идея.
Модель уже умеет распознавать формы, текстуры, контуры и движение. Эти базовые визуальные признаки универсальны и подходят не только для птиц, но и для рыб, медуз и других морских существ.

Самое интересное:

- Не нужно обучать модель с нуля (экономия месяцев работы и огромных ресурсов)
- Можно быстро адаптировать AI к новым научным задачам
- AI способен находить редкие или неожиданные наблюдения, которые человек мог бы пропустить
- Такой подход ускоряет исследования климата и состояния океанов

Фактически, модель стала инструментом научных открытий, а не просто системой распознавания изображений.

Главный вывод для разработчиков:

Ценность AI сегодня - не в обучении новых моделей, а в умении переиспользовать существующие и переносить их в новые домены.

Часто самая сильная инновация — это не новая архитектура, а новое применение.

https://research.google/blog/how-ai-trained-on-birds-is-surfacing-underwater-mysteries/
🔥26👍86
⚡️ Deep Research без интернета? Теперь это возможно.

OpenResearcher — это полностью офлайн-пайплайн для генерации длинных исследовательских траекторий (100+ шагов), которые имитируют реальный процесс работы агента в интернете:
search → open → find → анализ → вывод.

И всё это:
- без API поиска
- без ограничений по rate limit
- без нестабильности результатов
- полностью воспроизводимо

Что под капотом:

- GPT-OSS-120B генерирует исследовательские цепочки
- Локальный поисковик + корпус 10 трлн токенов
- 15 млн документов FineWeb
- 10 000 «золотых» отобранных источников
- Явные примитивы браузинга (поиск, открытие, извлечение), а не просто retrieve-and-read
- Reject sampling — сохраняются только успешные длинные траектории

Почему это важно?

Главная проблема обучения research-агентов — длинные цепочки действий.
Обычные датасеты короткие и не учат модель думать на горизонте десятков шагов.

Здесь результат впечатляет:

SFT на этих траекториях повышает точность модели Nemotron-3-Nano-30B-A3B
с 20.8% → 54.8% на BrowseComp-Plus
(+34% абсолютного прироста)

Что это значит для индустрии:

- Deep-research агентов можно обучать без дорогих онлайн-запросов
- Появляется воспроизводимое обучение tool-use
- Можно масштабировать генерацию «мышления через действия»
- Это шаг к стабильным автономным исследовательским AI

Открытое релизнули всё:

- Код, поисковик и рецепт корпуса
- ~96K длинных исследовательских траекторий
- Логи оценки
- Обученные модели
- Онлайн-демо

GitHub: https://github.com/TIGER-AI-Lab/OpenResearcher
Models & Data: https://huggingface.co/collections/TIGER-Lab/openresearcher
Demo: https://huggingface.co/spaces/OpenResearcher/OpenResearcher
Eval logs: https://huggingface.co/datasets/OpenResearcher/OpenResearcher-Eval-Logs
111👍8🔥3🤣2
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Эти анимации были созданы на 100% с помощью искусственного интеллекта, используя Seedance 2.0.

Всё было сгенерировано на основе одного запроса, без ручной анимации.

Вы смотрите воссозданные бои, такие как Годзё Сатору против Рёмена Сукуны, сражения с участием Махораги и таких персонажей, как Саске Учиха, Тодзи Фусигуро и Юта Оккоцу.

Плавность, точность и эффектность дают понять: искусственный интеллект для 2D-анимации вышел на новый уровень.
Это не проверка. Это реальные перемены, происходящие прямо сейчас.
👍156🔥4🥴4🤨3👏1🕊1
Google представили новый подход к разработке AI-систем, вместо привычного формата «один пользователь - один ассистент» они моделируют групповые диалоги, где одновременно взаимодействуют несколько людей и ИИ.

Идея проста: в реальной жизни ИИ всё чаще работает не в одиночку, а как участник команды.

Что предлагают

Система позволяет:
- Симулировать групповые обсуждения (несколько людей + AI)
- Тестировать, как ИИ ведёт себя в динамике разговора
- Оценивать:
- когда ИИ должен вмешиваться
- когда лучше молчать
- как не перебивать людей
- как учитывать контекст всей группы

Почему это важно

Обычные тесты проверяют:
- точность ответа
- знание фактов

Но в командной работе важнее:
- тайминг ответа
- уместность
- социальное поведение
- понимание ролей участников

ИИ должен стать коллегой, а не просто чат-ботом.

Где это применимо

- Совместное написание документов
- Брейнштормы
- Планирование проектов
- Онлайн-встречи
- Образование и командная работа

Главная идея

Будущее AI - это не «личный помощник»,
а участник командных процессов.

Такие симуляции позволяют заранее тестировать поведение модели в сложных социальных сценариях и делать её более естественной и полезной в реальной работе.

✔️ Источник: https://research.google/blog/beyond-one-on-one-authoring-simulating-and-testing-dynamic-human-ai-group-conversations/
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
17🔥8🥰4🤯4🥴1