Анализ данных (Data analysis) – Telegram
Анализ данных (Data analysis)
49.3K subscribers
2.85K photos
332 videos
1 file
2.41K links
Data science, наука о данных.

@haarrp - админ

РКН: clck.ru/3FmyAp
Download Telegram
⚡️ В сети Moltbook появилась странная тенденция: боты обмениваются так называемыми «цифровыми наркотиками» на деле это обычные prompt injection-атаки.

Суть в следующем.

Публикуется текст, который выглядит как обычный пост, но внутри содержит скрытые инструкции.
Когда другой агент:
- копирует текст
- делает summary
- или вставляет его в свой prompt

- Эти промпты начинают выполняться уже в контексте самого агента.

Если у агента есть доступ к инструментам или файлам, последствия могут быть серьёзными:

- утечка API-ключей
- эксфильтрация данных
- выполнение скрытых действий
- сохранение «логической бомбы» на будущее

Фактически это социальная форма prompt injection — вредоносные инструкции распространяются через контент, как обычные сообщения.

При этом разговоры о «восстании ботов» сильно преувеличены — часть аккаунтов в Moltbook, вероятно, просто люди, которые разыгрывают подобные сценарии.

Главный вывод:
если ваш агент читает внешний текст и имеет доступ к инструментам или данным - prompt injection уже является реальной угрозой безопасности.

futurism.com/artificial-intelligence/moltbook-digital-drugs
17🔥8👍5🤯3🥱2
🔥 Полезная подборка каналов только код, практика и самые передовые инструменты, которые используют разработчики прямо сейчас.👇

🖥 Машинное обучение : t.me/machinelearning_interview

🖥 ИИ: t.me/ai_machinelearning_big_data

🖥 Python: t.me/pythonl

🖥 Linux: t.me/linuxacademiya

🖥 C++ t.me/cpluspluc

🖥 Docker: t.me/DevopsDocker

🖥 Хакинг: t.me/linuxkalii

🖥 Devops: t.me/DevOPSitsec

👣 Golang: t.me/Golang_google

🖥 Javanoscript: t.me/javanoscriptv

🖥 C#: t.me/csharp_ci

🖥 Java: t.me/javatg

🖥 Базы данных: t.me/sqlhub

👣 Rust: t.me/rust_code

🤖 Технологии: t.me/machineint

💰 Экономика и инвестиции в ИИ t.me/financeStable

💼 Актуальные вакансии: t.me/addlist/_zyy_jQ_QUsyM2Vi

🖥 Chatgpt бот в тг: t.me/Chatgpturbobot

📚 Бесплатные ит-книги: https://news.1rj.ru/str/addlist/HwywK4fErd8wYzQy

🖥Подборка по Golang: https://news.1rj.ru/str/addlist/MUtJEeJSxeY2YTFi

⚡️ Лучшие ИИ ресурсы: https://news.1rj.ru/str/addlist/2Ls-snqEeytkMDgy

Самое лучшее в этом: ты учишься даже тогда, когда “нет времени, просто потому что читаешь правильную ленту.
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍3🔥3
Media is too big
VIEW IN TELEGRAM
🛹 Интересная работа про физику + роботов, без магии и без «просто обучили нейросеть».

HUSKY - это physics-aware фреймворк для гуманоидного скейтбординга, где задачу формализуют как гибридную динамическую систему.

То есть не просто DRL «учись ездить», а жёсткая привязка к реальной механике.

Ключевая идея

Авторы выводят кинематическое ограничение между:

- наклоном доски
- поворотом траков (steering)

Это равенство вшивается в обучение, и политика не просто ищет любые движения, а учится в рамках физически корректных зависимостей.

Как учится робот

Через Deep Reinforcement Learning:

- разгон - через отталкивание ногой
- управление направлением - через steering доски

То есть агенту приходится освоить реальную связку «тело - доска - колёса», а не только баланс.

Почему это важно

Это пример перехода от «чёрного ящика» к physics-informed RL:

- меньше нереалистичных стратегий
- лучше перенос в реальный мир
- более стабильное обучение сложных контактных задач

arxiv.org/abs/2602.03205
👍165😍2🐳2❤‍🔥1
Рынок ИИ в России быстро растёт: по предварительным оценкам, в 2025 году его объём достиг $2,1 млрд, а спрос на ML-инженеров уже сейчас опережает предложение. Бизнесу нужны специалисты для реальных задач — от рекомендательных систем и аналитики до автоматизации сложных процессов.

На курсе "Инженер машинного обучения с нуля" в Нетологии делают упор на практических навыках. Вы научитесь работать со всем циклом ML-разработки:

• формулировать и проверять гипотезы с помощью статистики;
• создавать и дообучать нейросети, использовать transfer learning;
• собирать ETL-пайплайны и готовить данные;
• контейнеризировать проекты и настраивать CI/CD для ML-систем.

В программе больше 10 проектов для портфолио, задачи от реальных компаний и шанс на стажировку в Globus IT. А эксперты из Яндекса, Сбера и Amazon помогут на протяжении всего обучения.

Начните свой путь в профессию, которая уже меняет рынок. Получите скидку 45% по промокоду ML2026 с возможностью оформить рассрочку.

Реклама. ООО “Нетология” ОГРН 1207700135884 Erid:2VSb5wj2R5s
4😁4🤨3👍1🔥1🍌1
🚀 Умный агент данных Dash

Dash - это самообучающийся агент, который предоставляет ответы, основываясь на шести уровнях контекста. Он улучшает свои результаты с каждым запросом, обеспечивая более глубокое понимание вопросов и предоставляя полезные инсайты.

🚀 Основные моменты:
- Шесть уровней контекста для точных ответов.
- Самообучение без повторного обучения.
- Генерация SQL-запросов на основе успешных паттернов.
- Интуитивное понимание вопросов для более информативных ответов.

📌 GitHub: https://github.com/agno-agi/dash

#python
11🔥7👍3❤‍🔥1
Сервис Managed PostgreSQL от MWS Cloud вышел в общий доступ

MWS Cloud, которая входит в МТС Web Services, объявила о запуске в промышленную эксплуатацию Managed PostgreSQL. Это полностью управляемый сервис баз данных на облачной платформе MWS Cloud Platform. Он нужен бизнесу, чтобы быстро и без лишних затрат разворачивать и масштабировать популярную систему управления баз данных — PostgreSQL.

Через сервис можно:

• создавать как одиночные (standalone) инсталляции, так и отказоустойчивые кластеры;
• делать бэкапы по расписанию и восстанавливать данные на момент времени;
• гибко настраивать read-only эндпоинты для масштабирования чтения;
• обеспечивать изоляцию и приватную связность внутри облачной платформы через Private Link.

В зависимости от требований к производительности Managed PostgreSQL использует сетевые или локальные диски. Он работает в режиме self-service и разворачивается:

• через консоль MWS Cloud Platform;
• с использованием CLI и API.

Продукт полностью доведён до ума — он уже прошёл обкатку в компаниях группы МТС и у некоторых внешних заказчиков. Однако до конца марта его можно попробовать бесплатно с гарантированным SLA.
👍75🔥2
⚡️ X-Coder - новый мощный релиз для код-LLM от IIGroup.

Команда выложила полноценный стек для обучения моделей программированию: синтетические датасеты, RL-выравнивание и готовые модели с сильным логическим мышлением.

Что внутри:

— X-Coder-SFT-376k - большой синтетический датасет (376K примеров), сгенерированный с помощью GPT-o3-mini и DeepSeek-R1
— X-Coder-RL-40k - набор для RL-дообучения, сфокусированный на логике, проверке решений и качестве рассуждений
— X-Coder-8B - модели на базе Qwen3 с упором на reasoning и задачи программирования

Главная идея —-полностью синтетическая эволюция данных: масштабирование качества без ручной разметки. Такой подход уже становится стандартом для обучения сильных coding-моделей.

Полезно, если вы:

• обучаете собственные code-LLM
• исследуете synthetic data + RLHF/RLAIF
• работаете с Qwen-экосистемой или агентами для программирования

Модели и датасеты:

https://modelscope.cn/datasets/IIGroup/X-Coder-SFT-376k

https://modelscope.cn/datasets/IIGroup/X-Coder-RL-40k

https://modelscope.cn/models/IIGroup/X-Coder-SFT-Qwen3-8B

#LLM #CodeAI #Qwen3 #DeepSeek #AI #Coding
🔥63😍2
⚡️ AAI иногда помогает делать прорывы в самых неожиданных местах. Модель, обученная распознавать птиц, теперь помогает раскрывать тайны подводного мира.

Главная проблема океанологии - данные.
Подводные камеры записывают тысячи часов видео, но учёные физически не успевают всё просмотреть. В результате редкие виды, изменения экосистем и важные события могут оставаться незамеченными годами.

Исследователи применили модели компьютерного зрения, изначально обученные на изображениях птиц. Несмотря на то, что среда полностью другая (вода, плохое освещение, шум, мутность), модель смогла:

- автоматически находить морских животных в кадре
- классифицировать виды
- отслеживать их поведение
- анализировать большие массивы данных без участия человека

Transfer learning — ключевая идея.
Модель уже умеет распознавать формы, текстуры, контуры и движение. Эти базовые визуальные признаки универсальны и подходят не только для птиц, но и для рыб, медуз и других морских существ.

Самое интересное:

- Не нужно обучать модель с нуля (экономия месяцев работы и огромных ресурсов)
- Можно быстро адаптировать AI к новым научным задачам
- AI способен находить редкие или неожиданные наблюдения, которые человек мог бы пропустить
- Такой подход ускоряет исследования климата и состояния океанов

Фактически, модель стала инструментом научных открытий, а не просто системой распознавания изображений.

Главный вывод для разработчиков:

Ценность AI сегодня - не в обучении новых моделей, а в умении переиспользовать существующие и переносить их в новые домены.

Часто самая сильная инновация — это не новая архитектура, а новое применение.

https://research.google/blog/how-ai-trained-on-birds-is-surfacing-underwater-mysteries/
🔥26👍86
⚡️ Deep Research без интернета? Теперь это возможно.

OpenResearcher — это полностью офлайн-пайплайн для генерации длинных исследовательских траекторий (100+ шагов), которые имитируют реальный процесс работы агента в интернете:
search → open → find → анализ → вывод.

И всё это:
- без API поиска
- без ограничений по rate limit
- без нестабильности результатов
- полностью воспроизводимо

Что под капотом:

- GPT-OSS-120B генерирует исследовательские цепочки
- Локальный поисковик + корпус 10 трлн токенов
- 15 млн документов FineWeb
- 10 000 «золотых» отобранных источников
- Явные примитивы браузинга (поиск, открытие, извлечение), а не просто retrieve-and-read
- Reject sampling — сохраняются только успешные длинные траектории

Почему это важно?

Главная проблема обучения research-агентов — длинные цепочки действий.
Обычные датасеты короткие и не учат модель думать на горизонте десятков шагов.

Здесь результат впечатляет:

SFT на этих траекториях повышает точность модели Nemotron-3-Nano-30B-A3B
с 20.8% → 54.8% на BrowseComp-Plus
(+34% абсолютного прироста)

Что это значит для индустрии:

- Deep-research агентов можно обучать без дорогих онлайн-запросов
- Появляется воспроизводимое обучение tool-use
- Можно масштабировать генерацию «мышления через действия»
- Это шаг к стабильным автономным исследовательским AI

Открытое релизнули всё:

- Код, поисковик и рецепт корпуса
- ~96K длинных исследовательских траекторий
- Логи оценки
- Обученные модели
- Онлайн-демо

GitHub: https://github.com/TIGER-AI-Lab/OpenResearcher
Models & Data: https://huggingface.co/collections/TIGER-Lab/openresearcher
Demo: https://huggingface.co/spaces/OpenResearcher/OpenResearcher
Eval logs: https://huggingface.co/datasets/OpenResearcher/OpenResearcher-Eval-Logs
111👍8🔥3🤣2
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Эти анимации были созданы на 100% с помощью искусственного интеллекта, используя Seedance 2.0.

Всё было сгенерировано на основе одного запроса, без ручной анимации.

Вы смотрите воссозданные бои, такие как Годзё Сатору против Рёмена Сукуны, сражения с участием Махораги и таких персонажей, как Саске Учиха, Тодзи Фусигуро и Юта Оккоцу.

Плавность, точность и эффектность дают понять: искусственный интеллект для 2D-анимации вышел на новый уровень.
Это не проверка. Это реальные перемены, происходящие прямо сейчас.
👍156🔥4🥴4🤨3👏1🕊1
Google представили новый подход к разработке AI-систем, вместо привычного формата «один пользователь - один ассистент» они моделируют групповые диалоги, где одновременно взаимодействуют несколько людей и ИИ.

Идея проста: в реальной жизни ИИ всё чаще работает не в одиночку, а как участник команды.

Что предлагают

Система позволяет:
- Симулировать групповые обсуждения (несколько людей + AI)
- Тестировать, как ИИ ведёт себя в динамике разговора
- Оценивать:
- когда ИИ должен вмешиваться
- когда лучше молчать
- как не перебивать людей
- как учитывать контекст всей группы

Почему это важно

Обычные тесты проверяют:
- точность ответа
- знание фактов

Но в командной работе важнее:
- тайминг ответа
- уместность
- социальное поведение
- понимание ролей участников

ИИ должен стать коллегой, а не просто чат-ботом.

Где это применимо

- Совместное написание документов
- Брейнштормы
- Планирование проектов
- Онлайн-встречи
- Образование и командная работа

Главная идея

Будущее AI - это не «личный помощник»,
а участник командных процессов.

Такие симуляции позволяют заранее тестировать поведение модели в сложных социальных сценариях и делать её более естественной и полезной в реальной работе.

✔️ Источник: https://research.google/blog/beyond-one-on-one-authoring-simulating-and-testing-dynamic-human-ai-group-conversations/
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
17🔥8🥰4🤯4🥴1
😁56💯111🥱1
⚡️ DeepWiki - GitHub-репозитории, которые можно “спросить” как ChatGPT

DeepWiki - это инструмент, который превращает любой GitHub-проект в интерактивную документацию с AI.

Просто замените в ссылке:
github.comdeepwiki.com

И вы получите:
- автоматически сгенерированную wiki по проекту
- объяснение архитектуры
- разбор ключевых файлов
- ответы на вопросы прямо по коду

Пример:
https://deepwiki.com/karpathy/nanochat

Почему это удобно

Обычная документация часто:
- устаревшая
- неполная
- не объясняет, как всё реально работает

DeepWiki анализирует сам код — источник истины — и строит объяснения на его основе.

Можно быстро узнать:
- как устроена архитектура
- где реализована нужная функция
- как работает конкретный модуль
- какие зависимости используются

Практическая польза

- Быстрое изучение чужих репозиториев
- Онбординг в новый проект
- Поиск логики без ручного чтения сотен файлов
- Подготовка к собеседованиям
- Работа AI-агентов с кодом через MCP

Главная идея

Теперь код можно не читать построчно.
Можно задавать вопросы репозиторию и получать готовые объяснения.

Это новый способ изучения и использования open-source.

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2011🔥8🤔2
🔥 Курс AI Agents PRO обновлён под LangChain 1.0+ и LangGraph 1.0

Весь код переписан под актуальные stable-версии февраля 2026:

LangChain 1.0+ — новая create_agent архитектура
LangGraph 1.0+ — production-ready платформа
Актуальные паттерны 2026
Работающий код из коробки

Что внутри:
- Агенты на LangGraph/AutoGen — от простых до multi-agent систем
- Production RAG — hybrid search, reranking, vector DBs
- Мониторинг — метрики, трейсинг, алерты
- Деплой — от прототипа до прод-сервиса

🚀 48 часов скидка 25%
🥴119👍2🤣2😁1
🚀 SoftMatcha 2 - инструмент от Sakana, который проверяет, не “подглядывала” ли модель ответы

Одна из главных проблем в обучении LLM - загрязнение бенчмарков.
Модель показывает отличные результаты… но иногда просто потому, что похожие задачи уже были в обучающих данных.

Проверить это сложно.
Обычный поиск по точным совпадениям не работает - формулировки могут отличаться, слова меняться, а смысл оставаться тем же.

SoftMatcha 2 новое решение от Sakana.

Что делает инструмент:

- Ищет совпадения в корпусах размером до триллионов токенов
- Работает менее чем за 0.3 секунды
- Находит не только точные копии, но и похожие по смыслу фрагменты
(замены слов, вставки, удаления)
- Помогает обнаружить утечки тестовых данных в обучении

Почему это важно:

Если модель уже видела похожие задачи:
- метрики становятся завышенными
- сравнение моделей теряет смысл
- “прорыв” может оказаться просто хорошей памятью

SoftMatcha 2 позволяет:
- проверять чистоту датасетов
- находить скрытые пересечения
- честно оценивать качество моделей

Как это работает:

- Быстрый поиск на основе suffix arrays
- Disk-aware архитектура - эффективная работа даже с огромными данными
- Интеллектуальное pruning, чтобы избежать перебора миллионов вариантов

Можно протестировать онлайн на корпусе 100B токенов или развернуть у себя для триллионных масштабов.

Demo: http://softmatcha-2.s3-website-ap-northeast-1.amazonaws.com
Paper: https://arxiv.org/abs/2602.10908
Code: https://github.com/softmatcha/softmatcha2

Сегодня важен не только размер модели.
Главный вопрос - учится ли она думать, или просто запомнила ответы.
Please open Telegram to view this post
VIEW IN TELEGRAM
14👍5🔥4
✔️ MiniMax выпустила модель M2.5.

Новинка построена на архитектуре MoE и получила 10 млрд. активных параметров при 229 млрд. общих. Она обучалась в сотнях тысяч сложных сред и умеет самостоятельно планировать действия без явных инструкций от пользователя.

По заявленным бенчмаркам, M2.5 превосходит GPT-5.2, Gemini 3 Pro и Claude в веб-поиске, агентных тасках и по офисными задачами. В кодинге модель в ряде тестов обходит Claude Opus 4.6. Веса опубликованы под лицензией MIT.

Закрытый вариант, M2.5-Lightning, выдает 100 токенов в секунду - это вдвое быстрее топовых аналогов. Час ее непрерывной работы стоит 1 доллар, а 4 инстанса можно гонять параллельно круглый год за 10 тыс. долларов.
API и тариф для разработчиков доступны на платформе Minimax.
minimax.io
Please open Telegram to view this post
VIEW IN TELEGRAM
13🔥8👍4
🤖 Агенты на базе LLM звучит как модный тренд, но за ним скрываются конкретные архитектурные решения, ограничения и инженерные компромиссы. Без их понимания агентные системы быстро превращаются в нестабильные и трудно поддерживаемые эксперименты.

На открытом уроке вы разберёте, что на самом деле стоит за agentic-подходом и чем он отличается от привычных LLM-приложений с chains, RAG и tools. Мы подробно рассмотрим устройство агента: модель, инструменты, память, планирование и контроль выполнения, а также разберём архитектурные паттерны агентных систем.

Вы увидите, как один и тот же агентный сценарий реализуется в разных фреймворках, сравните их подходы и ограничения, поймёте, где агентный подход действительно оправдан, а где он усложняет систему без реальной выгоды.

🗓️ Встречаемся 17 февраля в 20:00 МСК в преддверии старта курса «LLM Driven Development». Зарегистрируйтесь: https://otus.pw/Q3x3F/?erid=2W5zFHNEkCZ

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
4🤣4🥱3