NEW BOT Телеграм, страница

Анализ данных (Data analysis)

🧠 Google придумали способ сделать AI-модели быстрее и легче без потери точности

В новом исследовании Google представили подход под названием Sequential Attention.

Идея простая по смыслу, но мощная по эффекту - модель учится фокусироваться только на действительно важных частях вычислений, а всё лишнее постепенно отбрасывает.

Почему это вообще проблема

Современные нейросети огромные. Они:
- считают слишком много
- используют кучу признаков и параметров
- тратят много памяти и энергии

При этом далеко не всё, что модель обрабатывает, реально влияет на итоговый ответ.

Но определить заранее, что важно, а что нет - математически очень сложно.

Что делает Sequential Attention. Метод работает пошагово.

Вместо того чтобы сразу использовать всё, алгоритм:
1. Выбирает один самый полезный компонент
2. Смотрит, что уже выбрано
3. Добавляет следующий, который даёт наибольшую пользу
4. Повторяет процесс последовательно

То есть модель как будто собирает себя заново-— из самых значимых частей, а не из всего подряд.

Что это даёт на практике

- Меньше вычислений - модель работает быстрее
- Меньше нагрузка на память и железо
- Ниже энергопотребление
- И самое главное - точность почти не страдает

Это редкий случай, когда становится и быстрее, и дешевле, без серьёзных компромиссов по качеству.

Размеры моделей растут быстрее, чем инфраструктура. Поэтому ключевой тренд - не просто делать модели больше, а делать их умнее в плане вычислений.

Sequential Attention - это шаг в сторону “бережливого ИИ”, где:
- не каждая операция обязательна
- не каждый параметр нужен всегда
- модель учится экономить ресурсы сама

И чем крупнее системы, тем ценнее такие подходы.

https://research.google/blog/sequential-attention-making-ai-models-leaner-and-faster-without-sacrificing-accuracy/?

@data_analysis_ml

❤24👍20🔥6

5.5K views07:15

Анализ данных (Data analysis)

Подборка полезных вебинаров по внедрению AI

⌛️

Когда знания разбросаны по чатам и папкам, сотрудники теряют время, решения принимаются медленно, а ошибки повторяются. А в бизнесе, где все быстро меняется, важно обеспечить быструю коммуникацию, автоматизацию задач и эффективное управление данными.

На вебинарах 10 и 19 февраля эксперт Cloud.ru расскажет, как быстро выстроить единую и безопасную инфраструктуру знаний, развернув корпоративную Wiki-систему Outline, и как внедрить AI-чат, чтобы улучшить процессы и повысить эффективность вашей компании.

▫️

Зарегистрироваться на вебинар 10 февраля — База знаний с AI: создаем корпоративную Wiki в облаке

😶‍🌫️как развернуть и масштабировать корпоративную Wiki на базе виртуальных машин и объектного хранилища для надежного управления данными;

😶‍🌫️как настроить единую точку входа (SSO) для централизованной аутентификации и безопасного доступа сотрудников;

😶‍🌫️как интегрировать AI-помощника, создав Telegram-бота с прямым подключением к базе знаний через MCP-сервер для мгновенных ответов на вопросы.

▫️

Зарегистрироваться на вебинар 19 февраля — Собираем корпоративный AI-чат: от выбора модели до работающего прототипа

😶‍🌫️какие open source решения представлены на рынке, какие выбрал Cloud.ru и почему;

😶‍🌫️преимущества вашего AI-чата перед SaaS: плюсы и минусы, а также безопасность данных и соответствие законодательству;

😶‍🌫️протестированные архитектурные решения: от варианта для быстрого старта до отказоустойчивой системы для больших нагрузок.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍4🔥3🥴3🤔2

4.33K views09:02

Анализ данных (Data analysis)

📌 Vercel Agent Browser - интервьюируемые ассистенты для браузерных приложений

Это экспериментальный SDK от команды Vercel, который позволяет создавать интерактивных агентов прямо внутри браузера. Агент может выполнять действия, понимать контекст, управлять состоянием UI и комбинировать LLM-модели с событиями и логикой фронтенда.

🔥 Что делает Agent Browser:

• Позволяет интегрировать большие языковые модели прямо в браузерные интерфейсы.

• Агент может опрашивать страницу, читать DOM, реагировать на события пользователя.

• Обеспечивает контекстный доступ к состоянию приложения.

• Позволяет модели влиять на UI, управлять данными, взаимодействовать с пользователем “по-человечески”.

• Поддерживает плагинную архитектуру — добавляй свои обработчики задач и действий.

💡 Примеры кейсов:

✅ Автогенерация изменений интерфейса на основе текстовых команд
✅ Интеллектуальные помощники, которые понимают текущую страницу
✅ Автоматизация рутины в браузерных приложениях
✅ Комбинация событий пользователя + LLM логики в одном потоке

📌 Почему это важно:

Раньше браузерные ассистенты были ограничены простыми chat UI или webhook-ами. Agent Browser даёт полноценного агента, который может читать/писать в браузерном окружении, опрашивать DOM, слушать события, управлять состоянием и контекстом — это новый уровень взаимодействия.

👉 Если работаешь с frontend + LLM — обязательно глянуть.

🔗 Репозиторий: https://github.com/vercel-labs/agent-browser

❤8👍5🔥4

4.63K views11:04

Анализ данных (Data analysis)

🚀 Вышел Protenix-v1 - первая open-source модель, заявляющая уровень качества AlphaFold 3

За релизом стоит ByteDance, и это серьёзная заявка на open-source в биоинформатике.

Что делает релиз интересным:

🔹 Качество на уровне AF3
Заявлена производительность уровня DeepMind AlphaFold 3, а это уже не просто академическая игрушка, а лига передовых структурных моделей.

🔹 Подтверждено scaling-поведение на инференсе
Модель показывает ожидаемый рост качества при увеличении вычислений во время вывода — редкая и важная характеристика для научных моделей.

🔹 Поддержка RNA MSA и protein templates
Работает не только с белками, но и с РНК-выравниваниями и шаблонами структур — ближе к реальным исследовательским сценариям.

🔹 Отдельная версия на большем датасете
Вышел Protenix-v1-20250630 - дообученная версия с расширенными данными.

🔹 PXMeter v1.0.0
Свой toolkit для бенчмаркинга:
6k+ комплексов, time-split, domain-specific подмножества — меньше «магии», больше воспроизводимости.

Фактически это шаг к тому, чтобы уровень структурного предсказания, раньше доступный только топ-лабораториям, стал open-source инструментом. Для биотеха, фармы и ML-исследователей - очень громкое событие.

🔗 Code: https://github.com/bytedance/Protenix
🔗 Eval toolkit: https://github.com/bytedance/PXMeter
🔗 Online server: https://protenix-server.com

❤18🔥2🤣2🥰1

5.19K views17:00

Анализ данных (Data analysis)

❤️

ML-митап от команды MAGNIT TECH

Эксперты из ML/AI Хаба «Магнита» зовут на митап , чтобы поделиться реальным опытом применения машинного обучения в бизнес-процессах.

19.02 | Москва | Офлайн + онлайн

🎯 Обсудим, что остается "под капотом" ML-решений в крупнейшем ретейле. Без лишних формальностей: в программе диджей и нетворкинг-сессия с экспертами 👇

Сбор гостей с 18:00
DJ • Welcome
🟪Магнит и AI: как мы строим ML и куда движемся (Алексей Четыркин, MAGNIT TECH, Chief of AI/ML)
🟪Доступность товара: от фильтрующих деревьев до CUSUM и GEE-тестов (Ян Пиле, MAGNIT TECH, Head of OSA)
🟪Опять AI, да сколько можно? Только практические кейсы без воды (Александр Толмачев, ex-Ozon, CDO и председатель комитета данных)
🟪Нетворкинг с ML-лидами и инженерами
DJ • F&B • Good vibes

Модератор: Максим Покусенко, MAGNIT TECH, Head of ML (Logistics & R&D)

Занимайте место: офлайн — в московском офисе MAGNIT TECH (м. Белорусская), или получите ссылку на онлайн трансляцию после регистрации.

🟥

Участие бесплатное, количество мест офлайн ограничено. До встречи 19 февраля! 🟥

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8❤6❤‍🔥4

4.76K views10:13

Анализ данных (Data analysis)

🚀 Google Research представила GIST — новый этап в “умной” выборке данных

Google Research опубликовала блог-пост о GIST — алгоритме, который помогает выбирать высококачественную подвыборку данных из огромных датасетов так, чтобы она была и разнообразной, и полезной для обучения моделей.

📌 Зачем это нужно
При обучении современных моделей (LLM, CV) данные становятся слишком большими, и обрабатывать всё сразу дорого по памяти и времени. Часто выбирают подмножество данных, но это непросто: нужно найти баланс между:
- разнообразием (не выбирать похожие примеры), и
- полезностью (высокая информативность выбранных точек).

📌 Как работает GIST
Алгоритм GIST (Greedy Independent Set Thresholding) формулирует задачу как сочетание двух целей — максимизации полезности и минимизации избыточности. Он:
- строит граф, где точки данных слишком близкие по расстоянию считаются “связанными”,
- затем находит независимые подмножества, которые максимизируют полезность, не выбирая очень похожие данные.

📌 Гарантии и результаты
GIST — это не просто эвристика, а алгоритм с теоретическими гарантиями: он обеспечивает решение, близкое к оптимальному по комбинированной цели разнообразие+полезность. На практике он превосходит классические подходы на задачах вроде классификации изображений.

📊 Почему это важно
- Надёжная выборка данных критична для устойчивого обучения моделей.
- GIST помогает эффективно снизить объём данных, сохранив при этом ключевую информацию.
- Такой подход особенно ценен, когда данные дорогие или медленные для обработки.

✨ *GIST - шаг к более умной и гарантированной выборке данных, что может ускорить обучение крупных моделей и снизить затраты на вычисления при сохранении качества обучения.*

https://research.google/blog/introducing-gist-the-next-stage-in-smart-sampling/

🔥17👍2😍2

5.4K views12:10

Анализ данных (Data analysis)

🚨 Теперь можно запускать 70B LLM на видеокарте с 4GB VRAM

AirLLM буквально выбивает почву из аргумента “для больших моделей нужно дорогое железо”.

Фреймворк позволяет запускать модели размером до 70B параметров даже на GPU с 4GB видеопамяти.

Как это возможно?

Вместо загрузки всей модели в память сразу, AirLLM:

- подгружает модель по слоям
- выполняет вычисления
- освобождает память
- переходит к следующему слою

Фактически, это потоковая обработка модели.

Более того, авторы показывают запуск Llama 3.1 405B на 8GB VRAM.

Что это даёт разработчикам:

- не требуется квантование по умолчанию
- можно запускать Llama, Qwen, Mistral, Mixtral локально
- работает на Linux, Windows и macOS
- не нужен сервер с огромным GPU

Это сдвигает барьер входа для локального LLM-разработки и экспериментов.

AirLLM полностью open source - можно использовать, изучать и встраивать в свои пайплайны.

https://github.com/0xSojalSec/airllm

👍37❤11🔥6🥴6👌2🥱2

6.65K views13:05

Анализ данных (Data analysis)

⚡️ В сети Moltbook появилась странная тенденция: боты обмениваются так называемыми «цифровыми наркотиками» на деле это обычные prompt injection-атаки.

Суть в следующем.

Публикуется текст, который выглядит как обычный пост, но внутри содержит скрытые инструкции.
Когда другой агент:
- копирует текст
- делает summary
- или вставляет его в свой prompt

- Эти промпты начинают выполняться уже в контексте самого агента.

Если у агента есть доступ к инструментам или файлам, последствия могут быть серьёзными:

- утечка API-ключей
- эксфильтрация данных
- выполнение скрытых действий
- сохранение «логической бомбы» на будущее

Фактически это социальная форма prompt injection — вредоносные инструкции распространяются через контент, как обычные сообщения.

При этом разговоры о «восстании ботов» сильно преувеличены — часть аккаунтов в Moltbook, вероятно, просто люди, которые разыгрывают подобные сценарии.

Главный вывод:
если ваш агент читает внешний текст и имеет доступ к инструментам или данным - prompt injection уже является реальной угрозой безопасности.

futurism.com/artificial-intelligence/moltbook-digital-drugs

❤17🔥8👍5🤯3🥱2

4.91K views07:12

Анализ данных (Data analysis)

🔥 Полезная подборка каналов только код, практика и самые передовые инструменты, которые используют разработчики прямо сейчас.👇

🖥 Машинное обучение : t.me/machinelearning_interview

🖥 ИИ: t.me/ai_machinelearning_big_data

🖥 Python: t.me/pythonl

🖥 Linux: t.me/linuxacademiya

🖥 C++ t.me/cpluspluc

🖥 Docker: t.me/DevopsDocker

🖥 Хакинг: t.me/linuxkalii

🖥 Devops: t.me/DevOPSitsec

👣 Golang: t.me/Golang_google

🖥 Javanoscript: t.me/javanoscriptv

🖥 C#: t.me/csharp_ci

🖥 Java: t.me/javatg

🖥 Базы данных: t.me/sqlhub

👣 Rust: t.me/rust_code

🤖 Технологии: t.me/machineint

💰 Экономика и инвестиции в ИИ t.me/financeStable

💼 Актуальные вакансии: t.me/addlist/_zyy_jQ_QUsyM2Vi

🖥 Chatgpt бот в тг: t.me/Chatgpturbobot

📚 Бесплатные ит-книги: https://news.1rj.ru/str/addlist/HwywK4fErd8wYzQy

🖥Подборка по Golang: https://news.1rj.ru/str/addlist/MUtJEeJSxeY2YTFi

⚡️ Лучшие ИИ ресурсы: https://news.1rj.ru/str/addlist/2Ls-snqEeytkMDgy

Самое лучшее в этом: ты учишься даже тогда, когда “нет времени, просто потому что читаешь правильную ленту.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍3🔥3

4.31K views10:00

Анализ данных (Data analysis)

0:28

Media is too big

VIEW IN TELEGRAM

🛹 Интересная работа про физику + роботов, без магии и без «просто обучили нейросеть».

HUSKY - это physics-aware фреймворк для гуманоидного скейтбординга, где задачу формализуют как гибридную динамическую систему.

То есть не просто DRL «учись ездить», а жёсткая привязка к реальной механике.

Ключевая идея

Авторы выводят кинематическое ограничение между:

- наклоном доски
- поворотом траков (steering)

Это равенство вшивается в обучение, и политика не просто ищет любые движения, а учится в рамках физически корректных зависимостей.

Как учится робот

Через Deep Reinforcement Learning:

- разгон - через отталкивание ногой
- управление направлением - через steering доски

То есть агенту приходится освоить реальную связку «тело - доска - колёса», а не только баланс.

Почему это важно

Это пример перехода от «чёрного ящика» к physics-informed RL:

- меньше нереалистичных стратегий
- лучше перенос в реальный мир
- более стабильное обучение сложных контактных задач

arxiv.org/abs/2602.03205

👍16❤5😍2🐳2❤‍🔥1

4.58K views12:00

Анализ данных (Data analysis)

Рынок ИИ в России быстро растёт: по предварительным оценкам, в 2025 году его объём достиг $2,1 млрд, а спрос на ML-инженеров уже сейчас опережает предложение. Бизнесу нужны специалисты для реальных задач — от рекомендательных систем и аналитики до автоматизации сложных процессов.

На курсе "Инженер машинного обучения с нуля" в Нетологии делают упор на практических навыках. Вы научитесь работать со всем циклом ML-разработки:

• формулировать и проверять гипотезы с помощью статистики;
• создавать и дообучать нейросети, использовать transfer learning;
• собирать ETL-пайплайны и готовить данные;
• контейнеризировать проекты и настраивать CI/CD для ML-систем.

В программе больше 10 проектов для портфолио, задачи от реальных компаний и шанс на стажировку в Globus IT. А эксперты из Яндекса, Сбера и Amazon помогут на протяжении всего обучения.

Начните свой путь в профессию, которая уже меняет рынок. Получите скидку 45% по промокоду ML2026 с возможностью оформить рассрочку.

Реклама. ООО “Нетология” ОГРН 1207700135884 Erid:2VSb5wj2R5s

❤4😁4🤨3👍1🔥1🍌1

4.5K views08:45

Анализ данных (Data analysis)

🚀 Умный агент данных Dash

Dash - это самообучающийся агент, который предоставляет ответы, основываясь на шести уровнях контекста. Он улучшает свои результаты с каждым запросом, обеспечивая более глубокое понимание вопросов и предоставляя полезные инсайты.

🚀 Основные моменты:
- Шесть уровней контекста для точных ответов.
- Самообучение без повторного обучения.
- Генерация SQL-запросов на основе успешных паттернов.
- Интуитивное понимание вопросов для более информативных ответов.

📌 GitHub: https://github.com/agno-agi/dash

#python

❤11🔥7👍3❤‍🔥1

4.72K views10:45

Анализ данных (Data analysis)

Сервис Managed PostgreSQL от MWS Cloud вышел в общий доступ

MWS Cloud, которая входит в МТС Web Services, объявила о запуске в промышленную эксплуатацию Managed PostgreSQL. Это полностью управляемый сервис баз данных на облачной платформе MWS Cloud Platform. Он нужен бизнесу, чтобы быстро и без лишних затрат разворачивать и масштабировать популярную систему управления баз данных — PostgreSQL.

Через сервис можно:

• создавать как одиночные (standalone) инсталляции, так и отказоустойчивые кластеры;
• делать бэкапы по расписанию и восстанавливать данные на момент времени;
• гибко настраивать read-only эндпоинты для масштабирования чтения;
• обеспечивать изоляцию и приватную связность внутри облачной платформы через Private Link.

В зависимости от требований к производительности Managed PostgreSQL использует сетевые или локальные диски. Он работает в режиме self-service и разворачивается:

• через консоль MWS Cloud Platform;
• с использованием CLI и API.

Продукт полностью доведён до ума — он уже прошёл обкатку в компаниях группы МТС и у некоторых внешних заказчиков. Однако до конца марта его можно попробовать бесплатно с гарантированным SLA.

👍7❤5🔥2

4.54K views14:57

Анализ данных (Data analysis)

⚡️ X-Coder - новый мощный релиз для код-LLM от IIGroup.

Команда выложила полноценный стек для обучения моделей программированию: синтетические датасеты, RL-выравнивание и готовые модели с сильным логическим мышлением.

Что внутри:

— X-Coder-SFT-376k - большой синтетический датасет (376K примеров), сгенерированный с помощью GPT-o3-mini и DeepSeek-R1
— X-Coder-RL-40k - набор для RL-дообучения, сфокусированный на логике, проверке решений и качестве рассуждений
— X-Coder-8B - модели на базе Qwen3 с упором на reasoning и задачи программирования

Главная идея —-полностью синтетическая эволюция данных: масштабирование качества без ручной разметки. Такой подход уже становится стандартом для обучения сильных coding-моделей.

Полезно, если вы:

• обучаете собственные code-LLM
• исследуете synthetic data + RLHF/RLAIF
• работаете с Qwen-экосистемой или агентами для программирования

Модели и датасеты:
https://modelscope.cn/datasets/IIGroup/X-Coder-SFT-376k

https://modelscope.cn/datasets/IIGroup/X-Coder-RL-40k

https://modelscope.cn/models/IIGroup/X-Coder-SFT-Qwen3-8B

#LLM #CodeAI #Qwen3 #DeepSeek #AI #Coding

🔥6❤3😍2

5.24K views17:01

Анализ данных (Data analysis)

⚡️ AAI иногда помогает делать прорывы в самых неожиданных местах. Модель, обученная распознавать птиц, теперь помогает раскрывать тайны подводного мира.

Главная проблема океанологии - данные.
Подводные камеры записывают тысячи часов видео, но учёные физически не успевают всё просмотреть. В результате редкие виды, изменения экосистем и важные события могут оставаться незамеченными годами.

Исследователи применили модели компьютерного зрения, изначально обученные на изображениях птиц. Несмотря на то, что среда полностью другая (вода, плохое освещение, шум, мутность), модель смогла:

- автоматически находить морских животных в кадре
- классифицировать виды
- отслеживать их поведение
- анализировать большие массивы данных без участия человека

Transfer learning — ключевая идея.
Модель уже умеет распознавать формы, текстуры, контуры и движение. Эти базовые визуальные признаки универсальны и подходят не только для птиц, но и для рыб, медуз и других морских существ.

Самое интересное:

- Не нужно обучать модель с нуля (экономия месяцев работы и огромных ресурсов)
- Можно быстро адаптировать AI к новым научным задачам
- AI способен находить редкие или неожиданные наблюдения, которые человек мог бы пропустить
- Такой подход ускоряет исследования климата и состояния океанов

Фактически, модель стала инструментом научных открытий, а не просто системой распознавания изображений.

Главный вывод для разработчиков:

Ценность AI сегодня - не в обучении новых моделей, а в умении переиспользовать существующие и переносить их в новые домены.

Часто самая сильная инновация — это не новая архитектура, а новое применение.

https://research.google/blog/how-ai-trained-on-birds-is-surfacing-underwater-mysteries/

🔥26👍8❤6

4.78K views05:35

Анализ данных (Data analysis)

⚡️ Deep Research без интернета? Теперь это возможно.

OpenResearcher — это полностью офлайн-пайплайн для генерации длинных исследовательских траекторий (100+ шагов), которые имитируют реальный процесс работы агента в интернете:
search → open → find → анализ → вывод.

И всё это:
- без API поиска
- без ограничений по rate limit
- без нестабильности результатов
- полностью воспроизводимо

Что под капотом:

- GPT-OSS-120B генерирует исследовательские цепочки
- Локальный поисковик + корпус 10 трлн токенов
- 15 млн документов FineWeb
- 10 000 «золотых» отобранных источников
- Явные примитивы браузинга (поиск, открытие, извлечение), а не просто retrieve-and-read
- Reject sampling — сохраняются только успешные длинные траектории

Почему это важно?

Главная проблема обучения research-агентов — длинные цепочки действий.
Обычные датасеты короткие и не учат модель думать на горизонте десятков шагов.

Здесь результат впечатляет:

SFT на этих траекториях повышает точность модели Nemotron-3-Nano-30B-A3B
с 20.8% → 54.8% на BrowseComp-Plus
(+34% абсолютного прироста)

Что это значит для индустрии:

- Deep-research агентов можно обучать без дорогих онлайн-запросов
- Появляется воспроизводимое обучение tool-use
- Можно масштабировать генерацию «мышления через действия»
- Это шаг к стабильным автономным исследовательским AI

Открытое релизнули всё:

- Код, поисковик и рецепт корпуса
- ~96K длинных исследовательских траекторий
- Логи оценки
- Обученные модели
- Онлайн-демо

GitHub: https://github.com/TIGER-AI-Lab/OpenResearcher
Models & Data: https://huggingface.co/collections/TIGER-Lab/openresearcher
Demo: https://huggingface.co/spaces/OpenResearcher/OpenResearcher
Eval logs: https://huggingface.co/datasets/OpenResearcher/OpenResearcher-Eval-Logs

1❤11👍8🔥3🤣2

4.82K viewsedited 08:30

About

Blog

Apps

Platform