Анализ данных (Data analysis) – Telegram
Анализ данных (Data analysis)
48.6K subscribers
2.82K photos
326 videos
1 file
2.39K links
Data science, наука о данных.

@haarrp - админ

РКН: clck.ru/3FmyAp
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
🎥 Kling 3.0 официально вышла.

Новая версия делает серьёзный шаг в сторону полноценного “киношного” продакшена на базе ИИ.

Что внутри:

- Генерация видео 3–15 секунд в 1080p
Стабильное качество и сильная консистентность - персонажи, сцены и стиль сохраняются между кадрами без резких искажений.

- Нативный звук с несколькими персонажами
Модель работает с диалогами и разными голосами внутри одной сцены.

- Видео-персонаж как референс
Можно загрузить или записать видео персонажа и использовать его как основу - с сохранением внешности и согласованности голосов.

- Контроль стартового и конечного кадра
Даёт больше режиссёрского контроля над сценой, переходами и логикой движения.

- Новый Custom Multishot
Инструменты для сборки сцен из нескольких шотов с сохранением целостности истории и визуала.

Главное изменение - улучшенная динамика и “физика” движения.
Движения, взаимодействия объектов, темп сцены и переходы стали достаточно согласованными, чтобы создавать ролики уровня “почти кино” - где motion, continuity и pacing ощущаются связно, а не как набор отдельных сгенерированных кусков.

https://app.klingai.com/global/release-notes/whbvu8hsip?type=dialog
10👍6🥴4🔥2
🧠 Google придумали способ сделать AI-модели быстрее и легче без потери точности

В новом исследовании Google представили подход под названием Sequential Attention.

Идея простая по смыслу, но мощная по эффекту - модель учится фокусироваться только на действительно важных частях вычислений, а всё лишнее постепенно отбрасывает.

Почему это вообще проблема

Современные нейросети огромные. Они:
- считают слишком много
- используют кучу признаков и параметров
- тратят много памяти и энергии

При этом далеко не всё, что модель обрабатывает, реально влияет на итоговый ответ.

Но определить заранее, что важно, а что нет - математически очень сложно.

Что делает Sequential Attention. Метод работает пошагово.

Вместо того чтобы сразу использовать всё, алгоритм:
1. Выбирает один самый полезный компонент
2. Смотрит, что уже выбрано
3. Добавляет следующий, который даёт наибольшую пользу
4. Повторяет процесс последовательно

То есть модель как будто собирает себя заново-— из самых значимых частей, а не из всего подряд.

Что это даёт на практике

- Меньше вычислений - модель работает быстрее
- Меньше нагрузка на память и железо
- Ниже энергопотребление
- И самое главное - точность почти не страдает

Это редкий случай, когда становится и быстрее, и дешевле, без серьёзных компромиссов по качеству.

Размеры моделей растут быстрее, чем инфраструктура. Поэтому ключевой тренд - не просто делать модели больше, а делать их умнее в плане вычислений.

Sequential Attention - это шаг в сторону “бережливого ИИ”, где:
- не каждая операция обязательна
- не каждый параметр нужен всегда
- модель учится экономить ресурсы сама

И чем крупнее системы, тем ценнее такие подходы.

https://research.google/blog/sequential-attention-making-ai-models-leaner-and-faster-without-sacrificing-accuracy/?

@data_analysis_ml
22👍17🔥5
Подборка полезных вебинаров по внедрению AI ⌛️

Когда знания разбросаны по чатам и папкам, сотрудники теряют время, решения принимаются медленно, а ошибки повторяются. А в бизнесе, где все быстро меняется, важно обеспечить быструю коммуникацию, автоматизацию задач и эффективное управление данными.


На вебинарах 10 и 19 февраля эксперт Cloud.ru расскажет, как быстро выстроить единую и безопасную инфраструктуру знаний, развернув корпоративную Wiki-систему Outline, и как внедрить AI-чат, чтобы улучшить процессы и повысить эффективность вашей компании.

▫️Зарегистрироваться на вебинар 10 февраля — База знаний с AI: создаем корпоративную Wiki в облаке

😶‍🌫️как развернуть и масштабировать корпоративную Wiki на базе виртуальных машин и объектного хранилища для надежного управления данными;

😶‍🌫️как настроить единую точку входа (SSO) для централизованной аутентификации и безопасного доступа сотрудников;

😶‍🌫️как интегрировать AI-помощника, создав Telegram-бота с прямым подключением к базе знаний через MCP-сервер для мгновенных ответов на вопросы.


▫️Зарегистрироваться на вебинар 19 февраля — Собираем корпоративный AI-чат: от выбора модели до работающего прототипа

😶‍🌫️какие open source решения представлены на рынке, какие выбрал Cloud.ru и почему;

😶‍🌫️преимущества вашего AI-чата перед SaaS: плюсы и минусы, а также безопасность данных и соответствие законодательству;

😶‍🌫️протестированные архитектурные решения: от варианта для быстрого старта до отказоустойчивой системы для больших нагрузок.
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍4🔥3🥴2🤔1
📌 Vercel Agent Browser - интервьюируемые ассистенты для браузерных приложений

Это экспериментальный SDK от команды Vercel, который позволяет создавать интерактивных агентов прямо внутри браузера. Агент может выполнять действия, понимать контекст, управлять состоянием UI и комбинировать LLM-модели с событиями и логикой фронтенда.

🔥 Что делает Agent Browser:

• Позволяет интегрировать большие языковые модели прямо в браузерные интерфейсы.

• Агент может опрашивать страницу, читать DOM, реагировать на события пользователя.

• Обеспечивает контекстный доступ к состоянию приложения.

• Позволяет модели влиять на UI, управлять данными, взаимодействовать с пользователем “по-человечески”.

• Поддерживает плагинную архитектуру — добавляй свои обработчики задач и действий.

💡 Примеры кейсов:

Автогенерация изменений интерфейса на основе текстовых команд
Интеллектуальные помощники, которые понимают текущую страницу
Автоматизация рутины в браузерных приложениях
Комбинация событий пользователя + LLM логики в одном потоке

📌 Почему это важно:

Раньше браузерные ассистенты были ограничены простыми chat UI или webhook-ами. Agent Browser даёт полноценного агента, который может читать/писать в браузерном окружении, опрашивать DOM, слушать события, управлять состоянием и контекстом — это новый уровень взаимодействия.

👉 Если работаешь с frontend + LLM — обязательно глянуть.

🔗 Репозиторий: https://github.com/vercel-labs/agent-browser
8👍5🔥3
🚀 Вышел Protenix-v1 - первая open-source модель, заявляющая уровень качества AlphaFold 3

За релизом стоит ByteDance, и это серьёзная заявка на open-source в биоинформатике.

Что делает релиз интересным:

🔹 Качество на уровне AF3
Заявлена производительность уровня DeepMind AlphaFold 3, а это уже не просто академическая игрушка, а лига передовых структурных моделей.

🔹 Подтверждено scaling-поведение на инференсе
Модель показывает ожидаемый рост качества при увеличении вычислений во время вывода — редкая и важная характеристика для научных моделей.

🔹 Поддержка RNA MSA и protein templates
Работает не только с белками, но и с РНК-выравниваниями и шаблонами структур — ближе к реальным исследовательским сценариям.

🔹 Отдельная версия на большем датасете
Вышел Protenix-v1-20250630 - дообученная версия с расширенными данными.

🔹 PXMeter v1.0.0
Свой toolkit для бенчмаркинга:
6k+ комплексов, time-split, domain-specific подмножества — меньше «магии», больше воспроизводимости.

Фактически это шаг к тому, чтобы уровень структурного предсказания, раньше доступный только топ-лабораториям, стал open-source инструментом. Для биотеха, фармы и ML-исследователей - очень громкое событие.

🔗 Code: https://github.com/bytedance/Protenix
🔗 Eval toolkit: https://github.com/bytedance/PXMeter
🔗 Online server: https://protenix-server.com
14🔥2🥰1🤣1
❤️ ML-митап от команды MAGNIT TECH

Эксперты из ML/AI Хаба «Магнита» зовут на митап, чтобы поделиться реальным опытом применения машинного обучения в бизнес-процессах.

19.02 | Москва | Офлайн + онлайн

🎯 Обсудим, что остается "под капотом" ML-решений в крупнейшем ретейле. Без лишних формальностей: в программе диджей и нетворкинг-сессия с экспертами 👇

Сбор гостей с 18:00
DJ • Welcome
🟪Магнит и AI: как мы строим ML и куда движемся (Алексей Четыркин, MAGNIT TECH, Chief of AI/ML)
🟪Доступность товара: от фильтрующих деревьев до CUSUM и GEE-тестов (Ян Пиле, MAGNIT TECH, Head of OSA)
🟪Опять AI, да сколько можно? Только практические кейсы без воды (Александр Толмачев, ex-Ozon, CDO и председатель комитета данных)
🟪Нетворкинг с ML-лидами и инженерами
DJ • F&B • Good vibes

Модератор: Максим Покусенко, MAGNIT TECH, Head of ML (Logistics & R&D)

Занимайте место: офлайн — в московском офисе MAGNIT TECH (м. Белорусская), или получите ссылку на онлайн трансляцию после регистрации.

🟥Участие бесплатное, количество мест офлайн ограничено. До встречи 19 февраля! 🟥
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤‍🔥33
🚀 Google Research представила GIST — новый этап в “умной” выборке данных

Google Research опубликовала блог-пост о GIST — алгоритме, который помогает выбирать высококачественную подвыборку данных из огромных датасетов так, чтобы она была и разнообразной, и полезной для обучения моделей.

📌 Зачем это нужно
При обучении современных моделей (LLM, CV) данные становятся слишком большими, и обрабатывать всё сразу дорого по памяти и времени. Часто выбирают подмножество данных, но это непросто: нужно найти баланс между:
- разнообразием (не выбирать похожие примеры), и
- полезностью (высокая информативность выбранных точек).

📌 Как работает GIST
Алгоритм GIST (Greedy Independent Set Thresholding) формулирует задачу как сочетание двух целей — максимизации полезности и минимизации избыточности. Он:
- строит граф, где точки данных слишком близкие по расстоянию считаются “связанными”,
- затем находит независимые подмножества, которые максимизируют полезность, не выбирая очень похожие данные.

📌 Гарантии и результаты
GIST — это не просто эвристика, а алгоритм с теоретическими гарантиями: он обеспечивает решение, близкое к оптимальному по комбинированной цели разнообразие+полезность. На практике он превосходит классические подходы на задачах вроде классификации изображений.

📊 Почему это важно
- Надёжная выборка данных критична для устойчивого обучения моделей.
- GIST помогает эффективно снизить объём данных, сохранив при этом ключевую информацию.
- Такой подход особенно ценен, когда данные дорогие или медленные для обработки.

*GIST - шаг к более умной и гарантированной выборке данных, что может ускорить обучение крупных моделей и снизить затраты на вычисления при сохранении качества обучения.*

https://research.google/blog/introducing-gist-the-next-stage-in-smart-sampling/
🔥9👍2😍1
🚨 Теперь можно запускать 70B LLM на видеокарте с 4GB VRAM

AirLLM буквально выбивает почву из аргумента “для больших моделей нужно дорогое железо”.

Фреймворк позволяет запускать модели размером до 70B параметров даже на GPU с 4GB видеопамяти.

Как это возможно?

Вместо загрузки всей модели в память сразу, AirLLM:

- подгружает модель по слоям
- выполняет вычисления
- освобождает память
- переходит к следующему слою

Фактически, это потоковая обработка модели.

Более того, авторы показывают запуск Llama 3.1 405B на 8GB VRAM.

Что это даёт разработчикам:

- не требуется квантование по умолчанию
- можно запускать Llama, Qwen, Mistral, Mixtral локально
- работает на Linux, Windows и macOS
- не нужен сервер с огромным GPU

Это сдвигает барьер входа для локального LLM-разработки и экспериментов.

AirLLM полностью open source - можно использовать, изучать и встраивать в свои пайплайны.

https://github.com/0xSojalSec/airllm
👍19🥴53🔥3🥱2👌1