Анализ данных (Data analysis) – Telegram
Анализ данных (Data analysis)
48.6K subscribers
2.79K photos
323 videos
1 file
2.37K links
Data science, наука о данных.

@haarrp - админ

РКН: clck.ru/3FmyAp
Download Telegram
HunyuanImage 3.0-Instruct теперь полностью open-source 🔥

Модель только что ворвалась в Tier-1 глобального рейтинга Image Edit от Arena и сейчас считается самой мощной open-source Image-to-Image моделью.

Фактически новый SOTA для всего комьюнити.

Что это значит на практике:
- Топовый уровень редактирования изображений по текстовым инструкциям
- Очень точное следование промптам в стиле "измени, но сохрани структуру"
- Сильный баланс между качеством, деталями и контролем результата
- Отличная база для своих инструментов, сервисов и ресёрча

Отдельно есть Distil-версия - легче, быстрее, удобнее для продакшена и ограниченных ресурсов.

GitHub: https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
Hugging Face: https://huggingface.co/tencent/HunyuanImage-3.0-Instruct
Hugging Face Distil: https://huggingface.co/tencent/HunyuanImage-3.0-Instruct-Distil

@data_analysis_ml
🔥219👍5🥰2
This media is not supported in your browser
VIEW IN TELEGRAM
LingBot-World - open-source симулятор мира, который двигает границы видео-генерации 🚀

Это уже не просто генерация роликов, а попытка моделировать целые сцены и миры с памятью и физической логикой.

🌍 Высокая детализация - реалистичный рендер
🧠 Долгосрочная память - консистентность сцен на уровне минут, а не секунд
Генерация почти в реальном времени - задержка меньше 1 секунды при 16 FPS
📜 Open-source под лицензией Apache 2.0

По сути, это шаг от “сгенерируй клип” к “смоделируй живой мир”, где сцены не рассыпаются через пару кадров.

📌Модель: modelscope.cn/models/Robbyant/lingbot-world-base-cam
📌GitHub: github.com/Robbyant/lingbot-world
🔥117👍4
Интересный кейс масштабирования ML в больших экосистемах.

Команда AI VK за год построила Discovery-платформу — инфраструктурную базу для рекомендаций, поиска и рекламы в десятках продуктов с многомиллионной аудиторией.

Какие результаты:
• цикл «гипотеза → эксперимент → вывод» ускорился в 5 раз
• запуск новой рекомендательной системы в продукте ~1 месяц
• лучшие ML-подходы перестали быть локальными

В итоге выигрывают все:
• инженеры — меньше рутины, рост ключевых метрик
• пользователи — более релевантный контент
• авторы — быстрее находят аудиторию

Подробный разбор архитектуры и компонентов платформы — в большом материале от AI VK на Хабре.
👍63
🎙️🚀 Qwen3-ASR и Qwen3-ForcedAligner- open source ASR модели

Мощный, стриминговый speech AI продакшн-уровня для 52 языков и диалектов.

ASR-1.7B - флагманская open-source модель распознавания речи. По качеству конкурирует с очень сильными решениями и обходит многие популярные open-модели прошлого поколения.

ASR-0.6B - компактная и очень быстрая версия.Cтавка на эффективность и низкую задержку, подходит для real-time сценариев.

ForcedAligner-0.6B - модель для точного сопоставления текста и аудио. Дает аккуратные таймкоды на уровне слов и фраз для 11 языков.

Целый открытый стек для разработчиков. Все это можно встраивать в свои системы без закрытых зависимостей.

Лицензия Apache 2.0 - можно использовать в коммерческих продуктах.

GitHub: https://github.com/QwenLM/Qwen3-ASR
Hugging Face: https://huggingface.co/collections/Qwen/qwen3-asr
ModelScope: https://modelscope.cn/collections/Qwen/Qwen3-ASR
Hugging Face Demo: https://huggingface.co/spaces/Qwen/Qwen3-ASR
ModelScope Demo: https://modelscope.cn/studios/Qwen/Qwen3-ASR
Blog: https://qwen.ai/blog?id=qwen3asr
Paper: https://github.com/QwenLM/Qwen3-ASR/blob/main/assets/Qwen3_ASR.pdf
👍102🔥1👌1🥱1
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
✔️ Deepmind раскатывет Project Genie.

Экспериментальный прототип Project Genie стал доступным для американских подписчиков тарифа Gemini Ultra. Проект построен на модели мира Genie 3 и может генерировать игровые 2D/3D-окружения по текстовым описаниям или референсным изображений, а затем свободно перемещаться по ним в реальном времени.

На старте доступны функции создания, исследования и модификации локаций. Генерация мира происходит процедурно прямо в процессе взаимодействия.

Длительность сессии - до 60 секунд, есть задержки отклика и визуальные артефакты. Под капотом - Nano Banana Pro и Gemini.
blog.google

✔️ DeepSeek будет делать ИИ-поисковик и платформу автономных агентов.

Китайский стартап открыл массовый наем специалистов для создания поисковой системы. Судя по описаниям вакансий, DeepSeek строит мультимодальный движок, который будет обрабатывать запросы через текст, изображения и аудио на разных языках.

Вторым вектором хантинга стали автономные агенты. Компания ищет инженеров для создания инфраструктуры постоянно работающих ИИ-помощников, способных решать задачи с минимальным вмешательством человека.

Конечной целью в описании позиций компания называет создание AGI.
bloomberg.com

✔️ Ai2 выложил открытых кодинг-агентов SERA.

Институт Аллена представил семейство открытых ИИ-агентов SERA, оптимизированных для работы с реальными кодовыми базами. Флагманская модель SERA-32B успешно решает более 55% задач в SWE-Bench Verified, опережая Qwen3-Coder и проприетарный Devstral Small 2. Младшая версия на 8 млрд. параметров - 29,4%, это тоже выглядит бодро для сопоставимой весовой категории.

Самое крутое здесь — это ценник. Инженеры научились тренировать агентов всего за $400, что примерно в 100 раз дешевле привычных методов. Секрет такой экономии в использовании синтетических данных.

Ai2 выкатили в опенсорс вообще все, включая скрипты для интеграции с Claude Code. Теперь, чтобы поднять собственного ИИ-разработчика, достаточно прописать буквально пару строчек кода..
allenai.org

✔️ Nvidia открыла стек ИИ-моделей для прогноза погоды.

Чипмэйкер опубликовал семейство открытых моделей и библиотек Earth-2, которое заменяет тяжелые физические симуляции нейросетями. Earth-2 генерирует метеопрогнозы на порядки быстрее и дешевле традиционных численных методов NWP.

В релиз вошли 3 архитектуры: Medium Range дает глобальный прогноз на 15 дней вперед по 70+ параметрам, генеративная система Nowcasting следит за штормами здесь и сейчас с окном прогноза до 6 часов и разрешением в километр и третий модуль, Global Data Assimilation, сокращает время расчета начальных атмосферных условий с часов до секунд.

Первые две уже доступны на GitHub и Hugging Face, а выход модуля ассимиляции данных запланирован на 2026 год.
nvidia.com

✔️ Google вывела фреймворк LiteRT в релиз.

Google официально отправила LiteRT (тот самый TensorFlow Lite) в стабильный продакшн. Разработчики наконец-то получили нормальный, унифицированный доступ к NPU от Qualcomm и MediaTek. Плюс ко всему, новый движок ML Drift на GPU обгоняет классический TFLite в среднем в 1,5 раза.

Результаты бенчмарков на Samsung S25 Ultra выглядят почти нереально: на Gemma 3 LiteRT умудрился обойти llama.cpp в 3 раза на процессоре и в 19 раз на GPU (в prefill).

Если вы раньше страдали при переносе моделей, хорошая новость: теперь есть прямая конвертация из PyTorch и JAX. При этом старые наработки не сломали: формат .tflite поддерживается, но Google рекомендует использовать новый API CompiledModel.
developers.googleblog.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
8🔥6👍2
🗣 Обновился Step-Audio-EditX- инструмент для редактирования и управления речью с помощью ИИ, и апдейт получился очень мощным.

Что прокачали:

Эмоции и стиль речи
Сильно выросла точность передачи эмоций и стилистики. Речь звучит естественнее и ближе к живому человеку, а не к синтезатору.

Более "живая" речь
Добавлены новые паралингвистические теги — модель лучше передает нюансы интонации, акцентов, выразительности и характера речи.

Контроль темпа
Появилось более плавное и точное управление скоростью речи без потери естественного звучания.

Для разработчиков тоже много полезного:

Открыт тренировочный код
Доступны пайплайны для SFT, DPO и GRPO. Можно дообучать модель под свои данные и конкретные задачи.

Высокая эффективность
Инференс и обучение оптимизированы, используется vLLM для быстрого запуска, батчинга и масштабирования.

По сути, это уже не просто TTS, а инструмент тонкой правки и стилизации речи. Отлично подходит для озвучки, дубляжа, подкастов, голосовых ассистентов и любых продуктов, где важна естественная и управляемая речь.

GitHub: https://github.com/stepfun-ai/Step-Audio-EditX/tree/main
Demo page: https://stepaudiollm.github.io/step-audio-editx
Live Demo: https://stepfun.com/studio/audio?tab=edit
Huggingface: https://huggingface.co/spaces/stepfun-ai/Step-Audio-EditX
5🔥4👍3
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Опытный Сеньор демонстрирует Джунам, как писать код, когда AI-агент не работает:
🤣47👍155🔥4💯2😁1
Wunder Fund снова открыл соревнование для нейросетевичков.
Дают реальные данные по стакану ордеров и сделкам — нужно предсказать индикаторы будущего движения цены. По сути, та же задача, которую решают кванты фонда каждый день. Редкий шанс поработать с живыми HFT-данными.

Призы — 1.000.000+ рублей. Победителям кроме денег дают фаст-трек на собеседование и общение с квантами. Фонд в высокочастотном трейдинге с 2014 года, дневной оборот больше $10 млрд.
Соревка идёт до 1 марта. (ссылка за заблоченым в рф cloudflare)
👍3🔥3🤣31
✔️ GrantFlow - open-source платформа для написания грантов с AI

На GitHub появился GrantFlow - исходники платформы GrantFlow.ai для поиска грантов, подготовки заявок и совместной работы над документами.

Что внутри:
- Intelligent Grant Discovery - мониторинг грантов и уведомления по релевантным возможностям
- Collaborative Planning - совместное редактирование в реальном времени (CRDT-синхронизация)
- AI-powered generation - генерация материалов с помощью RAG (подтягивает знания из вашей базы)
- Document processing - извлечение контента из PDF/DOC/веб-страниц + семантическая индексация
- Multi-tenant / RBAC - управление организациями, ролями и доступами

Короче: это попытка собрать “Notion + RAG + генератор заявок” специально под грантовые заявки.

Repo: github.com/grantflow-ai/grantflow
Please open Telegram to view this post
VIEW IN TELEGRAM
5😁3🔥2👍1😍1