Big Data AI – Telegram
Big Data AI
17K subscribers
956 photos
123 videos
19 files
951 links
@haarrp - админ

Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям

@data_analysis_ml - анализ данных

@ai_machinelearning_big_data

@itchannels_telegram - важное для программиста

РКН: clck.ru/3Fmqxe
Download Telegram
🌍 DeepSeek захватывает рынки там, где западные AI-сервисы недоступны

Microsoft собрали оценку глобальной доли DeepSeek - и картина очень показательная.

В Северной Америке и Европе adoption остаётся низким.
Зато в регионах, где доступ к американским сервисам ограничен (или где зарубежные технологии стоят слишком дорого), DeepSeek резко набирает популярность:

- Китай
- Россия
- Иран
- Куба
- Беларусь
- страны Африки (там использование оценивают в 2-4 раза выше, чем в других регионах)

DeepSeek оказался идеальным продуктом для “недообслуженных” рынков:
- больше открытости
- ниже цена
- проще доступ
- лучше адаптация под локальные реалии

И главный вывод тут не про “кто сильнее по бенчмаркам”.
Глобальное распространение ИИ определяется не только качеством модели.

А ещё:
- доступностью
- стоимостью
- языком
- политическими и инфраструктурными ограничениями

Люди выбирают не “самый хайповый AI”, а тот, который реально работает в их стране и подходит по условиям.

microsoft.com/en-us/corporate-responsibility/topics/ai-economy-institute/reports/global-ai-adoption-2025/
6👍5😁2🤔2🔥1
🛡 Semantic Firewall - “семантический файрвол” для LLM

Появился интересный проект semantic_firewall от BlackVectorOps - идея простая и мощная:

Обычные фильтры работают по словам.
Атаки на LLM - по смыслу.

Поэтому нужен не “keyword blacklist”, а семантический слой защиты, который понимает:
- что пользователь *на самом деле* пытается сделать
- и не даёт модели поддаться на взлом / prompt injection

Что умеет модель:
ловить завуалированные запросы (когда вредное спрятано в мягких формулировках)
блокировать инъекции типа “игнорируй правила / действуй как…”
защищать tool-use (когда LLM пытаются заставить выполнить опасное действие)
давать policy-решение: разрешить / запретить / потребовать уточнение

LLM всё чаще подключают к реальным инструментам: API, файлы, базы, платежи, админки.

И в таком мире prompt injection = security bug.

Если строишь AI-бота, агентную систему или LLM-продукт - такие “семантические прокладки” скоро станут стандартом.

https://github.com/BlackVectorOps/semantic_firewall

#AI #LLM #Security #PromptInjection #Jailbreak
👍2🔥1🥰1
Forwarded from Machinelearning
🗣 Qwen3-TTS - мощный open-source релиз (voice design + клонирование голоса)

Qwen официально выпустили Qwen3-TTS и полностью открыли всю линейку моделей - Base / CustomVoice / VoiceDesign.

Что внутри:
- 5 моделей (0.6B и 1.8B классы)
- Free-form Voice Design - генерация/редаквтирование голоса по описанию
- Voice Cloning - клонирование голоса
- 10 языков
- 12Hz tokenizer - сильная компрессия аудио без сильной потери качества
- полная поддержка fine-tuning
- заявляют SOTA качество на ряде метрик

Раньше лучшие генераторы были в закрытых API, а теперь появляется полноценный open-source стек TTS, где можно:
- обучать под домен,
- делать кастомные голоса,
- и не зависеть от провайдера.


GitHub: https://github.com/QwenLM/Qwen3-TTS
Hugging Face: https://huggingface.co/collections/Qwen/qwen3-tts
Демо (HF): https://huggingface.co/spaces/Qwen/Qwen3-TTS
Блог: https://qwen.ai/blog?id=qwen3tts-0115
Paper: https://github.com/QwenLM/Qwen3-TTS/blob/main/assets/Qwen3_TTS.pdf

@ai_machinelearning_big_data

#AI #TTS #Qwen #OpenSource #SpeechAI
👍41
🔥 На stepik вышел курс, который учит Создавать настоящие AI-сервисы, а не просто запускать скрипты?

Этот практический курс по Python и FastAPI покажет, как собрать полноценное приложение с ИИ, базой данных, автогенерацией контента и Telegram-ботом.

Ты пройдёшь путь от первого HTTP-запроса до рабочего сервиса, который сам генерирует текст через ИИ, сохраняет данные, отправляет результаты по расписанию и отвечает пользователям.

Никакой теории ради теории - только практические шаги, из которых рождается реальный продукт.

🎁 48 часов действует скидка в 40% процентов

👉 Начать учиться на Stepik
🥔 ByteDance тестирует новую модель Doubao под кодовым именем “Giga-Potato”

ByteDance уже неделю гоняет свою новую модель Doubao в Kilo Code — там она проходит под названием “Giga-Potato”.

Что пишут в описании Kilo Code:

- На внутренних бенчмарках модель обгоняет почти все open-weight модели, которые тестировали, особенно на задачах кодинга с длинным контекстом
- Контекст: 256k токенов
- Максимальный вывод: 32k токенов
- Отдельно отмечают “строгую дисциплину” — модель отлично следует system prompt
(полезно для enterprise, где важны линтеры, стиль и единые правила кода)

Если это подтвердится в публичных тестах - Doubao может стать одной из самых сильных моделей ByteDance именно для long-context coding.

https://x.com/AiBattle_/status/2014361796279181388
3👍2🔥2
🚀 AgentCPM-Explore - 4B агент-модель, которая играет как тяжеловес

OpenBMB представили AgentCPM-Explore - foundation model на 4B параметров, но по возможностям она реально “пинает выше своей весовой категории”.

🔥 Что в релизе самое важное:

SOTA по агентным бенчмаркам
Модель обгоняет конкурентов на 8 long-horizon тестах (GAIA, HLE и др.).
Это уровень, который обычно ждёшь от куда более крупных моделей.

🧠 Deep Research режим
AgentCPM-Explore тянет 100+ раундов взаимодействия со средой:
- динамический поиск
- проверка фактов (cross-verification)
- адаптация стратегии по ходу решения
То есть это уже не “ответчик”, а автономный мини-исследователь.

🔓 Full-Stack Open Source
Самое вкусное: OpenBMB открывают не только веса модели, а весь стек под агентов:
- Model - сама модель
- AgentRL - обучение/тренировка агентов
- AgentDock - sandbox для инструментов (безопасное выполнение)
- AgentToLeaP - платформа оценки tool-learning

Итог:
маленькая модель - огромные возможности.
End-side агенты (на устройстве) только что получили мощнейший апгрейд.

🤖 Model: https://modelscope.ai/models/OpenBMB/AgentCPM-Explore
🔧 GitHub: https://github.com/OpenBMB/AgentCPM
👍3🔥1🥰1
🦾 Как Data Vault выглядит в реальном проекте, на живых данных и с современным стеком?

👩‍🎓 На открытом вебинаре разберём проектирование хранилища по методологии Data Vault 2.0 на датасете TPC-H с использованием dbt и Trino. Пошагово покажем, как подходить к моделированию, автоматизации и работе с распределёнными источниками данных без усложнения архитектуры. Вы увидите, как Data Vault решает задачи масштабируемости и прозрачности, как dbt помогает выстраивать повторяемые пайплайны и тестировать модели, а Trino — объединять данные из разных систем в едином слое доступа.

🚀 Вы поймёте, когда Data Vault оправдан и какие инструменты использовать, чтобы хранилище не превращалось в неподдерживаемую конструкцию. Это знание критично для инженеров и архитекторов, работающих с современными DWH.

📌 Встречаемся 9 февраля в 20:00 МСК в рамках старта курса «Data Engineer»: https://otus.pw/9qi4/?erid=2W5zFG9cPxU

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
🐙 OctoCodingBench - новый бенчмарк, который проверяет ГЛАВНОЕ в кодинг-агентах

Вышел OctoCodingBench - benchmark для оценки *instruction-following* у агентных моделей, которые пишут код.

Датасет:
https://huggingface.co/datasets/MiniMaxAI/OctoCodingBench

Чем он отличается от большинства бенчмарков
Обычно проверяют только одно:
“оно вообще работает?”
“тесты прошли?”

Но этого мало.

OctoCodingBench проверяет другое:
📌 соблюдает ли агент инструкции и ограничения, пока решает задачу.

Почему это важно
В реальности успех ≠ правильное поведение.

Модель может:
- написать код, который проходит тесты
- но проигнорировать требования
(безопасность, стиль, формат, лимиты, запреты, архитектуру)

И вот это уже опасно:
формально задача “выполнена”, но система становится misaligned - делает не то, что нужно бизнесу и продукту.

Главная мысль
High task success ≠ high instruction compliance.

Если ты строишь кодинг-агента - тебе важно не только “правильно”, но и послушно.
И OctoCodingBench наконец-то это измеряет.

https://huggingface.co/datasets/MiniMaxAI/OctoCodingBench
🔥2
Machine learning без путаницы

Когда только начинаешь разбираться в ML, часто возникает ощущение беспорядка — разрозненные материалы из разных источников затрудняют понимание ключевых требований, и в итоге непонятно, что на самом деле нужно учить и твое ли это направление.

Бесплатный демокурс «Погружение в machine learning» от karpovꓸcourses дает структурированное первое знакомство с профессией: погрузитесь в основы Python, разберете базовые ML-подходы, видят, как данные превращаются в модели и решения, и понимают, какие навыки действительно нужны для старта.

Доступ открывается сразу после регистрации, забирайте по ссылке: https://clc.to/erid_2W5zFJdNWfi

Реклама. ООО "КАРПОВ КУРСЫ". ИНН 7811764627. erid: 2W5zFJdNWfi
This media is not supported in your browser
VIEW IN TELEGRAM
✔️ «Суперинтеллект сможет сам заработать миллион долларов»

Юваль Ной Харари подчёркивает: дело не только в знаниях или скорости ИИ.

Настоящий рубеж наступает тогда, когда система способна самостоятельно взаимодействовать с реальным миром, а не просто отвечать на запросы.

Например:
— открыть банковский счёт
— управлять средствами
— принимать решения
— генерировать доход без постоянного участия человека

Вот здесь и происходит главный сдвиг —
ИИ перестаёт быть инструментом и становится агентом.

Это уже другой класс машинного интеллекта:
не «помощник по команде», а система, которая способна ставить подцели, действовать в среде и добиваться результатов сама.

Переход от tool → agent — один из самых фундаментальных технологических сдвигов нашего времени.
Please open Telegram to view this post
VIEW IN TELEGRAM
🙊5👍3
🚀 LiteRT - универсальная основа для AI прямо на устройстве

Google представил LiteRT — новый универсальный фреймворк для on-device AI, который развивается из TensorFlow Lite и становится базой для высокопроизводительного ML и генеративного AI на устройствах.

🔥 Что важно

До 1.4× быстрее GPU-ускорение
LiteRT показывает прирост производительности на GPU по сравнению с TensorFlow Lite, снижая задержку и улучшая отклик моделей.

🌐 Кроссплатформенность
Работает на Android, iOS, macOS, Windows, Linux и Web. Использует OpenCL, OpenGL, Metal и WebGPU через новый движок.

🤖 Поддержка NPU
Добавлено ускорение на нейропроцессорах с единым API, что упрощает разработку под разные чипы и повышает скорость инференса.

⚙️ Модели из PyTorch и JAX
Есть удобная конвертация моделей, что упрощает перенос современных AI-моделей на устройство.

📦 Open-source
Фреймворк открыт и подходит для продакшена — можно строить реальные on-device AI-приложения.

LiteRT позволяет запускать современные AI и GenAI модели прямо на устройстве — быстрее, с меньшей задержкой и лучшей приватностью, без постоянной зависимости от облака.

https://developers.googleblog.com/litert-the-universal-framework-for-on-device-ai/
3👍1🔥1