Media is too big
VIEW IN TELEGRAM
📌 Tencent выкатили HunyuanImage 3.0-Instruct- нативную мультимодальную модель, заточенную под точное редактирование изображений.
И это уже не просто генератор картинок.
Это модель, которая сначала понимает изображение, потом думает, и только потом рисует.
Архитектура серьёзная:
80B параметров MoE (13B активных) - баланс между мощностью и эффективностью.
Глубокое понимание + фотореалистичная генерация в одной системе.
🧠 Модель "с мышлением"
Она не просто выполняет команды.
Внутри используется нативный Chain-of-Thought и алгоритм MixGRPO - модель реально "прокручивает" инструкцию перед генерацией.
Это даёт:
- точное следование намерению пользователя
- согласованность с человеческими предпочтениями
- меньше странных артефактов и нелогичных решений
🎨 Точное редактирование и фьюжн изображений
Вот где начинается магия:
- добавление объектов
- удаление элементов
- изменение деталей
- при этом всё остальное остаётся нетронутым
Плюс продвинутый multi-image fusion - модель может брать элементы из нескольких изображений и собирать единую сцену так, будто она всегда так и выглядела.
🏆 SOTA по качеству
По качеству и точности выполнения инструкций модель выходит на уровень ведущих закрытых решений.
Tencent явно нацелены не просто на демку, а на создание экосистемы вокруг foundation-модели для image generation.
💻 Попробовать можно тут:
https://hunyuan.tencent.com/chat/HunyuanDefault?from=modelSquare&modelId=Hunyuan-Image-3.0-Instruct
И это уже не просто генератор картинок.
Это модель, которая сначала понимает изображение, потом думает, и только потом рисует.
Архитектура серьёзная:
80B параметров MoE (13B активных) - баланс между мощностью и эффективностью.
Глубокое понимание + фотореалистичная генерация в одной системе.
🧠 Модель "с мышлением"
Она не просто выполняет команды.
Внутри используется нативный Chain-of-Thought и алгоритм MixGRPO - модель реально "прокручивает" инструкцию перед генерацией.
Это даёт:
- точное следование намерению пользователя
- согласованность с человеческими предпочтениями
- меньше странных артефактов и нелогичных решений
🎨 Точное редактирование и фьюжн изображений
Вот где начинается магия:
- добавление объектов
- удаление элементов
- изменение деталей
- при этом всё остальное остаётся нетронутым
Плюс продвинутый multi-image fusion - модель может брать элементы из нескольких изображений и собирать единую сцену так, будто она всегда так и выглядела.
🏆 SOTA по качеству
По качеству и точности выполнения инструкций модель выходит на уровень ведущих закрытых решений.
Tencent явно нацелены не просто на демку, а на создание экосистемы вокруг foundation-модели для image generation.
💻 Попробовать можно тут:
https://hunyuan.tencent.com/chat/HunyuanDefault?from=modelSquare&modelId=Hunyuan-Image-3.0-Instruct
❤12👍7🔥3
Forwarded from Machinelearning
Пока
В течении часа глава OpenAI отвечал на вопросы и рассказывал про видение ИИ сейчас и в будущем. Главный тезис стрима:
Мы входим в эпоху "радикального изобилия", где интеллект станет слишком дешевым, чтобы его измерять.
Сэм Альтман прогнозирует, что к 2027 году стоимость инференса упадет в 100 раз, а модели уровня GPT-5.ХX станут основой для создания сложнейшего софта силами одного человека.
Основным дефицитным ресурсом останется человеческое внимание и способность генерировать качественные идеи.
Ключевые моменты трансляции
Удешевление создания кода не снизит спрос на программистов, а наоборот, резко увеличит объем создаваемого софта. Инженеры будут тратить меньше времени на код и больше на проектирование.
ИИ станет дефляционным фактором. Софт, на разработку которого раньше уходили годы работы команд, теперь можно создать за пару сотен долларов инференса и одну хорошую идею.
Значительная часть мирового ВВП будет создаваться и потребляться через софт, генерируемый ИИ.
Цель — сделать интеллект "too cheap to meter". К концу 2027 года ожидается появление моделей уровня 5.2X со снижением стоимости в 100 раз.
Скорость важнее цены. Разрабатываются методы выдачи результата в 1/100 времени от текущего, даже если это будет стоить дороже.
В GPT-4.5 был упор на текстовый стиль. В GPT-5 команда сместила фокус на "ризонинг, кодинг и инжиниринг". Альтман признает, что сейчас стиль может казаться громоздким, но это исправят в будущих итерациях.
Будущее за приложениями, которые пишутся на лету под конкретного пользователя, т.е софт, который эволюционирует вместе с вашими привычками.
Готовится функция «Sign in with ChatGPT», которая позволит передавать ИИ контекст всей цифровой жизни пользователя (почта, файлы, история), чтобы он мог действовать как полноценный ассистент.
Обсуждается создание иерархии памяти: рабочая идентичность, личная и т.д., чтобы модель знала, какой контекст использовать в разных ситуациях.
Модели становятся слишком хороши в биологии. Старая стратегия блокировки доступа скоро перестанет работать. Нужен переход к стратегии устойчивости, как в пожарной безопасности.
Альтман признался, что сам быстро перешел от "никогда не дам ИИ доступ к компьютеру" до "пусть делает всё сам", потому что удобство перевешивает страх. Это создает риск скрытых уязвимостей, которые могут проявиться через недели работы агента.
Стройте продукты, предполагая, что GPT-6 будет «невероятным». Если ваш бизнес выиграет от новой модели - вы на верном пути. Если модель его съест - это плохой путь.
Софт-скилс - самые важные навыки сейчас: высокая субъектность, способность генерировать идеи, устойчивость и адаптивность.
Альтман советует амбициозным разработчикам ИИ уходить из университетов, так как текущая академическая среда не успевает за темпами индустрии.
Используйте ИИ как безлимитного аспиранта или партнера по брейн-шторму для проверки тысяч идей в режиме "поиска в ширину".
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤13👍5🔥4🌚2🤣1
🚀 DeepPlanning - новый бенчмарк о QWEN для проверки долгосрочного агентного планирования в задачах, приближенных к реальности.
Это уже не игрушечные step-by-step задачки. Здесь важно, чтобы весь план целиком удовлетворял жестким глобальным ограничениям:
⏱ Временные лимиты
💰 Ограничения по бюджету
🧩 Комбинаторная оптимизация на уровне всего решения
Примеры задач:
✈️ Многодневные путешествия с расписанием по минутам + строгие лимиты по времени и деньгам
🛒 Сложные покупки с комбинированием купонов, наборами товаров и оптимизацией выгоды
🧠 Требуется активный сбор информации, локальное соблюдение ограничений и глобальная оптимальность плана
И вот где становится особенно интересно - даже топовые модели вроде GPT-5.2, Claude 4.5, Gemini и Qwen3 здесь заметно проседают.
Этот бенчмарк отлично показывает реальный уровень:
- Agent Planning
- Tool Use
- Long-Horizon Reasoning
То есть то, что действительно нужно автономным агентам, а не просто чат-ответам.
Paper: https://arxiv.org/pdf/2601.18137
Leaderboard: https://qwenlm.github.io/Qwen-Agent/en/benchmarks/deepplanning/
Hugging Face Dataset: https://huggingface.co/datasets/Qwen/DeepPlanning
ModelScope Dataset: https://modelscope.cn/datasets/Qwen/DeepPlanning
@data_analysis_ml
Это уже не игрушечные step-by-step задачки. Здесь важно, чтобы весь план целиком удовлетворял жестким глобальным ограничениям:
⏱ Временные лимиты
💰 Ограничения по бюджету
🧩 Комбинаторная оптимизация на уровне всего решения
Примеры задач:
✈️ Многодневные путешествия с расписанием по минутам + строгие лимиты по времени и деньгам
🛒 Сложные покупки с комбинированием купонов, наборами товаров и оптимизацией выгоды
🧠 Требуется активный сбор информации, локальное соблюдение ограничений и глобальная оптимальность плана
И вот где становится особенно интересно - даже топовые модели вроде GPT-5.2, Claude 4.5, Gemini и Qwen3 здесь заметно проседают.
Этот бенчмарк отлично показывает реальный уровень:
- Agent Planning
- Tool Use
- Long-Horizon Reasoning
То есть то, что действительно нужно автономным агентам, а не просто чат-ответам.
Paper: https://arxiv.org/pdf/2601.18137
Leaderboard: https://qwenlm.github.io/Qwen-Agent/en/benchmarks/deepplanning/
Hugging Face Dataset: https://huggingface.co/datasets/Qwen/DeepPlanning
ModelScope Dataset: https://modelscope.cn/datasets/Qwen/DeepPlanning
@data_analysis_ml
❤12👍8🔥6
Media is too big
VIEW IN TELEGRAM
🌍 NVIDIA представила Earth-2 — открытую ИИ-платформу для прогнозирования погоды и климата
NVIDIA запустила Earth-2 — семейство открытых моделей и инструментов, которые делают ИИ-прогнозирование погоды доступным на всём пути: от обработки наблюдательных данных до глобальных и локальных прогнозов. Это первый полностью открытый, ускоренный стек погодного ИИ, объединяющий модели, библиотеки и инструменты в единую систему.
Что такое Earth-2
- Набор открытых моделей, фреймворков и библиотек для построения, запуска и дообучения погодных ИИ-моделей
- Предобученные модели + инструменты тонкой настройки
- Подходит не только для крупных метеослужб, но и для стартапов, научных команд и разработчиков
Ключевые модели
- Earth-2 Medium Range — прогнозы до ~15 дней по десяткам атмосферных параметров (температура, ветер, давление, влажность и др.)
- Earth-2 Nowcasting — краткосрочные прогнозы осадков и штормов на горизонте 0–6 часов с высоким разрешением
- Earth-2 Global Data Assimilation — ИИ-подход к генерации начальных условий атмосферы быстрее традиционных суперкомпьютерных методов
- В экосистеме также используются технологии вроде CorrDiff и FourCastNet для ускоренного и точного моделирования
Почему это важно
- Классические погодные модели требуют суперкомпьютеров и огромных затрат
- Earth-2 позволяет запускать мощное прогнозирование значительно быстрее и дешевле
- Открытая архитектура даёт возможность адаптировать систему под свои данные и задачи
- Это шаг к демократизации климатического ИИ — доступ к продвинутым прогнозам получают больше организаций по всему миру
🌦 Earth-2 может радикально изменить то, как мы прогнозируем экстремальные погодные явления, управляем рисками и моделируем климат, делая такие технологии массовыми, а не элитарными.
https://blogs.nvidia.com/blog/nvidia-earth-2-open-models/
NVIDIA запустила Earth-2 — семейство открытых моделей и инструментов, которые делают ИИ-прогнозирование погоды доступным на всём пути: от обработки наблюдательных данных до глобальных и локальных прогнозов. Это первый полностью открытый, ускоренный стек погодного ИИ, объединяющий модели, библиотеки и инструменты в единую систему.
Что такое Earth-2
- Набор открытых моделей, фреймворков и библиотек для построения, запуска и дообучения погодных ИИ-моделей
- Предобученные модели + инструменты тонкой настройки
- Подходит не только для крупных метеослужб, но и для стартапов, научных команд и разработчиков
Ключевые модели
- Earth-2 Medium Range — прогнозы до ~15 дней по десяткам атмосферных параметров (температура, ветер, давление, влажность и др.)
- Earth-2 Nowcasting — краткосрочные прогнозы осадков и штормов на горизонте 0–6 часов с высоким разрешением
- Earth-2 Global Data Assimilation — ИИ-подход к генерации начальных условий атмосферы быстрее традиционных суперкомпьютерных методов
- В экосистеме также используются технологии вроде CorrDiff и FourCastNet для ускоренного и точного моделирования
Почему это важно
- Классические погодные модели требуют суперкомпьютеров и огромных затрат
- Earth-2 позволяет запускать мощное прогнозирование значительно быстрее и дешевле
- Открытая архитектура даёт возможность адаптировать систему под свои данные и задачи
- Это шаг к демократизации климатического ИИ — доступ к продвинутым прогнозам получают больше организаций по всему миру
🌦 Earth-2 может радикально изменить то, как мы прогнозируем экстремальные погодные явления, управляем рисками и моделируем климат, делая такие технологии массовыми, а не элитарными.
https://blogs.nvidia.com/blog/nvidia-earth-2-open-models/
🔥10👍7❤6
HunyuanImage 3.0-Instruct теперь полностью open-source 🔥
Модель только что ворвалась в Tier-1 глобального рейтинга Image Edit от Arena и сейчас считается самой мощной open-source Image-to-Image моделью.
Фактически новый SOTA для всего комьюнити.
Что это значит на практике:
- Топовый уровень редактирования изображений по текстовым инструкциям
- Очень точное следование промптам в стиле "измени, но сохрани структуру"
- Сильный баланс между качеством, деталями и контролем результата
- Отличная база для своих инструментов, сервисов и ресёрча
Отдельно есть Distil-версия - легче, быстрее, удобнее для продакшена и ограниченных ресурсов.
▪GitHub: https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
▪Hugging Face: https://huggingface.co/tencent/HunyuanImage-3.0-Instruct
▪Hugging Face Distil: https://huggingface.co/tencent/HunyuanImage-3.0-Instruct-Distil
@data_analysis_ml
Модель только что ворвалась в Tier-1 глобального рейтинга Image Edit от Arena и сейчас считается самой мощной open-source Image-to-Image моделью.
Фактически новый SOTA для всего комьюнити.
Что это значит на практике:
- Топовый уровень редактирования изображений по текстовым инструкциям
- Очень точное следование промптам в стиле "измени, но сохрани структуру"
- Сильный баланс между качеством, деталями и контролем результата
- Отличная база для своих инструментов, сервисов и ресёрча
Отдельно есть Distil-версия - легче, быстрее, удобнее для продакшена и ограниченных ресурсов.
▪GitHub: https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
▪Hugging Face: https://huggingface.co/tencent/HunyuanImage-3.0-Instruct
▪Hugging Face Distil: https://huggingface.co/tencent/HunyuanImage-3.0-Instruct-Distil
@data_analysis_ml
🔥21❤9👍5🥰2
This media is not supported in your browser
VIEW IN TELEGRAM
LingBot-World - open-source симулятор мира, который двигает границы видео-генерации 🚀
Это уже не просто генерация роликов, а попытка моделировать целые сцены и миры с памятью и физической логикой.
🌍 Высокая детализация - реалистичный рендер
🧠 Долгосрочная память - консистентность сцен на уровне минут, а не секунд
⚡ Генерация почти в реальном времени - задержка меньше 1 секунды при 16 FPS
📜 Open-source под лицензией Apache 2.0
По сути, это шаг от “сгенерируй клип” к “смоделируй живой мир”, где сцены не рассыпаются через пару кадров.
📌Модель: modelscope.cn/models/Robbyant/lingbot-world-base-cam
📌GitHub: github.com/Robbyant/lingbot-world
Это уже не просто генерация роликов, а попытка моделировать целые сцены и миры с памятью и физической логикой.
🌍 Высокая детализация - реалистичный рендер
🧠 Долгосрочная память - консистентность сцен на уровне минут, а не секунд
⚡ Генерация почти в реальном времени - задержка меньше 1 секунды при 16 FPS
📜 Open-source под лицензией Apache 2.0
По сути, это шаг от “сгенерируй клип” к “смоделируй живой мир”, где сцены не рассыпаются через пару кадров.
📌Модель: modelscope.cn/models/Robbyant/lingbot-world-base-cam
📌GitHub: github.com/Robbyant/lingbot-world
🔥11❤7👍4
Интересный кейс масштабирования ML в больших экосистемах.
Команда AI VK за год построила Discovery-платформу — инфраструктурную базу для рекомендаций, поиска и рекламы в десятках продуктов с многомиллионной аудиторией.
Какие результаты:
• цикл «гипотеза → эксперимент → вывод» ускорился в 5 раз
• запуск новой рекомендательной системы в продукте ~1 месяц
• лучшие ML-подходы перестали быть локальными
В итоге выигрывают все:
• инженеры — меньше рутины, рост ключевых метрик
• пользователи — более релевантный контент
• авторы — быстрее находят аудиторию
Подробный разбор архитектуры и компонентов платформы — в большом материале от AI VK на Хабре.
Команда AI VK за год построила Discovery-платформу — инфраструктурную базу для рекомендаций, поиска и рекламы в десятках продуктов с многомиллионной аудиторией.
Какие результаты:
• цикл «гипотеза → эксперимент → вывод» ускорился в 5 раз
• запуск новой рекомендательной системы в продукте ~1 месяц
• лучшие ML-подходы перестали быть локальными
В итоге выигрывают все:
• инженеры — меньше рутины, рост ключевых метрик
• пользователи — более релевантный контент
• авторы — быстрее находят аудиторию
Подробный разбор архитектуры и компонентов платформы — в большом материале от AI VK на Хабре.
👍6❤3
🎙️🚀 Qwen3-ASR и Qwen3-ForcedAligner- open source ASR модели
Мощный, стриминговый speech AI продакшн-уровня для 52 языков и диалектов.
ASR-1.7B - флагманская open-source модель распознавания речи. По качеству конкурирует с очень сильными решениями и обходит многие популярные open-модели прошлого поколения.
ASR-0.6B - компактная и очень быстрая версия.Cтавка на эффективность и низкую задержку, подходит для real-time сценариев.
ForcedAligner-0.6B - модель для точного сопоставления текста и аудио. Дает аккуратные таймкоды на уровне слов и фраз для 11 языков.
Целый открытый стек для разработчиков. Все это можно встраивать в свои системы без закрытых зависимостей.
Лицензия Apache 2.0 - можно использовать в коммерческих продуктах.
GitHub: https://github.com/QwenLM/Qwen3-ASR
Hugging Face: https://huggingface.co/collections/Qwen/qwen3-asr
ModelScope: https://modelscope.cn/collections/Qwen/Qwen3-ASR
Hugging Face Demo: https://huggingface.co/spaces/Qwen/Qwen3-ASR
ModelScope Demo: https://modelscope.cn/studios/Qwen/Qwen3-ASR
Blog: https://qwen.ai/blog?id=qwen3asr
Paper: https://github.com/QwenLM/Qwen3-ASR/blob/main/assets/Qwen3_ASR.pdf
Мощный, стриминговый speech AI продакшн-уровня для 52 языков и диалектов.
ASR-1.7B - флагманская open-source модель распознавания речи. По качеству конкурирует с очень сильными решениями и обходит многие популярные open-модели прошлого поколения.
ASR-0.6B - компактная и очень быстрая версия.Cтавка на эффективность и низкую задержку, подходит для real-time сценариев.
ForcedAligner-0.6B - модель для точного сопоставления текста и аудио. Дает аккуратные таймкоды на уровне слов и фраз для 11 языков.
Целый открытый стек для разработчиков. Все это можно встраивать в свои системы без закрытых зависимостей.
Лицензия Apache 2.0 - можно использовать в коммерческих продуктах.
GitHub: https://github.com/QwenLM/Qwen3-ASR
Hugging Face: https://huggingface.co/collections/Qwen/qwen3-asr
ModelScope: https://modelscope.cn/collections/Qwen/Qwen3-ASR
Hugging Face Demo: https://huggingface.co/spaces/Qwen/Qwen3-ASR
ModelScope Demo: https://modelscope.cn/studios/Qwen/Qwen3-ASR
Blog: https://qwen.ai/blog?id=qwen3asr
Paper: https://github.com/QwenLM/Qwen3-ASR/blob/main/assets/Qwen3_ASR.pdf
👍10❤2🔥1👌1🥱1
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
Экспериментальный прототип Project Genie стал доступным для американских подписчиков тарифа Gemini Ultra. Проект построен на модели мира Genie 3 и может генерировать игровые 2D/3D-окружения по текстовым описаниям или референсным изображений, а затем свободно перемещаться по ним в реальном времени.
На старте доступны функции создания, исследования и модификации локаций. Генерация мира происходит процедурно прямо в процессе взаимодействия.
Длительность сессии - до 60 секунд, есть задержки отклика и визуальные артефакты. Под капотом - Nano Banana Pro и Gemini.
blog.google
Китайский стартап открыл массовый наем специалистов для создания поисковой системы. Судя по описаниям вакансий, DeepSeek строит мультимодальный движок, который будет обрабатывать запросы через текст, изображения и аудио на разных языках.
Вторым вектором хантинга стали автономные агенты. Компания ищет инженеров для создания инфраструктуры постоянно работающих ИИ-помощников, способных решать задачи с минимальным вмешательством человека.
Конечной целью в описании позиций компания называет создание AGI.
bloomberg.com
Институт Аллена представил семейство открытых ИИ-агентов SERA, оптимизированных для работы с реальными кодовыми базами. Флагманская модель SERA-32B успешно решает более 55% задач в SWE-Bench Verified, опережая Qwen3-Coder и проприетарный Devstral Small 2. Младшая версия на 8 млрд. параметров - 29,4%, это тоже выглядит бодро для сопоставимой весовой категории.
Самое крутое здесь — это ценник. Инженеры научились тренировать агентов всего за $400, что примерно в 100 раз дешевле привычных методов. Секрет такой экономии в использовании синтетических данных.
Ai2 выкатили в опенсорс вообще все, включая скрипты для интеграции с Claude Code. Теперь, чтобы поднять собственного ИИ-разработчика, достаточно прописать буквально пару строчек кода..
allenai.org
Чипмэйкер опубликовал семейство открытых моделей и библиотек Earth-2, которое заменяет тяжелые физические симуляции нейросетями. Earth-2 генерирует метеопрогнозы на порядки быстрее и дешевле традиционных численных методов NWP.
В релиз вошли 3 архитектуры: Medium Range дает глобальный прогноз на 15 дней вперед по 70+ параметрам, генеративная система Nowcasting следит за штормами здесь и сейчас с окном прогноза до 6 часов и разрешением в километр и третий модуль, Global Data Assimilation, сокращает время расчета начальных атмосферных условий с часов до секунд.
Первые две уже доступны на GitHub и Hugging Face, а выход модуля ассимиляции данных запланирован на 2026 год.
nvidia.com
Google официально отправила LiteRT (тот самый TensorFlow Lite) в стабильный продакшн. Разработчики наконец-то получили нормальный, унифицированный доступ к NPU от Qualcomm и MediaTek. Плюс ко всему, новый движок ML Drift на GPU обгоняет классический TFLite в среднем в 1,5 раза.
Результаты бенчмарков на Samsung S25 Ultra выглядят почти нереально: на Gemma 3 LiteRT умудрился обойти llama.cpp в 3 раза на процессоре и в 19 раз на GPU (в prefill).
Если вы раньше страдали при переносе моделей, хорошая новость: теперь есть прямая конвертация из PyTorch и JAX. При этом старые наработки не сломали: формат .tflite поддерживается, но Google рекомендует использовать новый API CompiledModel.
developers.googleblog.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8🔥6👍2
🗣 Обновился Step-Audio-EditX- инструмент для редактирования и управления речью с помощью ИИ, и апдейт получился очень мощным.
Что прокачали:
Эмоции и стиль речи
Сильно выросла точность передачи эмоций и стилистики. Речь звучит естественнее и ближе к живому человеку, а не к синтезатору.
Более "живая" речь
Добавлены новые паралингвистические теги — модель лучше передает нюансы интонации, акцентов, выразительности и характера речи.
Контроль темпа
Появилось более плавное и точное управление скоростью речи без потери естественного звучания.
Для разработчиков тоже много полезного:
Открыт тренировочный код
Доступны пайплайны для SFT, DPO и GRPO. Можно дообучать модель под свои данные и конкретные задачи.
Высокая эффективность
Инференс и обучение оптимизированы, используется vLLM для быстрого запуска, батчинга и масштабирования.
По сути, это уже не просто TTS, а инструмент тонкой правки и стилизации речи. Отлично подходит для озвучки, дубляжа, подкастов, голосовых ассистентов и любых продуктов, где важна естественная и управляемая речь.
GitHub: https://github.com/stepfun-ai/Step-Audio-EditX/tree/main
Demo page: https://stepaudiollm.github.io/step-audio-editx
Live Demo: https://stepfun.com/studio/audio?tab=edit
Huggingface: https://huggingface.co/spaces/stepfun-ai/Step-Audio-EditX
Что прокачали:
Эмоции и стиль речи
Сильно выросла точность передачи эмоций и стилистики. Речь звучит естественнее и ближе к живому человеку, а не к синтезатору.
Более "живая" речь
Добавлены новые паралингвистические теги — модель лучше передает нюансы интонации, акцентов, выразительности и характера речи.
Контроль темпа
Появилось более плавное и точное управление скоростью речи без потери естественного звучания.
Для разработчиков тоже много полезного:
Открыт тренировочный код
Доступны пайплайны для SFT, DPO и GRPO. Можно дообучать модель под свои данные и конкретные задачи.
Высокая эффективность
Инференс и обучение оптимизированы, используется vLLM для быстрого запуска, батчинга и масштабирования.
По сути, это уже не просто TTS, а инструмент тонкой правки и стилизации речи. Отлично подходит для озвучки, дубляжа, подкастов, голосовых ассистентов и любых продуктов, где важна естественная и управляемая речь.
GitHub: https://github.com/stepfun-ai/Step-Audio-EditX/tree/main
Demo page: https://stepaudiollm.github.io/step-audio-editx
Live Demo: https://stepfun.com/studio/audio?tab=edit
Huggingface: https://huggingface.co/spaces/stepfun-ai/Step-Audio-EditX
❤5🔥4👍3
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Опытный Сеньор демонстрирует Джунам, как писать код, когда AI-агент не работает:
🤣47👍15❤5🔥4💯2😁1
Wunder Fund снова открыл соревнование для нейросетевичков.
Дают реальные данные по стакану ордеров и сделкам — нужно предсказать индикаторы будущего движения цены. По сути, та же задача, которую решают кванты фонда каждый день. Редкий шанс поработать с живыми HFT-данными.
Призы — 1.000.000+ рублей. Победителям кроме денег дают фаст-трек на собеседование и общение с квантами. Фонд в высокочастотном трейдинге с 2014 года, дневной оборот больше $10 млрд.
Соревка идёт до 1 марта. (ссылка за заблоченым в рф cloudflare)
Дают реальные данные по стакану ордеров и сделкам — нужно предсказать индикаторы будущего движения цены. По сути, та же задача, которую решают кванты фонда каждый день. Редкий шанс поработать с живыми HFT-данными.
Призы — 1.000.000+ рублей. Победителям кроме денег дают фаст-трек на собеседование и общение с квантами. Фонд в высокочастотном трейдинге с 2014 года, дневной оборот больше $10 млрд.
Соревка идёт до 1 марта. (ссылка за заблоченым в рф cloudflare)
👍3🔥3🤣3❤1
На GitHub появился GrantFlow - исходники платформы GrantFlow.ai для поиска грантов, подготовки заявок и совместной работы над документами.
Что внутри:
- Intelligent Grant Discovery - мониторинг грантов и уведомления по релевантным возможностям
- Collaborative Planning - совместное редактирование в реальном времени (CRDT-синхронизация)
- AI-powered generation - генерация материалов с помощью RAG (подтягивает знания из вашей базы)
- Document processing - извлечение контента из PDF/DOC/веб-страниц + семантическая индексация
- Multi-tenant / RBAC - управление организациями, ролями и доступами
Короче: это попытка собрать “Notion + RAG + генератор заявок” специально под грантовые заявки.
Repo: github.com/grantflow-ai/grantflow
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5😁3🔥2👍1😍1