Forwarded from Технологии | Нейросети | Боты
This media is not supported in your browser
VIEW IN TELEGRAM
Бесплатная бета-версия Zonos обещает мгновенное клонирование, безупречное качество и полный контроль над звучанием.
— Для этого нужно загрузить фрагмент длиной от 10 до 30 секунд или записать аудио.
— Есть настройка скорости речи, высоты тона, частоты и эмоций.
— Может скопировать голос с записи на русском языке, но пока не озвучивает русскоязычный текст.
• Попробовать
• Github
#neural #нейросети
@aiaiai
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Адель и МЛь
Сэм Альтман рассказал о дальнейших планах OpenAI.
Планируют выпустить GPT-4.5 (подтвердили, что это Orion) в ближайшие недели — это будет последняя “нелинейно размышляющая” (non-chain-of-thought) модель.
Затем последует GPT-5, которая объединит модели o-series и GPT-series, станет универсальнее. Будет доступна как в приложении, так и через API.
GPT-5 заменит o3, а сама o3 не будет выпускаться отдельно. Бесплатные пользователи ChatGPT получат доступ к GPT-5 (на стандартном уровне интеллекта). Plus-подписчики получат улучшенную версию GPT-5. Pro-подписчики получат ещё более мощную версию, включающую голос, canvas, поиск, deep research и другие функции (какие?).
GPT-4.5 – через несколько недель!
GPT-5 – через несколько месяцев!
Планируют выпустить GPT-4.5 (подтвердили, что это Orion) в ближайшие недели — это будет последняя “нелинейно размышляющая” (non-chain-of-thought) модель.
Затем последует GPT-5, которая объединит модели o-series и GPT-series, станет универсальнее. Будет доступна как в приложении, так и через API.
GPT-5 заменит o3, а сама o3 не будет выпускаться отдельно. Бесплатные пользователи ChatGPT получат доступ к GPT-5 (на стандартном уровне интеллекта). Plus-подписчики получат улучшенную версию GPT-5. Pro-подписчики получат ещё более мощную версию, включающую голос, canvas, поиск, deep research и другие функции (какие?).
GPT-4.5 – через несколько недель!
GPT-5 – через несколько месяцев!
X (formerly Twitter)
Sam Altman (@sama) on X
OPENAI ROADMAP UPDATE FOR GPT-4.5 and GPT-5:
We want to do a better job of sharing our intended roadmap, and a much better job simplifying our product offerings.
We want AI to “just work” for you; we realize how complicated our model and product offerings…
We want to do a better job of sharing our intended roadmap, and a much better job simplifying our product offerings.
We want AI to “just work” for you; we realize how complicated our model and product offerings…
👍3👎1
Forwarded from Нейронавт | Нейросети в творчестве
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Forwarded from Нейронавт | Нейросети в творчестве
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Magic 1-For-1: Generating One Minute Video Clips within One Minute
Новый опенсорсный китайский видеогенератор
Чего-то там наоптимизировали чтобы минутный ролик создавался за одну минуту в несколько шагов
Ест 30GB VRAM для 540x960
Веса будут на днях
Код
#text2video #image2video
Новый опенсорсный китайский видеогенератор
Чего-то там наоптимизировали чтобы минутный ролик создавался за одну минуту в несколько шагов
Ест 30GB VRAM для 540x960
Веса будут на днях
Код
#text2video #image2video
❤1
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Ух ты, Микрософт опенсорснул новую версию OmniParser V2. С коннекторами.
Нет, это не ответочка Operator-y и не агент для управления вашим компом.
Это улучшайзер первой части работы Оператора и ему подобных систем - сильно оптимизированное распознавание содержимого вашего экрана.
Так и пишут: OMNIPARSER, метод разбора скриншотов пользовательского интерфейса на структурированные элементы, который значительно повышает способность GPT-4V генерировать действия.
Более того, этот парсер-распознаватель экрана может быть пристегнут (опенсорс жеж) как плагин и к другим LLM.
И по этому поводу они также релизнули OmniTool: Control a Windows 11 VM with OmniParser + your vision model of choice. И вот это круто ибо тул может работать с: OpenAI (4o/o1/o3-mini), DeepSeek (R1), Qwen (2.5VL) или Anthropic Computer Use
Интересно наблюдать за процессом "декомпозиции" мозгов LLM. Помните писал про Глубокую Клодку, что расщепление на рассуждающую и отвечающую часть, приводит к улучшению качества ответов. Теперь можно отщепить "зрение" или воспринимающую часть. И комбинировать разные "восприниматоры" и "отвечаторы".
А "восприниматоры" тоже можно разделить по областям: распознаватели экрана, спортивных трансляций, жизни насекомых. Надеваем на LLM разные очки и ну улучшать качество ответов вижен-моделей и не только.
В общем мозги для ИИ сделали, пока заняться нервной системой.
Код и все дела тут:
https://microsoft.github.io/OmniParser/
@cgevent
Нет, это не ответочка Operator-y и не агент для управления вашим компом.
Это улучшайзер первой части работы Оператора и ему подобных систем - сильно оптимизированное распознавание содержимого вашего экрана.
Так и пишут: OMNIPARSER, метод разбора скриншотов пользовательского интерфейса на структурированные элементы, который значительно повышает способность GPT-4V генерировать действия.
Более того, этот парсер-распознаватель экрана может быть пристегнут (опенсорс жеж) как плагин и к другим LLM.
И по этому поводу они также релизнули OmniTool: Control a Windows 11 VM with OmniParser + your vision model of choice. И вот это круто ибо тул может работать с: OpenAI (4o/o1/o3-mini), DeepSeek (R1), Qwen (2.5VL) или Anthropic Computer Use
Интересно наблюдать за процессом "декомпозиции" мозгов LLM. Помните писал про Глубокую Клодку, что расщепление на рассуждающую и отвечающую часть, приводит к улучшению качества ответов. Теперь можно отщепить "зрение" или воспринимающую часть. И комбинировать разные "восприниматоры" и "отвечаторы".
А "восприниматоры" тоже можно разделить по областям: распознаватели экрана, спортивных трансляций, жизни насекомых. Надеваем на LLM разные очки и ну улучшать качество ответов вижен-моделей и не только.
В общем мозги для ИИ сделали, пока заняться нервной системой.
Код и все дела тут:
https://microsoft.github.io/OmniParser/
@cgevent
👍1
🌐 Погружайтесь в мир данных и ИИ вместе с The Data Economy! 📊🚀
Почему вам стоит присоединиться? 🤔
🔮 Ловите тренды будущего: узнавайте первыми о том, как инновации в области искусственного интеллекта трансформируют бизнес и общество.
💡Кейсы и лайфхаки: получайте советы и методики работы с ИИ от признанных экспертов.
🌍 Глобальные инсайты: обзоры и исследования со всего мира, показывающие, как лучшие компании используют ИИ и технологии для роста.
🎁 Бонусы для подписчиков: участники канала получают доступ к материалам с мероприятий, которые недоступны широкой аудитории.
🚀 Станьте частью сообщества The Data Economy получите максимум от ИИ!
@TheDataEconomy
Почему вам стоит присоединиться? 🤔
🔮 Ловите тренды будущего: узнавайте первыми о том, как инновации в области искусственного интеллекта трансформируют бизнес и общество.
💡Кейсы и лайфхаки: получайте советы и методики работы с ИИ от признанных экспертов.
🌍 Глобальные инсайты: обзоры и исследования со всего мира, показывающие, как лучшие компании используют ИИ и технологии для роста.
🎁 Бонусы для подписчиков: участники канала получают доступ к материалам с мероприятий, которые недоступны широкой аудитории.
🚀 Станьте частью сообщества The Data Economy получите максимум от ИИ!
@TheDataEconomy
Telegram
ИИ | Экономика данных
Лидерство на инновациях: Искусственный интеллект, деньги, экономика данных для бизнеса
от Анны Малиновской
Заказать исследование | обучение
Связь: @annamalino
от Анны Малиновской
Заказать исследование | обучение
Связь: @annamalino
👍2❤1👎1🔥1🤯1
Forwarded from Нейронавт | Нейросети в творчестве
This media is not supported in your browser
VIEW IN TELEGRAM
Step-Video-T2V
Новый опенсорсный китайский видеогенератор
30B параметров
544px992, 204кадров
80gb VRAM
Код
HF
Попробовать - вход по телефону. Мне по российскому телефону код пришел в телеграм
#text2video
Новый опенсорсный китайский видеогенератор
30B параметров
544px992, 204кадров
80gb VRAM
Код
HF
Попробовать - вход по телефону. Мне по российскому телефону код пришел в телеграм
#text2video
👎1
Forwarded from Нейронавт | Нейросети в творчестве
This media is not supported in your browser
VIEW IN TELEGRAM
SkyReels V1: Human-Centric Video Foundation Model
Генератор видео по тексту и по картинке на основе Hunyuan
Заточен на человеков в кадре, там под капотом помогает 3D реконструкция человеков
На 4090 должен вывозить 97 кадров 960px544
Гитхаб
Веса SkyReels-V1-Hunyuan-I2V
Веса SkyReels-V1-Hunyuan-T2V
Попробовать на офсайте - 50 стартовых кредитов должно хватить на 1 генерацию. Но не спешите гулять на все, у них там еще есть липсинк, генерация картинок, генераторы музыки, звуковых эффектов, речи, сценария по рассказу
Их канал на Youtube
#text2video #image2video #lipsync #text2movie #text2music #text2sound #text2sfx
Генератор видео по тексту и по картинке на основе Hunyuan
Заточен на человеков в кадре, там под капотом помогает 3D реконструкция человеков
На 4090 должен вывозить 97 кадров 960px544
Гитхаб
Веса SkyReels-V1-Hunyuan-I2V
Веса SkyReels-V1-Hunyuan-T2V
Попробовать на офсайте - 50 стартовых кредитов должно хватить на 1 генерацию. Но не спешите гулять на все, у них там еще есть липсинк, генерация картинок, генераторы музыки, звуковых эффектов, речи, сценария по рассказу
Их канал на Youtube
#text2video #image2video #lipsync #text2movie #text2music #text2sound #text2sfx
👍1👎1
Forwarded from Нейронавт | Нейросети в творчестве
This media is not supported in your browser
VIEW IN TELEGRAM
Video Model Studio (VMS)
Интерфейс Finetrainers на gradio для тренировки видео лор в несколько кликов
Поддерживаемые модели:
LTX-Video - протестировано на инстансе A100
HunyuanVideo - теоретически должно работать из коробки с достаточной вычислительной мощностью
Код
Демо - для работы демоспейс надо скопировать и видимо взять платный GPU
Бонус - альтернатива diffusion-pipe-ui
#lora #training #finetuning #GUI
Интерфейс Finetrainers на gradio для тренировки видео лор в несколько кликов
Поддерживаемые модели:
LTX-Video - протестировано на инстансе A100
HunyuanVideo - теоретически должно работать из коробки с достаточной вычислительной мощностью
Код
Демо - для работы демоспейс надо скопировать и видимо взять платный GPU
Бонус - альтернатива diffusion-pipe-ui
#lora #training #finetuning #GUI
👎2