Generative Ai – Telegram
Generative Ai
3.63K subscribers
289 photos
117 videos
7 files
830 links
Анонсы интересных библиотек и принтов в сфере AI, Ml, CV для тех кто занимается DataScience, Generative Ai, LLM, LangChain, ChatGPT

По рекламе писать @miralinka,
Created by @life2film
Download Telegram
Forwarded from Технологии | Нейросети | Боты
This media is not supported in your browser
VIEW IN TELEGRAM
🗣 Стартап Zyphra выпустил модель для клонирования голоса.

Бесплатная бета-версия Zonos обещает мгновенное клонирование, безупречное качество и полный контроль над звучанием.

— Для этого нужно загрузить фрагмент длиной от 10 до 30 секунд или записать аудио.
— Есть настройка скорости речи, высоты тона, частоты и эмоций.
— Может скопировать голос с записи на русском языке, но пока не озвучивает русскоязычный текст.

• Попробовать
• Github

#neural #нейросети

@aiaiai
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Адель и МЛь
Сэм Альтман рассказал о дальнейших планах OpenAI.

Планируют выпустить GPT-4.5 (подтвердили, что это Orion) в ближайшие недели — это будет последняя “нелинейно размышляющая” (non-chain-of-thought) модель.

Затем последует GPT-5, которая объединит модели o-series и GPT-series, станет универсальнее. Будет доступна как в приложении, так и через API.

GPT-5 заменит o3, а сама o3 не будет выпускаться отдельно. Бесплатные пользователи ChatGPT получат доступ к GPT-5 (на стандартном уровне интеллекта). Plus-подписчики получат улучшенную версию GPT-5. Pro-подписчики получат ещё более мощную версию, включающую голос, canvas, поиск, deep research и другие функции (какие?).

GPT-4.5 – через несколько недель!
GPT-5 – через несколько месяцев!
👍3👎1
ComfyUI_PuLID_Flux_ll

Обновка ноды персонализатора для #Flux в #ComfyUI

#personalization
👍1
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Ух ты, Микрософт опенсорснул новую версию OmniParser V2. С коннекторами.

Нет, это не ответочка Operator-y и не агент для управления вашим компом.

Это улучшайзер первой части работы Оператора и ему подобных систем - сильно оптимизированное распознавание содержимого вашего экрана.

Так и пишут: OMNIPARSER, метод разбора скриншотов пользовательского интерфейса на структурированные элементы, который значительно повышает способность GPT-4V генерировать действия.

Более того, этот парсер-распознаватель экрана может быть пристегнут (опенсорс жеж) как плагин и к другим LLM.

И по этому поводу они также релизнули OmniTool: Control a Windows 11 VM with OmniParser + your vision model of choice. И вот это круто ибо тул может работать с: OpenAI (4o/o1/o3-mini), DeepSeek (R1), Qwen (2.5VL) или Anthropic Computer Use

Интересно наблюдать за процессом "декомпозиции" мозгов LLM. Помните писал про Глубокую Клодку, что расщепление на рассуждающую и отвечающую часть, приводит к улучшению качества ответов. Теперь можно отщепить "зрение" или воспринимающую часть. И комбинировать разные "восприниматоры" и "отвечаторы".

А "восприниматоры" тоже можно разделить по областям: распознаватели экрана, спортивных трансляций, жизни насекомых. Надеваем на LLM разные очки и ну улучшать качество ответов вижен-моделей и не только.

В общем мозги для ИИ сделали, пока заняться нервной системой.

Код и все дела тут:
https://microsoft.github.io/OmniParser/

@cgevent
👍1
🌐 Погружайтесь в мир данных и ИИ вместе с The Data Economy! 📊🚀

Почему вам стоит присоединиться? 🤔

🔮 Ловите тренды будущего: узнавайте первыми о том, как инновации в области искусственного интеллекта трансформируют бизнес и общество.

💡Кейсы и лайфхаки: получайте советы и методики работы с ИИ от признанных экспертов.

🌍 Глобальные инсайты: обзоры и исследования со всего мира, показывающие, как лучшие компании используют ИИ и технологии для роста.

🎁 Бонусы для подписчиков: участники канала получают доступ к материалам с мероприятий, которые недоступны широкой аудитории.

🚀 Станьте частью сообщества The Data Economy получите максимум от ИИ!

@TheDataEconomy
👍21👎1🔥1🤯1
This media is not supported in your browser
VIEW IN TELEGRAM
Step-Video-T2V

Новый опенсорсный китайский видеогенератор

30B параметров
544px992, 204кадров
80gb VRAM

Код
HF

Попробовать - вход по телефону. Мне по российскому телефону код пришел в телеграм

#text2video
👎1
This media is not supported in your browser
VIEW IN TELEGRAM
SkyReels V1: Human-Centric Video Foundation Model

Генератор видео по тексту и по картинке на основе Hunyuan

Заточен на человеков в кадре, там под капотом помогает 3D реконструкция человеков

На 4090 должен вывозить 97 кадров 960px544

Гитхаб
Веса SkyReels-V1-Hunyuan-I2V
Веса SkyReels-V1-Hunyuan-T2V

Попробовать на офсайте - 50 стартовых кредитов должно хватить на 1 генерацию. Но не спешите гулять на все, у них там еще есть липсинк, генерация картинок, генераторы музыки, звуковых эффектов, речи, сценария по рассказу

Их канал на Youtube

#text2video #image2video #lipsync #text2movie #text2music #text2sound #text2sfx
👍1👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Video Model Studio (VMS)

Интерфейс Finetrainers на gradio для тренировки видео лор в несколько кликов

Поддерживаемые модели:

LTX-Video - протестировано на инстансе A100
HunyuanVideo - теоретически должно работать из коробки с достаточной вычислительной мощностью

Код
Демо - для работы демоспейс надо скопировать и видимо взять платный GPU

Бонус - альтернатива diffusion-pipe-ui

#lora #training #finetuning #GUI
👎2