Forwarded from Нейронавт | Нейросети в творчестве
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Magic 1-For-1: Generating One Minute Video Clips within One Minute
Новый опенсорсный китайский видеогенератор
Чего-то там наоптимизировали чтобы минутный ролик создавался за одну минуту в несколько шагов
Ест 30GB VRAM для 540x960
Веса будут на днях
Код
#text2video #image2video
Новый опенсорсный китайский видеогенератор
Чего-то там наоптимизировали чтобы минутный ролик создавался за одну минуту в несколько шагов
Ест 30GB VRAM для 540x960
Веса будут на днях
Код
#text2video #image2video
❤1
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Ух ты, Микрософт опенсорснул новую версию OmniParser V2. С коннекторами.
Нет, это не ответочка Operator-y и не агент для управления вашим компом.
Это улучшайзер первой части работы Оператора и ему подобных систем - сильно оптимизированное распознавание содержимого вашего экрана.
Так и пишут: OMNIPARSER, метод разбора скриншотов пользовательского интерфейса на структурированные элементы, который значительно повышает способность GPT-4V генерировать действия.
Более того, этот парсер-распознаватель экрана может быть пристегнут (опенсорс жеж) как плагин и к другим LLM.
И по этому поводу они также релизнули OmniTool: Control a Windows 11 VM with OmniParser + your vision model of choice. И вот это круто ибо тул может работать с: OpenAI (4o/o1/o3-mini), DeepSeek (R1), Qwen (2.5VL) или Anthropic Computer Use
Интересно наблюдать за процессом "декомпозиции" мозгов LLM. Помните писал про Глубокую Клодку, что расщепление на рассуждающую и отвечающую часть, приводит к улучшению качества ответов. Теперь можно отщепить "зрение" или воспринимающую часть. И комбинировать разные "восприниматоры" и "отвечаторы".
А "восприниматоры" тоже можно разделить по областям: распознаватели экрана, спортивных трансляций, жизни насекомых. Надеваем на LLM разные очки и ну улучшать качество ответов вижен-моделей и не только.
В общем мозги для ИИ сделали, пока заняться нервной системой.
Код и все дела тут:
https://microsoft.github.io/OmniParser/
@cgevent
Нет, это не ответочка Operator-y и не агент для управления вашим компом.
Это улучшайзер первой части работы Оператора и ему подобных систем - сильно оптимизированное распознавание содержимого вашего экрана.
Так и пишут: OMNIPARSER, метод разбора скриншотов пользовательского интерфейса на структурированные элементы, который значительно повышает способность GPT-4V генерировать действия.
Более того, этот парсер-распознаватель экрана может быть пристегнут (опенсорс жеж) как плагин и к другим LLM.
И по этому поводу они также релизнули OmniTool: Control a Windows 11 VM with OmniParser + your vision model of choice. И вот это круто ибо тул может работать с: OpenAI (4o/o1/o3-mini), DeepSeek (R1), Qwen (2.5VL) или Anthropic Computer Use
Интересно наблюдать за процессом "декомпозиции" мозгов LLM. Помните писал про Глубокую Клодку, что расщепление на рассуждающую и отвечающую часть, приводит к улучшению качества ответов. Теперь можно отщепить "зрение" или воспринимающую часть. И комбинировать разные "восприниматоры" и "отвечаторы".
А "восприниматоры" тоже можно разделить по областям: распознаватели экрана, спортивных трансляций, жизни насекомых. Надеваем на LLM разные очки и ну улучшать качество ответов вижен-моделей и не только.
В общем мозги для ИИ сделали, пока заняться нервной системой.
Код и все дела тут:
https://microsoft.github.io/OmniParser/
@cgevent
👍1
🌐 Погружайтесь в мир данных и ИИ вместе с The Data Economy! 📊🚀
Почему вам стоит присоединиться? 🤔
🔮 Ловите тренды будущего: узнавайте первыми о том, как инновации в области искусственного интеллекта трансформируют бизнес и общество.
💡Кейсы и лайфхаки: получайте советы и методики работы с ИИ от признанных экспертов.
🌍 Глобальные инсайты: обзоры и исследования со всего мира, показывающие, как лучшие компании используют ИИ и технологии для роста.
🎁 Бонусы для подписчиков: участники канала получают доступ к материалам с мероприятий, которые недоступны широкой аудитории.
🚀 Станьте частью сообщества The Data Economy получите максимум от ИИ!
@TheDataEconomy
Почему вам стоит присоединиться? 🤔
🔮 Ловите тренды будущего: узнавайте первыми о том, как инновации в области искусственного интеллекта трансформируют бизнес и общество.
💡Кейсы и лайфхаки: получайте советы и методики работы с ИИ от признанных экспертов.
🌍 Глобальные инсайты: обзоры и исследования со всего мира, показывающие, как лучшие компании используют ИИ и технологии для роста.
🎁 Бонусы для подписчиков: участники канала получают доступ к материалам с мероприятий, которые недоступны широкой аудитории.
🚀 Станьте частью сообщества The Data Economy получите максимум от ИИ!
@TheDataEconomy
Telegram
ИИ | Экономика данных
Лидерство на инновациях: Искусственный интеллект, деньги, экономика данных для бизнеса
от Анны Малиновской
Заказать исследование | обучение
Связь: @annamalino
от Анны Малиновской
Заказать исследование | обучение
Связь: @annamalino
👍2❤1👎1🔥1🤯1
Forwarded from Нейронавт | Нейросети в творчестве
This media is not supported in your browser
VIEW IN TELEGRAM
Step-Video-T2V
Новый опенсорсный китайский видеогенератор
30B параметров
544px992, 204кадров
80gb VRAM
Код
HF
Попробовать - вход по телефону. Мне по российскому телефону код пришел в телеграм
#text2video
Новый опенсорсный китайский видеогенератор
30B параметров
544px992, 204кадров
80gb VRAM
Код
HF
Попробовать - вход по телефону. Мне по российскому телефону код пришел в телеграм
#text2video
👎1
Forwarded from Нейронавт | Нейросети в творчестве
This media is not supported in your browser
VIEW IN TELEGRAM
SkyReels V1: Human-Centric Video Foundation Model
Генератор видео по тексту и по картинке на основе Hunyuan
Заточен на человеков в кадре, там под капотом помогает 3D реконструкция человеков
На 4090 должен вывозить 97 кадров 960px544
Гитхаб
Веса SkyReels-V1-Hunyuan-I2V
Веса SkyReels-V1-Hunyuan-T2V
Попробовать на офсайте - 50 стартовых кредитов должно хватить на 1 генерацию. Но не спешите гулять на все, у них там еще есть липсинк, генерация картинок, генераторы музыки, звуковых эффектов, речи, сценария по рассказу
Их канал на Youtube
#text2video #image2video #lipsync #text2movie #text2music #text2sound #text2sfx
Генератор видео по тексту и по картинке на основе Hunyuan
Заточен на человеков в кадре, там под капотом помогает 3D реконструкция человеков
На 4090 должен вывозить 97 кадров 960px544
Гитхаб
Веса SkyReels-V1-Hunyuan-I2V
Веса SkyReels-V1-Hunyuan-T2V
Попробовать на офсайте - 50 стартовых кредитов должно хватить на 1 генерацию. Но не спешите гулять на все, у них там еще есть липсинк, генерация картинок, генераторы музыки, звуковых эффектов, речи, сценария по рассказу
Их канал на Youtube
#text2video #image2video #lipsync #text2movie #text2music #text2sound #text2sfx
👍1👎1
Forwarded from Нейронавт | Нейросети в творчестве
This media is not supported in your browser
VIEW IN TELEGRAM
Video Model Studio (VMS)
Интерфейс Finetrainers на gradio для тренировки видео лор в несколько кликов
Поддерживаемые модели:
LTX-Video - протестировано на инстансе A100
HunyuanVideo - теоретически должно работать из коробки с достаточной вычислительной мощностью
Код
Демо - для работы демоспейс надо скопировать и видимо взять платный GPU
Бонус - альтернатива diffusion-pipe-ui
#lora #training #finetuning #GUI
Интерфейс Finetrainers на gradio для тренировки видео лор в несколько кликов
Поддерживаемые модели:
LTX-Video - протестировано на инстансе A100
HunyuanVideo - теоретически должно работать из коробки с достаточной вычислительной мощностью
Код
Демо - для работы демоспейс надо скопировать и видимо взять платный GPU
Бонус - альтернатива diffusion-pipe-ui
#lora #training #finetuning #GUI
👎2
Forwarded from Machinelearning
Он предназначенный для преобразования PDF-документов в персонализированный аудиоконтент с использованием технологий генеративного ИИ.
Ключевые компоненты:
- Инструмент преобразования PDF в Markdown: Извлекает содержимое из PDF-файлов и конвертирует его в формат Markdown для дальнейшей обработки.
- Сервис создания монологов или диалогов: Обрабатывает Markdown-контент, обогащая или структурируя его для создания естественного аудиоконтента.
- Сервис преобразования текста в речь (TTS): Преобразует обработанный контент в высококачественную речь.
Преимущества использования:
- Персонализация: Возможность адаптации решения под специфические потребности организации, включая брендинг, аналитику, реальное время перевода или интерфейс цифрового человека для повышения вовлеченности.
- Конфиденциальность: Решение соответствует требованиям конфиденциальности на всех этапах обработки данных.
- Гибкость: Модульная структура позволяет добавлять дополнительные функции, соответствующие потребностям пользователей.
- Микросервисы NVIDIA NIM используются для развертывания и масштабирования моделей на GPU.
- Модели Llama 3.1 применяются для обработки и генерации текста.
- Langchain используется для обработки и интеграции данных.
- Docling применяется для парсинга документов.
- ElevenLabs предоставляет сервисы преобразования текста в речь.
Лицензирование:
Использование моделей в этом проекте регулируется NVIDIA AI Foundation Models Community License.
▪ Github: https://github.com/NVIDIA-AI-Blueprints/pdf-to-podcast
▪Project: build.nvidia.com/nvidia/pdf-to-podcast
@ai_machinelearning_big_data
#nim #tts #pdftopodcast
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🔥1
Forwarded from Life2film
Еще один агент-инструмент для разработчиков и не только.
Goose https://block.github.io/goose/
Установить можно как десктоп-приложение, так и в терминал CLI.
Позволяет работать с помощью любой LLM доступной модели, например, даже локальной.
Умеет работать сразу из коробки с управлением компьютером, IDE JetBrains и т. п.
Самое главное преимущество — он работает с использованием нового протокола для агентов MCP - https://modelcontextprotocol.io/.
Это возможность подключить к вашему агенту более 1000 различных инструментов (базы данных, внешние сервисы) и даже легко написать свой сервис. И главное, вы можете поделиться этим инструментом, и любой другой агент сможет с ним работать… Это что-то вроде маркетплейса и SAAS децентрализованный.
Есть даже удобный каталог всех серверов и клиентов https://mcp.so/
И тут https://github.com/modelcontextprotocol/servers/
Старт этому протоколу дал Anthropic в конце ноября https://www.anthropic.com/news/model-context-protocol
Полетели!
Goose https://block.github.io/goose/
Установить можно как десктоп-приложение, так и в терминал CLI.
Позволяет работать с помощью любой LLM доступной модели, например, даже локальной.
Умеет работать сразу из коробки с управлением компьютером, IDE JetBrains и т. п.
Самое главное преимущество — он работает с использованием нового протокола для агентов MCP - https://modelcontextprotocol.io/.
Это возможность подключить к вашему агенту более 1000 различных инструментов (базы данных, внешние сервисы) и даже легко написать свой сервис. И главное, вы можете поделиться этим инструментом, и любой другой агент сможет с ним работать… Это что-то вроде маркетплейса и SAAS децентрализованный.
Есть даже удобный каталог всех серверов и клиентов https://mcp.so/
И тут https://github.com/modelcontextprotocol/servers/
Старт этому протоколу дал Anthropic в конце ноября https://www.anthropic.com/news/model-context-protocol
Полетели!
👍3👎1
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
🔥Google сделали Gemini Code Assist бесплатным.
🌐 Поддержка всех языков программирования в открытом доступе
💡 Окно контекста 128K токенов
https://blog.google/technology/developers/gemini-code-assist-free/
https://codeassist.google/products/individual
@ai_machinelearning_big_data
🌐 Поддержка всех языков программирования в открытом доступе
💡 Окно контекста 128K токенов
https://blog.google/technology/developers/gemini-code-assist-free/
https://codeassist.google/products/individual
@ai_machinelearning_big_data
❤4👍3🔥3🤔1
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Alibaba Wan 2.1 - новая SOTA опенсорс видео модель
Скорее всего это та самая загадочная модель, которая уже месяц доступна в Qwen Chat. На лидерборде VBench она занимает первое место, но там нет нескольких сильных конкурентов, вроде Veo 2 от гугла. Больше бенчей никаких нет, так что ждём полноценного техрепорта и тем временем вайбчекаем модель по генерациям). По ним, например, видно что модель очень хорошо генерирует текст, как на английском, так и на китайском, с чем другие модели справляются куда хуже.
Идёт в двух размерах — 1.3B и 14B и в нескольких разных вариантах для разных разрешений (поддерживаются 480p и 720p). Маленькой 1.3B модели нужно всего 8,2 гигабайта VRAM для запуска, а на генерацию видео уходит всего 4 минуты на 4090.
Большая моделька потребляет заметно больше — вплоть до 77 гигабайт. Но модели совсем не оптимизированные (замеры по памяти делали с fp32 моделями), так что есть много простора для оптимизации. Посмотрите на тот же Hunyuan, который при ~таком же количестве параметров неплохо запускается на консьюмерских видяхах. Умельцы за пару недель ещё оптимизируют эти модели, чтобы запускалось на каждом холодильнике.
Веса
Код
wanxai.com
@ai_newz
Скорее всего это та самая загадочная модель, которая уже месяц доступна в Qwen Chat. На лидерборде VBench она занимает первое место, но там нет нескольких сильных конкурентов, вроде Veo 2 от гугла. Больше бенчей никаких нет, так что ждём полноценного техрепорта и тем временем вайбчекаем модель по генерациям). По ним, например, видно что модель очень хорошо генерирует текст, как на английском, так и на китайском, с чем другие модели справляются куда хуже.
Идёт в двух размерах — 1.3B и 14B и в нескольких разных вариантах для разных разрешений (поддерживаются 480p и 720p). Маленькой 1.3B модели нужно всего 8,2 гигабайта VRAM для запуска, а на генерацию видео уходит всего 4 минуты на 4090.
Большая моделька потребляет заметно больше — вплоть до 77 гигабайт. Но модели совсем не оптимизированные (замеры по памяти делали с fp32 моделями), так что есть много простора для оптимизации. Посмотрите на тот же Hunyuan, который при ~таком же количестве параметров неплохо запускается на консьюмерских видяхах. Умельцы за пару недель ещё оптимизируют эти модели, чтобы запускалось на каждом холодильнике.
Веса
Код
wanxai.com
@ai_newz
🔥3👎2
Forwarded from Denis Sexy IT 🤖
Deep Research стал доступен всем платным пользователям (10 запросов в месяц если у вас Plus), поэтому ловите практические советы как лучше его использовать:
— Неважно какую модель вы выбрали в ChatGPT, у Deep Research своя модель во время поиска, он проигнорируют выбор модели (UI-костыли, привет)
— Указывайте на каком языке писать отчет и на каком языке искать материалы
— Попросите его «не дублировать одну и ту же мысль много раз в тексте, если она уже описана», по умолчанию он так делает
— Deep Research не умеет смотреть на картинки — не ожидайте от него исследований где что-то нужно визуально исследовать
— Просите научные источники если хотите максимально научный отчет на фактах, можете также указать год с которого искать релевантные данные
— Поставьте приложение 11 labs — каждый такой отчет, это примерно 30-40 минут прослушивания, идеально для поездок (встроенная в ChatGPT фича глючит с длинным текстом)
— Deep Research основан на рассуждающей модели, это значит что вам все еще нужно очень детально описать, что вы хотите видеть, что не хотите, что считается банальным — иначе получите поверхностный отчет
— Deep Research имеет доступ к написанию кода, то есть он может генерировать графики, таблицы и тп тд, и включать их в финальный отчет
— Можете подсказать ключевые слова на которых стоит сделать акцент, модель же ищет в интернете и там иногда много ненужного
— Deep Research поддерживает файлы (и ссылки), можете сказать ему что в них смотреть, он может их сделать как частью контекста отчета, так и построить поиск на основе файлов (но из-за UI костылей OpenAI, сначала нужно выбрать 4o или любую модель, что поддерживает файлы на входе)
— Это все еще нейрока — ответы могут содержать ошибки и требует верификации человеком, например в тестах видел как модель делала отчет на основе картинок ПО НАЗВАНИЯМ картинок, bruh
— Это все еще лучший автономный ресечер что у нас есть, никто не может конкурировать — и Perplexity, и Google
— Deep Research не умеет смотреть за пейволл, такие статьи нужно прикладывать самим к чату
И напоследок, когда использовать Deep Research:
Когда вы начинаете исследовать какую-то тему — это быстрый и легкий способ погрузиться во что-то, дальше вы можете строить свое исследование на базе знаний из прошлых отчетов, углубляясь в тему с каждым запросом все глубже — от бизнеса до науки, пока не нашел сферу где нельзя было бы применить такой инструмент
— Неважно какую модель вы выбрали в ChatGPT, у Deep Research своя модель во время поиска, он проигнорируют выбор модели (UI-костыли, привет)
— Указывайте на каком языке писать отчет и на каком языке искать материалы
— Попросите его «не дублировать одну и ту же мысль много раз в тексте, если она уже описана», по умолчанию он так делает
— Deep Research не умеет смотреть на картинки — не ожидайте от него исследований где что-то нужно визуально исследовать
— Просите научные источники если хотите максимально научный отчет на фактах, можете также указать год с которого искать релевантные данные
— Поставьте приложение 11 labs — каждый такой отчет, это примерно 30-40 минут прослушивания, идеально для поездок (встроенная в ChatGPT фича глючит с длинным текстом)
— Deep Research основан на рассуждающей модели, это значит что вам все еще нужно очень детально описать, что вы хотите видеть, что не хотите, что считается банальным — иначе получите поверхностный отчет
— Deep Research имеет доступ к написанию кода, то есть он может генерировать графики, таблицы и тп тд, и включать их в финальный отчет
— Можете подсказать ключевые слова на которых стоит сделать акцент, модель же ищет в интернете и там иногда много ненужного
— Deep Research поддерживает файлы (и ссылки), можете сказать ему что в них смотреть, он может их сделать как частью контекста отчета, так и построить поиск на основе файлов (но из-за UI костылей OpenAI, сначала нужно выбрать 4o или любую модель, что поддерживает файлы на входе)
— Это все еще нейрока — ответы могут содержать ошибки и требует верификации человеком, например в тестах видел как модель делала отчет на основе картинок ПО НАЗВАНИЯМ картинок, bruh
— Это все еще лучший автономный ресечер что у нас есть, никто не может конкурировать — и Perplexity, и Google
— Deep Research не умеет смотреть за пейволл, такие статьи нужно прикладывать самим к чату
И напоследок, когда использовать Deep Research:
Когда вы начинаете исследовать какую-то тему — это быстрый и легкий способ погрузиться во что-то, дальше вы можете строить свое исследование на базе знаний из прошлых отчетов, углубляясь в тему с каждым запросом все глубже — от бизнеса до науки, пока не нашел сферу где нельзя было бы применить такой инструмент
Forwarded from ИИшница • Нейрожарница
This media is not supported in your browser
VIEW IN TELEGRAM
Это удобный сервис, который за секунды генерирует отчёты, по качеству сопоставимо с материалами Википедии. Автоматически вставляет точные ссылки на источники.
Полезы масса, не только исследователям и журналистам, но и всем, кто хочет быстро получить качественный и проверенный отчёт по интересующей теме.
Storm - пробуйте
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2👎2
Forwarded from Нейронавт | Нейросети в творчестве
CogView4-6B
Генератор картинок
Конкурент flux
Поддерживает очень длинный контекст, хорошо следует промпту
Выходное разрешение от 512 до 2048 пикселей с шагом 32
По потреблению памяти терпимо. Главный вопрос что с кастомизацией?
Гитхаб
Демо
#text2image
Генератор картинок
Конкурент flux
Поддерживает очень длинный контекст, хорошо следует промпту
Выходное разрешение от 512 до 2048 пикселей с шагом 32
По потреблению памяти терпимо. Главный вопрос что с кастомизацией?
Гитхаб
Демо
#text2image
👎2
Forwarded from Нейронавт | Нейросети в творчестве
This media is not supported in your browser
VIEW IN TELEGRAM
LTX-Video v0.9.5
Обновка видеогенератора
- Поддержка ключевых кадров и продолжения видео
- нативная поддержка в #ComfyUI
- Поддержка более высоких разрешений
- Улучшенное понимание промптов
- Улучшенный VAE
- Новое интерактивное веб-приложение в LTX-Studio
- Автоматическое улучшение промптов
Кому интересно, оно без цензуры
Гитхаб
ComfyUI
Попробовать на офсайте (притворитесь что вы не в России)
Обновка видеогенератора
- Поддержка ключевых кадров и продолжения видео
- нативная поддержка в #ComfyUI
- Поддержка более высоких разрешений
- Улучшенное понимание промптов
- Улучшенный VAE
- Новое интерактивное веб-приложение в LTX-Studio
- Автоматическое улучшение промптов
Кому интересно, оно без цензуры
Гитхаб
ComfyUI
Попробовать на офсайте (притворитесь что вы не в России)
👍1