TAG: Tangential Amplifying Guidance for Hallucination-Resistant Diffusion Sampling
Метод улучшения работы диффузионных моделей и снижения количества галлюцинаций, направляет генерацию к наиболее вероятным областям.
Представляет собой адаптер, не требует дообучения.
Прикручено к SD1.5, SD2.1, SDXL, SD3
Демо
#optimization #plugin #text2image
Метод улучшения работы диффузионных моделей и снижения количества галлюцинаций, направляет генерацию к наиболее вероятным областям.
Представляет собой адаптер, не требует дообучения.
Прикручено к SD1.5, SD2.1, SDXL, SD3
Демо
#optimization #plugin #text2image
🔥6👍1
Нейронавт | Нейросети в творчестве
Paper2Video: Automatic Video Generation from Scientific Papers Генерация презентационных видео из научных статей Создает слайды, видео презентатора оживлятором портретов по речи, субтитры — и упаковывает все это в видео. В качестве примера автор создал…
AutoPR: Let's Automate Your Academic Promotion!
Эта модель переводит научные статьи в контент, оптимизированный под разные соцсети с учётом достоверности, соответствия и вовлечённости аудитории.
Извлекает контент из научных статей, синтезирует логичные нарративы и адаптирует материал под конкретную платформу
— применяет PRAgent — систему из трёх этапов, которая улучшает время просмотра и количество лайков
— оценивает посты по трём критериям: достоверность (точность и тон), вовлечённость (привлечение целевой аудитории) и соответствие (оптимизация под платформу и время публикации)
— показывает значительные улучшения: увеличение времени просмотра на 604 %, количества лайков на 438 % и общего уровня вовлечённости минимум в 2,9 раза
Гитхаб
Демо - не для лентяев, там надо вбить настройки API
#paper2text #pdf2text
Эта модель переводит научные статьи в контент, оптимизированный под разные соцсети с учётом достоверности, соответствия и вовлечённости аудитории.
Извлекает контент из научных статей, синтезирует логичные нарративы и адаптирует материал под конкретную платформу
— применяет PRAgent — систему из трёх этапов, которая улучшает время просмотра и количество лайков
— оценивает посты по трём критериям: достоверность (точность и тон), вовлечённость (привлечение целевой аудитории) и соответствие (оптимизация под платформу и время публикации)
— показывает значительные улучшения: увеличение времени просмотра на 604 %, количества лайков на 438 % и общего уровня вовлечённости минимум в 2,9 раза
Гитхаб
Демо - не для лентяев, там надо вбить настройки API
#paper2text #pdf2text
👍7❤1
Mamba 3
Я уже упоминал архитектуру Mamba. Первая версия была перспективная, теперь опубликована многообещающая папира по третьей версии. Возможно, вытеснит трансформеры.
Mamba-3 — новая архитектура моделей искусственного интеллекта, которая работает быстрее и эффективнее старых Transformer-моделей. Она использует другой подход: вместо внимания (attention) модель сохраняет и обновляет своё внутреннее состояние. Это позволяет ей лучше запоминать информацию и работать с длинными текстами, например, документами или музыкальными композициями.
Основные преимущества Mamba-3:
1. Скорость и стабильность: модель работает быстрее и лучше справляется с длинными текстами.
2. Параллельная обработка: Mamba-3 может обрабатывать несколько задач одновременно, что идеально для современных видеокарт.
3. Энергоэффективность: модель может работать на устройствах без подключения к облаку.
Mamba-3 подходит для задач, где важна скорость и точность: чат-боты, перевод, обработка речи и других.
#research #ML
Я уже упоминал архитектуру Mamba. Первая версия была перспективная, теперь опубликована многообещающая папира по третьей версии. Возможно, вытеснит трансформеры.
Mamba-3 — новая архитектура моделей искусственного интеллекта, которая работает быстрее и эффективнее старых Transformer-моделей. Она использует другой подход: вместо внимания (attention) модель сохраняет и обновляет своё внутреннее состояние. Это позволяет ей лучше запоминать информацию и работать с длинными текстами, например, документами или музыкальными композициями.
Основные преимущества Mamba-3:
1. Скорость и стабильность: модель работает быстрее и лучше справляется с длинными текстами.
2. Параллельная обработка: Mamba-3 может обрабатывать несколько задач одновременно, что идеально для современных видеокарт.
3. Энергоэффективность: модель может работать на устройствах без подключения к облаку.
Mamba-3 подходит для задач, где важна скорость и точность: чат-боты, перевод, обработка речи и других.
#research #ML
🔥7👍2
Ring-1T: Flow State Leads to Sudden Enlightenment
Языковая модель на 1T (триллион) параметров, из которых 50B активных
Пишет код, творческие тексты, используется в здравоохранении, решает задачи уровня математических олимпиад (IMO 2025), сохраняет контекст до 128 000 токенов, что вдвое больше предыдущей версии
HF
Есть FP8 версия
Демо
Чат
#assistant #reasoning #chat
Языковая модель на 1T (триллион) параметров, из которых 50B активных
Пишет код, творческие тексты, используется в здравоохранении, решает задачи уровня математических олимпиад (IMO 2025), сохраняет контекст до 128 000 токенов, что вдвое больше предыдущей версии
HF
Есть FP8 версия
Демо
Чат
#assistant #reasoning #chat
👍4
Нейронавт | Нейросети в творчестве
AutoPR: Let's Automate Your Academic Promotion! Эта модель переводит научные статьи в контент, оптимизированный под разные соцсети с учётом достоверности, соответствия и вовлечённости аудитории. Извлекает контент из научных статей, синтезирует логичные нарративы…
Paper2Agent: Reimagining Papers As AI Agents
А вот мультиагентная ИИ-система, которая преобразует научные статьи в интерактивных ИИ-агентов с минимальным участием человека.
На видео пример работы с AlphaGenome и TISSUE
Принцип работы:
1. Анализ текста и кода: Aper2Agent анализирует научную статью и её код (если он имеется), выделяет ключевые методы и разрабатывает инструменты внутри MCP-сервера.
2. Интеграция с чат-ботом: Сервер связывается с чат-агентом, например, Claude Code или ChatGPT.
Результат:
Каждая статья получает собственного ИИ-ассистента, который:
* излагает материал доступным языком;
* запускает код без необходимости искать репозитории, зависимости и API-ключи;
* интегрирует данные и процессы из различных исследований.
Компоненты MCP-сервера:
* Функциональные возможности: инструменты, такие как прогнозирование изменений экспрессии генов.
* Репозиторий: текст, код, наборы данных.
* Шаблоны: подсказки для выполнения пошаговых задач.
Гитхаб
#paper2code #text2code #mcp #agent #assistant
А вот мультиагентная ИИ-система, которая преобразует научные статьи в интерактивных ИИ-агентов с минимальным участием человека.
На видео пример работы с AlphaGenome и TISSUE
Принцип работы:
1. Анализ текста и кода: Aper2Agent анализирует научную статью и её код (если он имеется), выделяет ключевые методы и разрабатывает инструменты внутри MCP-сервера.
2. Интеграция с чат-ботом: Сервер связывается с чат-агентом, например, Claude Code или ChatGPT.
Результат:
Каждая статья получает собственного ИИ-ассистента, который:
* излагает материал доступным языком;
* запускает код без необходимости искать репозитории, зависимости и API-ключи;
* интегрирует данные и процессы из различных исследований.
Компоненты MCP-сервера:
* Функциональные возможности: инструменты, такие как прогнозирование изменений экспрессии генов.
* Репозиторий: текст, код, наборы данных.
* Шаблоны: подсказки для выполнения пошаговых задач.
Гитхаб
#paper2code #text2code #mcp #agent #assistant
👍4❤3
This media is not supported in your browser
VIEW IN TELEGRAM
Kontinuous Kontext: Continuous Strength Control for Instruction-based Image Editing
Контекстный редактор изображений от Snap Research с плавной (на самом деле не очень) регулировкой степени изменения изображения на базе Flux Kontext
На сайте можно интерактивно покрутить рульки
Код ждем
Демо ждем
Спасибо @m_franz
#imageediting
Контекстный редактор изображений от Snap Research с плавной (на самом деле не очень) регулировкой степени изменения изображения на базе Flux Kontext
На сайте можно интерактивно покрутить рульки
Код ждем
Демо ждем
Спасибо @m_franz
#imageediting
🔥6👍1
DiT360: High-Fidelity Panoramic Image Generation via Hybrid Training
Модель для создания реалистичных панорамных изображений на базе Flux с лорой
— улучшает качество существующих панорам за счёт устранения артефактов и искажений в полярных областях
— использует перспективные изображения для обогащения панорамного контента и повышения фотореализма
— обеспечивает согласованность границ и устраняет искажения в полярных регионах
— делает инпейнтинг и аутпейнтинг без дополнительного обучения
— использует несколько механизмов для контроля геометрии и искажения в латентном пространстве
Код
Демо
#panorama #text2panorama #text2image
Модель для создания реалистичных панорамных изображений на базе Flux с лорой
— улучшает качество существующих панорам за счёт устранения артефактов и искажений в полярных областях
— использует перспективные изображения для обогащения панорамного контента и повышения фотореализма
— обеспечивает согласованность границ и устраняет искажения в полярных регионах
— делает инпейнтинг и аутпейнтинг без дополнительного обучения
— использует несколько механизмов для контроля геометрии и искажения в латентном пространстве
Код
Демо
#panorama #text2panorama #text2image
👍6❤1
Лутаем 600+ кредитов Higgsfield и еще немножко если у вас есть подписка
Включаем американский ВПH, идем с новым имейлом на https://higgsfield.ai/me/settings и вставляем промокоды - все подряд которые подойдут
Для этих нужно прикинутся что вы из штатов(хотя у некоторых и без этого работает):
Эти промокоды сработают если у вас платная подписка(и тоже прикинувшись что вы из штатов):
раздачу подрезал у @AINetSD
#giveaway
Включаем американский ВПH, идем с новым имейлом на https://higgsfield.ai/me/settings и вставляем промокоды - все подряд которые подойдут
150CREDS_HIGGSFIELDSORAADS
SKETCH2VIDEOHIGGS_xWVAZ
Для этих нужно прикинутся что вы из штатов(хотя у некоторых и без этого работает):
SORASTREAM_150CREDS
HIGGSFIELD_SORA2TRENDS_150CREDITS
Эти промокоды сработают если у вас платная подписка(и тоже прикинувшись что вы из штатов):
STREAM200
GIFT200
раздачу подрезал у @AINetSD
#giveaway
👍12❤5🔥1
AVoCaDO: An AudioVisual Video Captioner Driven by Temporal Orchestration
Кэпшонер на базе Qwen2.5-Omni-7B, создает описание видео, учитывая как визуальную, так и аудиосоставляющую, синхронизируя их во времени
Код
HF
#captioning #VLM #video2text
Кэпшонер на базе Qwen2.5-Omni-7B, создает описание видео, учитывая как визуальную, так и аудиосоставляющую, синхронизируя их во времени
Код
HF
#captioning #VLM #video2text
👍11❤1
EPG: Advancing End-to-End Pixel Space Generative Modeling via Self-supervised Pre-training
Новая #SOTA генератор картинок в пиксельном пространстве
Код ждем
#research #text2image
Новая #SOTA генератор картинок в пиксельном пространстве
первая успешная попытка обучить консистентную модель непосредственно на изображениях высокого разрешения без использования предварительно обученных VAE или диффузионных моделей.
Код ждем
#research #text2image
👍7🔥2
MAI-Image-1
Новый картинкогенератор от Microsoft
Сейчас на 9 месте на LMArena
Очевидно, умеет изображать текст.
Делают ставку на фотореализм и скорость:
Непонятно выдадут ли код или сервис, а пока пробуем на арене. Можно выбрать Direct Chat -> mai-image-1
#text2image
Новый картинкогенератор от Microsoft
Сейчас на 9 месте на LMArena
Очевидно, умеет изображать текст.
Делают ставку на фотореализм и скорость:
MAI-Image-1 отлично подходит для создания фотореалистичных изображений, таких как освещение (например, отраженный свет, блики), пейзажи и многое другое. Это особенно важно по сравнению со многими более крупными и медленными моделями. Благодаря сочетанию скорости и качества пользователи могут быстрее отображать свои идеи на экране, быстро просматривать их, а затем переносить свою работу в другие инструменты для дальнейшей доработки.
Непонятно выдадут ли код или сервис, а пока пробуем на арене. Можно выбрать Direct Chat -> mai-image-1
#text2image
👍5
Нейронавт | Нейросети в творчестве
MAI-Image-1 Новый картинкогенератор от Microsoft Сейчас на 9 месте на LMArena Очевидно, умеет изображать текст. Делают ставку на фотореализм и скорость: MAI-Image-1 отлично подходит для создания фотореалистичных изображений, таких как освещение (например…
Промпта слушается. А вот с качеством беда. Анатомию ломает. В художественные стили толком не умеет. Архитектура кривая. Да и в тексте ошибается. Ну может он будет легкий и быстрый хотя бы?
👍9🤷♂1