NEW BOT Телеграм, страница

Fast-dLLM v2: Efficient Block-Diffusion Large Language Model

Языковая модель от NVIDIA, ускоряет создание текста за счёт параллельной обработки.

— адаптирует уже обученные модели для более быстрой работы

— требует меньше данных для настройки (примерно 1 миллиард токенов вместо 580 миллиардов у некоторых других моделей)

— использует особые техники для работы с контекстом и кэширования информации

— достигает ускорения декодирования до 2,5 раз по сравнению со стандартным авторегрессионным декодированием

— хорошо справляется с разными задачами: от написания кода до ответов на сложные вопросы.

Гитхаб
HF

#LLM

🔥7

2.19K views09:12

Нейронавт | Нейросети в творчестве

0:08

This media is not supported in your browser

VIEW IN TELEGRAM

Бесплатная Sora 2 на HuggingFace (ненадолго)

#text2video

👍5

2.12K views10:13

Нейронавт | Нейросети в творчестве

0:42

This media is not supported in your browser

VIEW IN TELEGRAM

Sora 2 API Nodes Now in ComfyUI

Ноды Sora 2 завезли в #ComfyUI
Без вотермарков, с выбором разрешения и хронометража

Если вы не знаете куда слить свои деньги то вот

Sora-2: $0.1 за секунду при разрешении 720 x 1280 или 1280 x 720

Sora-2 Pro: $0.3 за секунду при разрешении 720 x 1280 или 1280 x 720

Sora-2 Pro: $0.5 за секунду при разрешении 1024 x 1792 или 1792 x 1024

#news #text2video

😁12👍2😱2🤷‍♂1

2.27K views11:14

Нейронавт | Нейросети в творчестве

BigCodeArena

Арена моделей для программирования с возможностью запуска сгенерированного кода

— поддерживает 10 языков программирования (Python, JavaScript, TypeScript, HTML, C, C++, Java, Go, Rust, Markdown) и 8 сред выполнения

— даёт возможность взаимодействовать с сгенерированными приложениями: нажимать на кнопки, тестировать элементы интерфейса, редактировать код и повторно запускать его

— предусматривает многоходовые взаимодействия, позволяя уточнять требования, добавлять функции или исправлять ошибки

HF и Гитхаб - ну вдруг кому-то нужно

#arena #coding #leaderboard

🔥5👍1

2.79K views12:16

Нейронавт | Нейросети в творчестве

0:49

Media is too big

VIEW IN TELEGRAM

Ming-UniVision: Joint Image Understanding and Generation via a Unified Continuous Tokenizer

Мультимодальная модель, объединяет понимание и создание изображений в одной системе. Работает на основе токенизатора MingTok. MingTok поддерживает и понимание изображений, и их генерацию в едином латентном пространстве.

Ming-UniVision может последовательно выполнять разные задачи (например, улучшить качество изображения, раскрасить его или убрать шум) без дополнительных преобразований

Позволяет после анализа изображения сразу редактировать его части.

Код
HF ~38 ГБ

#MLM #VLM #text2image #image2trext #captioning #multimodal #imageediting

👍3

2.04K viewsedited 13:17

Нейронавт | Нейросети в творчестве

Но я еще не готов к компании бота PKH! 🤩

Please open Telegram to view this post

VIEW IN TELEGRAM

1😁26😱23💯3

1.78K views13:46

Нейронавт | Нейросети в творчестве

Lumina-DiMOO: An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding

Открытая мультимодальная модель для генерации и понимания контента в разных форматах. Использует полностью дискретное диффузионное моделирование, что позволяет ей эффективно работать с различными типами данных и выполнять широкий спектр задач.

— может генерировать изображения по текстовому описанию

— создаёт изображения на основе других изображений (например, редактирует их, генерирует по определённому объекту или выполняет дорисовку)

— понимает содержание изображений

— справляется с такими задачами, как стилизацию изображений под книжные иллюстрации, замену объектов, изменение фона

— генерирует изображения с учётом заданных параметров (например, может создать изображение с определённым стилем или композицией)

Код
HF ~16.3 ГБ

#VLM #multimodal #text2image #referencing #captioning

👍12

2.2K views06:09

Нейронавт | Нейросети в творчестве

AgentFlow: In-the-Flow Agentic System Optimization for Effective Planning and Tool Use

Агент на 7B и 3B параметров, содержит несколько модулей (планировщик, исполнитель, верификатор и генератор) взаимодействуют через общую память и инструменты.

— может решать задачи, требующие сложного рассуждения, например, поисковые, агентские, математические и научные

— использует метод Flow-GRPO для обучения в режиме реального времени, что позволяет оптимизировать работу планировщика и улучшать результаты

— адаптируется к обновлению внутренних инструментов и улучшает производительность при использовании более мощных моделей

— выбирает наиболее подходящие инструменты для разных задач, например, чаще использует Google Search для общих знаний и специализированный поиск для узкотематических задач

Код
HF
Демо

#agent #assistant

👍8

1.88K views07:11

Нейронавт | Нейросети в творчестве

Jamba Reasoning 3B: Tiny Model, Huge Possibilities

Компактная LLM, которая обошла Qwen 3 4B и IBM Granite 4 Micro по качеству рассуждений.

— обрабатывает большой объём текста (до 256K токенов, иногда до 1 млн);

— работает быстрее аналогов от DeepSeek, Google, Llama, Microsoft в 2–5 раз;

— запускается на iPhone, Android, Mac, ПК;

— хорошо справляется с задачами на интеллект и следование инструкциям;

— экономит память благодаря особой архитектуре;

— генерирует 40 токенов в секунду на M3 MacBook Pro;

— помогает в работе с документами, создании продуктовых трекеров и ассистентов для написания текстов.

HF
Kaggle
LMStudio

#mobile #assistant

🔥6👍1

2K views08:11

Нейронавт | Нейросети в творчестве

Pocket Comfy V2.0

Обновление мобильного интерфейса для запуска генераций в #ComfyUI

- новый внешний вид приложений (Comfy Mini, ComfyUI, Smart Gallery) с обновлёнными логотипами и уникальной анимацией

- индикаторы состояния (зелёный/красный, вверх/вниз) в правом нижнем углу каждой кнопки

- улучшена стабильность работы функций пользовательского интерфейса и анимаций

- автоматическое преобразование импортированных путей в стандартизированный формат при установке, что устраняет синтаксические ошибки

- улучшенная обработка динамического IP и портов, установка зависимостей

- исправлены ошибки, связанные с путями к окнам Python

- усовершенствованы подсказки состояния Pocket Comfy и время перезапуска при использовании «Run Hidden» и «Run Visible»

- усовершенствованы подсказки состояния при полном завершении работы

- добавлены более подробные инструкции по установке и базовые инструкции по настройке Tailscale

#gui #tools #mobile

👍10

2.1K views09:12

Нейронавт | Нейросети в творчестве

0:45

Media is too big

VIEW IN TELEGRAM

ReferDINO: Referring Video Object Segmentation with Visual Grounding Foundations

Июньская #SOTA в сегментировании объектов на видео по текстовому описанию

Код
Демо

#segmentation #video2mask

👍2

1.92K views10:13

Нейронавт | Нейросети в творчестве

0:30

Media is too big

VIEW IN TELEGRAM

Pixel-Perfect Depth with Semantics-Prompted Diffusion Transformers

Генератор глубины по видео без мусорных висящих в воздухе пикселей

Сохраняет больше мелких деталей, чем Depth Anything v2 и MoGe 2, и демонстрирует значительно более высокую надежность по сравнению с Depth Pro.

Использует два инновационных подхода: Semantics-Prompted Diffusion Transformers (DiT) для сохранения глобальной семантической согласованности и повышения детализации изображений и каскадный дизайн DiT для повышения эффективности и точности

Извлекает высокоуровневую семантику из изображений с помощью предварительно обученного энкодера из визуальных фундаментальных моделей

Код
Демо

#video2depth

🔥11❤2👍1🤯1

2.22K views11:14

Нейронавт | Нейросети в творчестве

черный #humor

Контекст:
В Южной Корее сгорел дата-центр, что привело к отключению 647 государственных цифровых сервисов, включая портал Government24, почтовые и логистические службы, системы экстренных служб и системы аутентификации граждан

😁11😭8❤2👍1🔥1

2.03K views12:16

Нейронавт | Нейросети в творчестве

Qwen3-VL cookbooks

Вы знали что у Qwen есть гайд по работе с Qwen3-VL?

С примерами, разбором, колаб ноутбуками

#VLM #instruction

👍7❤1

2.21K views14:54

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

SHANKS: Simultaneous Hearing and Thinking for Spoken Language Models

В Microsoft придумали метод, позволяющий говорящим языковым моделям (SLMs) думать и анализировать информацию одновременно с прослушиванием речи пользователя.

— SHANKS делит речь пользователя на небольшие фрагменты и обрабатывает их по мере поступления.

— Модель анализирует уже услышанное и формирует внутренние рассуждения.

— Может прерывать пользователя, если замечает ошибку, например, при решении математических задач.

— В диалоге с инструментами выполняет запросы к API ещё до окончания реплики пользователя.

— Повышает точность прерывания пользователя на 37,1 % по сравнению с базовыми методами.

— Выполняет 56,9 % инструментальных запросов до того, как пользователь закончит говорить.

Кода нет

#voicemode #SLM #research

🔥9👍2

2.03K views16:19

About

Blog

Apps

Platform