Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.45K photos
3.71K videos
41 files
4.76K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
Forwarded from NLP Wanderer
🔥 Новые модели Vikhr: Приближаемся к локальной gpt-4o-mini, собственный метод алайнмента и Grounded RAG

Мы выпускаем в релиз свои лучшие модели и тулкит алайнмента. который использовался для их тренировки.

Итак, наш флагман - Vikhr-Nemo-12B-Instruct-R-21-09-24 (карточка на HF)

12B модель на основе Mistral-Nemo, с качеством на русском языке в некоторых задачах не хуже gpt-4o-mini и имеет 128к токенов контекста, была специально заалайнена под решение широкого спектра задач на реальных и синтетических вопросах пользователей, включая код, математику, суммаризацию, ризонинг, ответы в специальном формате (JSON/HTML и тд) и многие другие.

Модель получила винрейт 79.8 (относительно gpt-3.5-turbo) на оффлайн бенчмарке Ru-General-Arena, что лучше любой текущей опенсорс модели до 30В для русского языка.

Для достижения такого качества мы собрали большой инструктивный датасет со втроенным CoT, что позволило сильно прочкать ризонинг модели, далее обучили Reward модель, сделали Rejection Sampling и применили собственный метод SMPO (вариация DPO) для выполнения преференс-тюнинга.

Вторая модель - Vikhrmodels/Vikhr-Llama3.1-8B-Instruct-R-21-09-24 (карточка на HF)

Так же обучена Llama-3,1-8B и имеет аналогичный размер контекста в 128k токенов. Винрейт на Ru-Arena-General - 63.9, что делает ее одной из лучших 8B моделей дла русского языка.

Модели обучены работать с RAG

Обе модели имеют уникальную особенность - они заалайнены для работы с RAG, т.е. используя системный промпт и спец. роль documents, вы сможете подавать ей документы в стандартизированной форме (JSON). При этом сам текст каждого документа может быть грязным чанком HTML, Markdown или Plain text формата до 4к символов каждый.

Модели умеют выделять информацию из предоставленных документов самостоятельно, реализуя таким образом "реранкер" на уровне LLM. Это сделано за счет двух-этапного ответа. Первый ответ модели представляет из себя JSON со списокм релевантных идентификаторов документов, а второй, если юзер его запросит, будет уже текстовым ответом модели на вопрос пользователя.

Благодаря такому обучению, на нашем бенчмарке для RAG (судья gpt-4o) Vikhr-Nemo показала качество в RAG задачах даже лучше, чем gpt-4o-mini (цифры в карточках моделей)

SMPO - Simple Margin Preference Optimization

Наш собственный метод выравнивания, разработанный для стабилизации прцоесса PO. Этот метод во многом заимствует идеи IPO, SimPO, C-RLFT, а также содержит собственную функцию потерь для разделения выбранных и отклоненных пар, отказываясь от классической сигмойды.

Основная идея метода заключается в стремлении плавно достичь желаемого уровня margin, не заставляя модель переобучаться, в том числе с помощью добавления балансирующего SFT лосса для выбранных и отклоненных вариантов одновременно.

Тулкит на Github - effective_llm_alignment

Репозиторий содержит скрипты и конфиги которые использовались для всех этапов обучения моделей. он позволяет удобно работать с основными методами алайнмента для LLM, включая наш SMPO.

Больше подробностей о моделях, как с ними работать, бенчмарках, процедуре обучения, вы можете найти в их карточках на HF.

Поиграться с Vikhr-Nemo-12B можно в tg bot_e (@vikhrbot), Gradio инференс
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9👍2
Э, слышь пацанчик. Отсыпь мемочек
Актуальных

#humor
🤷‍♂8😁62
NeuroSandboxWebUI

"Простой и удобный интерфейс для использования различных нейросетевых моделей"

Для работы с текстом, картинками, видео, 3D, звуком.

Легкая установка

#GUI #tool
10🔥4🤯2👍1
This media is not supported in your browser
VIEW IN TELEGRAM
3DTopia-XL: High-Quality 3D PBR Asset Generation via Primitive Diffusion

Генерирует 3D модели с PBR текстурами по изображению или тексту. генерация занимает 5 секунд (непонятно на каком железе)

Код
Демо

#PBR #textto3d #imageto3d
👍5
StoryMaker: Towards consistent characters in text-to-image generation

решение для персонализации, которое сохраняет не только сходство лиц, но и одежды, причесок и телосложения в сцене с несколькими персонажами, позволяя создать историю, состоящую из серии изображений

Код

#comics #personalization
👍9🔥6
Google Cloud начал давать доступ к Gemini 1.5 Flash и 1.5 Pro - LLM c конекстом в 2 миллиона токенов.

Добавлена поддержка поиска Google и готовые приложения Gemini в Google Workspace.

Готовые Gems в Gemini в Google Workspace и пачка агентов искусственного интеллекта, предназначенных для взаимодействия с клиентами и общения с ними

#assistant #llm #news
👍61
JoyCaption Alpha One

Обновился инструмент для текстового описания изображений JoyCaption

- расширен набор данных
- контроль длины описания
- выбор тона текста формальный/неформальный
- выбор типа описания. Denoscriptive - на чисто естественном языке. Training Prompt - сочетания естественного языка, фрагментов предложений и тегов booru - имитация промптов для SD. rng-tags - только теги booru, работает не очень хорошо, не рекомендовано

#image2text #captioning
👍62
Omni-Zero-Couples: A diffusion pipeline for zero-shot stylized couples portrait creation

Генератор парных портретов с заданными персоналиями и с заданным стилем

Ну и есть такое же для монопортрета - OmniZero

Код
Демо
Демо2

#personalization #styletransfer #stylization
🔥51👍1
Stable Diffusion 3 Medium Fine-tuning Tutorial

StabilityAI опубликовали инструкцию по обучению LoRa SD3 Medium

Ну молодцы, чё. Все уже научились обучать флюкс, даже я почти.

Спасибо @asleephidden

#finetuning #tutorial #sd3 #LORA
😁19👍5👎5
Ну и к важным новостям.
К совету директоров StabilityAI присоединился Джеймс Кэмерон. Это хороший знак для киноиндустрии. Конечно, если вы не неолуддит. У каждой крупной VFX студии есть свои ИИ-инструменты, которыми они ни с кем не делятся и вообще помалкивают, ибо хейт по отношению к ИИ выше чем по отношению к CGI в кино.

Не хотел публиковать пока Кэмерон сам не пояснил в чем дело. Он хочет заполнить пустующую нишу между классическим CG и новыми генеративными инструментами

Видео, Кэмерон на CNBC

#news
🔥102🤡1
This media is not supported in your browser
VIEW IN TELEGRAM
LipDub ai

Сервис для высококачественного липсинка, дубляжа, персонализации видео, замены диалогов на видео.

Советую не мешкать и подать на бету прямо сейчас, собеседования уже расписаны до конца октября.
(Да, вам назначают встречу в Google Meet)

Вписаться в бета тест

#lipsync #dubbing #personalization #speechediting #speech2speech
🔥10
Ну и вот еще, Энди Серкис туда же. Красавчик🤩
#news
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from CGIT_Vines (Marvin Heemeyer)
Энди Серкис объявил о новом проекте с участием персонажей с искусственным интеллектом, назвав эту быстро развивающуюся технологию ещё одной формой магии, которая вызывает страх у людей.

"Голлум" рассказал, что его продюсерская компания Imaginarium работает над сюжетной историей, где сначала создаются 2D-персонажи с использованием озвучки актёров, а затем они переходят в мир дополненной реальности, чтобы это не значило. На этом этапе персонажи становятся персонажами ИИ, созданными художниками и режиссёрами. "Теперь вы можете напрямую взаимодействовать с этими CGI-персонажами в реальном времени".

Он подчеркнул, что технология ИИ многими неправильно понимается и часто вызывает опасения, сравнивая это с реакцией на появление Интернета, или мокап костюмов, который тоже считали разрушительным для жизни и работы. Человек который смог адаптироваться и нацепить костюм с датчиками а потом основать компанию говорит как бы о том же, если вы сможете адаптироваться, то бояться нечего, если нет, ваши проблемы.
🔥141
Colorful Diffuse Intrinsic Image Decomposition in the Wild

Разложение картинки на пассы: альбедо, цветной диффьюз и спекуляры

Код
Колаб

#image2passes #image2pbr
🔥153
PortraitGen: Portrait Video Editing Empowered by Multimodal Generative Priors

PortraitGen преобразует 2D-портретное видео в 4D-гауссово поле.
Это позволяет выполнять мультимодальное (по тексту или по референсу) редактирование портрета за 30 минут. Плюс еще в комплекте релайтинг IC-Light'ом, контроль персоналии и контроль мимики.
Отредактированный 3D-портрет рендерится на 100 FPS

Код

#video2avatar #video2gaussian #humanavatar
👍123