Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.45K photos
3.72K videos
41 files
4.76K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
🎉 Сегодня праздник у ребят.
Сегоооодня будут танцы с бубном

Вышел #ControlNet для SDXL. Пока только Canny

Гитхаб
Опиcание и веса на huggingface
Сетап для ComfyUI Описан здесь

#image2image #text2image
👍8
Вторая жизнь сберовского GigaChat'а, с блэкджеком и картинками

Чтобы начать пользоваться, нужно перейти по ссылке и получить инвайт (предварительно надо зарегистрироваться на платформе)

#chatbot #llm #text2image #multimodal
🔥1
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Если кто-то хочет погенерить в SDXL 1.0, причем (о, боги) на NVidia A100 40(!)GB, то вот вам аттракцион невиданной щедрости от китайцев.
Они подняли Automatic1111 на сервере и бахнули ссылку в общий доступ.
Позавчера у меня 1024х1024 считалось примерно три секунды(!).
Сегодня уже приподвзлегло, но все равно пыхтит и считает.
http://openxlab.org.cn/apps/detail/camenduru/stable-diffusion-webui
👍10
This media is not supported in your browser
VIEW IN TELEGRAM
SSIF: Single-shot Implicit Morphable Faces with Consistent Texture Parameterization

NVIDIA лютует на SIGGRAPH 2023. Удобная для анимации модель, способная реконструировать 3D-лицо по одному изображению.

Наши неявно изменяемые модели лиц можно использовать для рендеринга аватара в новых ракурсах, анимации выражений лица путем изменения кодов выражений и редактирования текстур путем непосредственного рисования на изученных картах UV-текстур.

Кода нет

#imageto3D #image2face #talkinghead #humananimation #image2head #humanavatar
🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
PlayHT2.0

Новая модель генерации речи, в закрытом бета-тестировании.

• Может генерировать речь менее чем за 800 мс и мгновенно клонировать голоса с разными акцентами.
• PlayHT2.0 понимает эмоции и стили разговора и применяет их к любому голосу в режиме реального времени.
• Модель доступна через студию и API в альфа-версии, ожидаются крупные обновления

Студия
API

#voicecloning #tts #text2speech

Бесплатно доступно 2500 слов
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Обновленный RunwayML поддерживает генерацию видео продолжительностью 18 секунд

reddit
🔥7
Что если бы Stable Diffusion был так же прост в использовании как MidJourney, но при этом оставался бесплатным и его можно было локально запустить на 4Gb VRAM?

Fooocus - ответ на этот вопрос от автора ControlNet.
Легкая установка. Модель SDXL скачается при первом запуске. Благодаря куче оптимизаций, никаких плясок с настройками, только промты и картинки.

Скачать установщик
Гитхаб

#image2image #text2image #tools
👍11
SDXL-controlnet: OpenPose (v2)

А вот и OpenPose подвезли.
Ждем мануалов от первопроходцев
4
This media is not supported in your browser
VIEW IN TELEGRAM
GamifAI

Генератор игр по тексту. Непохоже на те нерабочие генераторы которые мне попадались раньше (раз, два), тут все серьезно. Но наверняка узнаем только попробовав.

Записаться в бету

#text2game #gaming
🔥5👍1
AGI подкрался незаметно.
Экспериментально доказано – LLM «думают» как люди, а не имитируют наше мышление на основе статистик

Это сенсационное открытие «Лаборатории вычислительного зрения и обучения» Университета Калифорнии (руководитель - проф. Хунцзин Лу) прошло научное рецензирование и опубликовано в новом выпуске Nature Human Behaviour под заголовком «Эмерджентное рассуждение по аналогии в больших языковых моделях» – без пэйвола см. здесь

Суть сделанного открытия в следующем.
Экспериментально доказано, что большие языковые модели (LLM) уровня GPT-3 и выше уже достигли и даже превосходят уровень людей при решении задач:
✔️ абсолютно новых для них (с которыми они никогда не сталкивались);
✔️ требующих умения рассуждать "с нуля", без какого-либо прямого обучения;
✔️ требующих способности к абстрактной индукции паттернов – т.е. абстрагирования от конкретной задачи и рассуждения по аналогии.

Рассуждения по аналогии – это квинтэссенция способности человека к абстрагированию, являющейся основой человеческого интеллекта и его отличительной особенностью. Без наличия у ИИ такой способности невозможна реализация AGI (Artificial General Intelligence).

Доказательство того, что LLM обладает этой способностью на уровне человека и даже выше ставит точку в споре о том:
1. «думают» ли LLM, как люди (т.е. обладают ли LLM неким когнитивным процессом, функционально эквивалентным мыслительным способностям людей);
2. или же LLM лишь имитируют человеческое мышление (т.е. подражают человеческим рассуждениям, используя огромную статистику из наборов данных, на которых эти модели проходили обучение).

Из результатов исследования следует вот что.
• Верен п.1 – LLM обладают неким когнитивным процессом, функционально эквивалентным мыслительным способностям людей.
• Пока не ясно, как устроен вычислительный процесс порождения у LLM эмерджентных реляционных представлений.
• Единственно, что пока понятно, - этот вычислительный процесс формируется у LLM радикально иным путем, чем тот, который использует биологический интеллект.

Не менее важно, что это исследование на экспериментальных тестах зафиксировало 3 отсутствующих у LLM элемента, обретя которые LLM интеллектуально уравняются с людьми (пока они лишь человекоподобны, но не равны людям).
Вот эти 3 элемента.
I. Наличие собственных целей и мотивации
II. Долговременная память
III. Физическое понимание мира на основе мультимодального сенсорного опыта

#LLM #AGI
🤯3👍2🔥21😁1
Media is too big
VIEW IN TELEGRAM
NVIDIA NeMo

Диалоговый набор ИИ-инструментов для
- распознавая речи
- генерации речи по тексту
- больших языковых моделей (LLM)
- обработки естественного языка (NLP)
- визуально-языковых задач

На гитхабе подробные туториалы, инструкции, примеры.

Гитхаб
Демо NeVA, визуально-языковой ассистент

#TTS #STT #multimodal #NLP #LLM #image2text #CV
AudioCraft Plus

Еще один однокнопочный установщик AudioCraft в браузере Pinokio. С возможностями, которых нет в других сборках:
- можно задать тональность
- можно задать темп
- можно выбрать тип лада

Установить можно по инструкции из предыдущего поста про Pinokio

Старую сборку в корзину!

#text2music #text2audio #tools
This media is not supported in your browser
VIEW IN TELEGRAM
JEN-1

Новая мощная музыкальная модель.
Возможности:

- генерация музыки по тексту
- инпейнтинг (замена заданного фрагмента)
- продолжение заданного фрагмента

Хорошо справляется с попаданием в заданный темп, инструмент, настроение, эру (70-е, 80-е, 90-е), жанр

Послушать примеры

#text2music #music2music
👏2
This media is not supported in your browser
VIEW IN TELEGRAM
Вслед за лидерами конкурентной гонки в области генерации ИИ-видео Kaiber выкатил генерацию видео по тексту и по начальному изображению.
Может генерировать видео продолжительностью до 4 минут.

И снова открыли пробный доступ для всех. Доступно 40 секунд бесплатной генерации. А помнится, в мае бесплатные сервисы прикрывали.

Попробовать Kaiber motion

#text2video #image2video
👍2👎1