Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.46K photos
3.73K videos
41 files
4.77K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Обновленный RunwayML поддерживает генерацию видео продолжительностью 18 секунд

reddit
🔥7
Что если бы Stable Diffusion был так же прост в использовании как MidJourney, но при этом оставался бесплатным и его можно было локально запустить на 4Gb VRAM?

Fooocus - ответ на этот вопрос от автора ControlNet.
Легкая установка. Модель SDXL скачается при первом запуске. Благодаря куче оптимизаций, никаких плясок с настройками, только промты и картинки.

Скачать установщик
Гитхаб

#image2image #text2image #tools
👍11
SDXL-controlnet: OpenPose (v2)

А вот и OpenPose подвезли.
Ждем мануалов от первопроходцев
4
This media is not supported in your browser
VIEW IN TELEGRAM
GamifAI

Генератор игр по тексту. Непохоже на те нерабочие генераторы которые мне попадались раньше (раз, два), тут все серьезно. Но наверняка узнаем только попробовав.

Записаться в бету

#text2game #gaming
🔥5👍1
AGI подкрался незаметно.
Экспериментально доказано – LLM «думают» как люди, а не имитируют наше мышление на основе статистик

Это сенсационное открытие «Лаборатории вычислительного зрения и обучения» Университета Калифорнии (руководитель - проф. Хунцзин Лу) прошло научное рецензирование и опубликовано в новом выпуске Nature Human Behaviour под заголовком «Эмерджентное рассуждение по аналогии в больших языковых моделях» – без пэйвола см. здесь

Суть сделанного открытия в следующем.
Экспериментально доказано, что большие языковые модели (LLM) уровня GPT-3 и выше уже достигли и даже превосходят уровень людей при решении задач:
✔️ абсолютно новых для них (с которыми они никогда не сталкивались);
✔️ требующих умения рассуждать "с нуля", без какого-либо прямого обучения;
✔️ требующих способности к абстрактной индукции паттернов – т.е. абстрагирования от конкретной задачи и рассуждения по аналогии.

Рассуждения по аналогии – это квинтэссенция способности человека к абстрагированию, являющейся основой человеческого интеллекта и его отличительной особенностью. Без наличия у ИИ такой способности невозможна реализация AGI (Artificial General Intelligence).

Доказательство того, что LLM обладает этой способностью на уровне человека и даже выше ставит точку в споре о том:
1. «думают» ли LLM, как люди (т.е. обладают ли LLM неким когнитивным процессом, функционально эквивалентным мыслительным способностям людей);
2. или же LLM лишь имитируют человеческое мышление (т.е. подражают человеческим рассуждениям, используя огромную статистику из наборов данных, на которых эти модели проходили обучение).

Из результатов исследования следует вот что.
• Верен п.1 – LLM обладают неким когнитивным процессом, функционально эквивалентным мыслительным способностям людей.
• Пока не ясно, как устроен вычислительный процесс порождения у LLM эмерджентных реляционных представлений.
• Единственно, что пока понятно, - этот вычислительный процесс формируется у LLM радикально иным путем, чем тот, который использует биологический интеллект.

Не менее важно, что это исследование на экспериментальных тестах зафиксировало 3 отсутствующих у LLM элемента, обретя которые LLM интеллектуально уравняются с людьми (пока они лишь человекоподобны, но не равны людям).
Вот эти 3 элемента.
I. Наличие собственных целей и мотивации
II. Долговременная память
III. Физическое понимание мира на основе мультимодального сенсорного опыта

#LLM #AGI
🤯3👍2🔥21😁1
Media is too big
VIEW IN TELEGRAM
NVIDIA NeMo

Диалоговый набор ИИ-инструментов для
- распознавая речи
- генерации речи по тексту
- больших языковых моделей (LLM)
- обработки естественного языка (NLP)
- визуально-языковых задач

На гитхабе подробные туториалы, инструкции, примеры.

Гитхаб
Демо NeVA, визуально-языковой ассистент

#TTS #STT #multimodal #NLP #LLM #image2text #CV
AudioCraft Plus

Еще один однокнопочный установщик AudioCraft в браузере Pinokio. С возможностями, которых нет в других сборках:
- можно задать тональность
- можно задать темп
- можно выбрать тип лада

Установить можно по инструкции из предыдущего поста про Pinokio

Старую сборку в корзину!

#text2music #text2audio #tools
This media is not supported in your browser
VIEW IN TELEGRAM
JEN-1

Новая мощная музыкальная модель.
Возможности:

- генерация музыки по тексту
- инпейнтинг (замена заданного фрагмента)
- продолжение заданного фрагмента

Хорошо справляется с попаданием в заданный темп, инструмент, настроение, эру (70-е, 80-е, 90-е), жанр

Послушать примеры

#text2music #music2music
👏2
This media is not supported in your browser
VIEW IN TELEGRAM
Вслед за лидерами конкурентной гонки в области генерации ИИ-видео Kaiber выкатил генерацию видео по тексту и по начальному изображению.
Может генерировать видео продолжительностью до 4 минут.

И снова открыли пробный доступ для всех. Доступно 40 секунд бесплатной генерации. А помнится, в мае бесплатные сервисы прикрывали.

Попробовать Kaiber motion

#text2video #image2video
👍2👎1
Дорогие подписчики, которые уносят заботливо добытые мною новости на свои коммерческие каналы с 50К+, 200К+ подписчиков. Я со своего канала не получаю ни копейки. Подумайте пожалуйста о том чтобы упомянуть меня как источник новости хотя бы один раз из 10 когда вы бесплатно ее тут забираете. Вам нетрудно, и мне приятно.

У меня довольно часто новости выходят раньше чем у соседей с пересекающейся тематикой, и я могу сделать так что таскать у меня новости станет менее удобно.

Всем хорошего дня
👍26👏6🔥5😁1
Forwarded from CGIT_Vines (Marvin Heemeyer)
This media is not supported in your browser
VIEW IN TELEGRAM
Еще не утихли баталии на счет генеративных 2D конечностей, как в университете Tsinghua пытаются научить сети правильной семантики движения суставов. Задача сложная, в ход идет даже Mixamo и датасет InterHand2.6M.

Успехи оцените сами, но мне кажется, я знаю, куда мы применим мощности квантовых компьютеров. 🤌

Почитать тут
😁3👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Помните реконструкцию музыки по фМРТ мозговой активности?

Подоспело еще одно исследование в этой области, только на этот раз вместо фМРТ использовали электроды. В качестве испытуемых приняли участие 29 человек.

Исследователям удалось получить реконструкцию, отдаленно похожую на песню Another Brick in the Wall.
На примере можно услышать оригинал, преобразованный в амплитудную слуховую спектрограмму и обратно в аудиоволну. После него - реконструкция.
Такое преобразование демонстрируют чтобы можно было оценить разницу между оригиналом и реконструкцией в виде спектрограммы, считываемой с мозга. Криво объяснил, но надеюсь понятно.

Хабр

#tought2music #brain2music
👍31
Опубликованы экспериментальные облегченные #ControlNet модели для SDXL. Они занимают меньше места, 320 Мб младшие и 545 Мб средние. При этом, по первым отзывам пользователей, работают не так хорошо как полновесные модели.

Что еще интереснее, команда diffusers опубликовала скрипт для обучения моделей ControlNet и код бенчмаркинга. Ну, теперь заживем.

твиттер

canny-small
canny-mid
depth-small
depth-mid

скрипт обучения
код бенчмаркинга
ImageBind

Мультимодальная модель от запрещенной в РФ Meta AI обеспечивает машины целостным пониманием, которое связывает объекты на фотографии с тем, как они будут звучать, их трехмерной формой, насколько они теплые или холодные и как они движутся. Таким образом железки становятся на шаг ближе к человеческой способности обучаться одновременно на разных типах информации.

Модель в опенсорсе, доступен код.

Демонстрация
Код

#multimodal
👍41