This media is not supported in your browser
VIEW IN TELEGRAM
И еще отличная новость.
AudioCraft, AudioLDM 2 и некоторые другие нейросетки можно установить локольно к себе на компьютер в один клик через специальный браузер Pinokio.
Устанавливаете браузер, нажимаете кнопку Discover и выбираете из доступных нейросетей.
❗️Имейте ввиду, что при установке нейросетей браузер скачает увесистые файлы, для AudioLDM 2 это 8+ Гб
Скачать Pinokio
Статья от автора устновщика на английском с инструкцией и примерами
#text2music #text2audio #tools
AudioCraft, AudioLDM 2 и некоторые другие нейросетки можно установить локольно к себе на компьютер в один клик через специальный браузер Pinokio.
Устанавливаете браузер, нажимаете кнопку Discover и выбираете из доступных нейросетей.
❗️Имейте ввиду, что при установке нейросетей браузер скачает увесистые файлы, для AudioLDM 2 это 8+ Гб
Скачать Pinokio
Статья от автора устновщика на английском с инструкцией и примерами
#text2music #text2audio #tools
👍2🤔2
🎉 Сегодня праздник у ребят.
Сегоооодня будут танцыс бубном
Вышел #ControlNet для SDXL. Пока только Canny
Гитхаб
Опиcание и веса на huggingface
Сетап для ComfyUI Описан здесь
#image2image #text2image
Сегоооодня будут танцы
Гитхаб
Опиcание и веса на huggingface
Сетап для ComfyUI Описан здесь
#image2image #text2image
👍8
Вторая жизнь сберовского GigaChat'а, с блэкджеком и картинками
Чтобы начать пользоваться, нужно перейти по ссылке и получить инвайт (предварительно надо зарегистрироваться на платформе)
#chatbot #llm #text2image #multimodal
Чтобы начать пользоваться, нужно перейти по ссылке и получить инвайт (предварительно надо зарегистрироваться на платформе)
#chatbot #llm #text2image #multimodal
🔥1
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Если кто-то хочет погенерить в SDXL 1.0, причем (о, боги) на NVidia A100 40(!)GB, то вот вам аттракцион невиданной щедрости от китайцев.
Они подняли Automatic1111 на сервере и бахнули ссылку в общий доступ.
Позавчера у меня 1024х1024 считалось примерно три секунды(!).
Сегодня уже приподвзлегло, но все равно пыхтит и считает.
http://openxlab.org.cn/apps/detail/camenduru/stable-diffusion-webui
Они подняли Automatic1111 на сервере и бахнули ссылку в общий доступ.
Позавчера у меня 1024х1024 считалось примерно три секунды(!).
Сегодня уже приподвзлегло, но все равно пыхтит и считает.
http://openxlab.org.cn/apps/detail/camenduru/stable-diffusion-webui
👍10
This media is not supported in your browser
VIEW IN TELEGRAM
SSIF: Single-shot Implicit Morphable Faces with Consistent Texture Parameterization
NVIDIA лютует на SIGGRAPH 2023. Удобная для анимации модель, способная реконструировать 3D-лицо по одному изображению.
#imageto3D #image2face #talkinghead #humananimation #image2head #humanavatar
NVIDIA лютует на SIGGRAPH 2023. Удобная для анимации модель, способная реконструировать 3D-лицо по одному изображению.
Наши неявно изменяемые модели лиц можно использовать для рендеринга аватара в новых ракурсах, анимации выражений лица путем изменения кодов выражений и редактирования текстур путем непосредственного рисования на изученных картах UV-текстур.
Кода нет#imageto3D #image2face #talkinghead #humananimation #image2head #humanavatar
🔥1
Скорость и максимальное разрешение генерации SD зависит от версии дравера NVIDIA
531.61- генерится быстрее
536.99 - больше максимальное разрешение
531.61- генерится быстрее
536.99 - больше максимальное разрешение
This media is not supported in your browser
VIEW IN TELEGRAM
PlayHT2.0
Новая модель генерации речи, в закрытом бета-тестировании.
• Может генерировать речь менее чем за 800 мс и мгновенно клонировать голоса с разными акцентами.
• PlayHT2.0 понимает эмоции и стили разговора и применяет их к любому голосу в режиме реального времени.
• Модель доступна через студию и API в альфа-версии, ожидаются крупные обновления
Студия
API
#voicecloning #tts #text2speech
Бесплатно доступно 2500 слов
Новая модель генерации речи, в закрытом бета-тестировании.
• Может генерировать речь менее чем за 800 мс и мгновенно клонировать голоса с разными акцентами.
• PlayHT2.0 понимает эмоции и стили разговора и применяет их к любому голосу в режиме реального времени.
• Модель доступна через студию и API в альфа-версии, ожидаются крупные обновления
Студия
API
#voicecloning #tts #text2speech
Бесплатно доступно 2500 слов
👍1
Что если бы Stable Diffusion был так же прост в использовании как MidJourney, но при этом оставался бесплатным и его можно было локально запустить на 4Gb VRAM?
Fooocus - ответ на этот вопрос от автора ControlNet.
Легкая установка. Модель SDXL скачается при первом запуске. Благодаря куче оптимизаций, никаких плясок с настройками, только промты и картинки.
Скачать установщик
Гитхаб
#image2image #text2image #tools
Fooocus - ответ на этот вопрос от автора ControlNet.
Легкая установка. Модель SDXL скачается при первом запуске. Благодаря куче оптимизаций, никаких плясок с настройками, только промты и картинки.
Скачать установщик
Гитхаб
#image2image #text2image #tools
👍11
This media is not supported in your browser
VIEW IN TELEGRAM
GamifAI
Генератор игр по тексту. Непохоже на те нерабочие генераторы которые мне попадались раньше (раз, два), тут все серьезно. Но наверняка узнаем только попробовав.
Записаться в бету
#text2game #gaming
Генератор игр по тексту. Непохоже на те нерабочие генераторы которые мне попадались раньше (раз, два), тут все серьезно. Но наверняка узнаем только попробовав.
Записаться в бету
#text2game #gaming
🔥5👍1
Forwarded from Малоизвестное интересное
AGI подкрался незаметно.
Экспериментально доказано – LLM «думают» как люди, а не имитируют наше мышление на основе статистик
Это сенсационное открытие «Лаборатории вычислительного зрения и обучения» Университета Калифорнии (руководитель - проф. Хунцзин Лу) прошло научное рецензирование и опубликовано в новом выпуске Nature Human Behaviour под заголовком «Эмерджентное рассуждение по аналогии в больших языковых моделях» – без пэйвола см. здесь
Суть сделанного открытия в следующем.
Экспериментально доказано, что большие языковые модели (LLM) уровня GPT-3 и выше уже достигли и даже превосходят уровень людей при решении задач:
✔️ абсолютно новых для них (с которыми они никогда не сталкивались);
✔️ требующих умения рассуждать "с нуля", без какого-либо прямого обучения;
✔️ требующих способности к абстрактной индукции паттернов – т.е. абстрагирования от конкретной задачи и рассуждения по аналогии.
Рассуждения по аналогии – это квинтэссенция способности человека к абстрагированию, являющейся основой человеческого интеллекта и его отличительной особенностью. Без наличия у ИИ такой способности невозможна реализация AGI (Artificial General Intelligence).
Доказательство того, что LLM обладает этой способностью на уровне человека и даже выше ставит точку в споре о том:
1. «думают» ли LLM, как люди (т.е. обладают ли LLM неким когнитивным процессом, функционально эквивалентным мыслительным способностям людей);
2. или же LLM лишь имитируют человеческое мышление (т.е. подражают человеческим рассуждениям, используя огромную статистику из наборов данных, на которых эти модели проходили обучение).
Из результатов исследования следует вот что.
• Верен п.1 – LLM обладают неким когнитивным процессом, функционально эквивалентным мыслительным способностям людей.
• Пока не ясно, как устроен вычислительный процесс порождения у LLM эмерджентных реляционных представлений.
• Единственно, что пока понятно, - этот вычислительный процесс формируется у LLM радикально иным путем, чем тот, который использует биологический интеллект.
Не менее важно, что это исследование на экспериментальных тестах зафиксировало 3 отсутствующих у LLM элемента, обретя которые LLM интеллектуально уравняются с людьми (пока они лишь человекоподобны, но не равны людям).
Вот эти 3 элемента.
I. Наличие собственных целей и мотивации
II. Долговременная память
III. Физическое понимание мира на основе мультимодального сенсорного опыта
#LLM #AGI
Экспериментально доказано – LLM «думают» как люди, а не имитируют наше мышление на основе статистик
Это сенсационное открытие «Лаборатории вычислительного зрения и обучения» Университета Калифорнии (руководитель - проф. Хунцзин Лу) прошло научное рецензирование и опубликовано в новом выпуске Nature Human Behaviour под заголовком «Эмерджентное рассуждение по аналогии в больших языковых моделях» – без пэйвола см. здесь
Суть сделанного открытия в следующем.
Экспериментально доказано, что большие языковые модели (LLM) уровня GPT-3 и выше уже достигли и даже превосходят уровень людей при решении задач:
✔️ абсолютно новых для них (с которыми они никогда не сталкивались);
✔️ требующих умения рассуждать "с нуля", без какого-либо прямого обучения;
✔️ требующих способности к абстрактной индукции паттернов – т.е. абстрагирования от конкретной задачи и рассуждения по аналогии.
Рассуждения по аналогии – это квинтэссенция способности человека к абстрагированию, являющейся основой человеческого интеллекта и его отличительной особенностью. Без наличия у ИИ такой способности невозможна реализация AGI (Artificial General Intelligence).
Доказательство того, что LLM обладает этой способностью на уровне человека и даже выше ставит точку в споре о том:
1. «думают» ли LLM, как люди (т.е. обладают ли LLM неким когнитивным процессом, функционально эквивалентным мыслительным способностям людей);
2. или же LLM лишь имитируют человеческое мышление (т.е. подражают человеческим рассуждениям, используя огромную статистику из наборов данных, на которых эти модели проходили обучение).
Из результатов исследования следует вот что.
• Верен п.1 – LLM обладают неким когнитивным процессом, функционально эквивалентным мыслительным способностям людей.
• Пока не ясно, как устроен вычислительный процесс порождения у LLM эмерджентных реляционных представлений.
• Единственно, что пока понятно, - этот вычислительный процесс формируется у LLM радикально иным путем, чем тот, который использует биологический интеллект.
Не менее важно, что это исследование на экспериментальных тестах зафиксировало 3 отсутствующих у LLM элемента, обретя которые LLM интеллектуально уравняются с людьми (пока они лишь человекоподобны, но не равны людям).
Вот эти 3 элемента.
I. Наличие собственных целей и мотивации
II. Долговременная память
III. Физическое понимание мира на основе мультимодального сенсорного опыта
#LLM #AGI
Nature
Emergent analogical reasoning in large language models
Nature Human Behaviour - Webb et al. show that new artificial intelligence language models, such as Generative Pre-trained Transformer 3, are able to solve analogical reasoning problems at a...
🤯3👍2🔥2❤1😁1
Говорят, опубликован код Neuralangelo. Круто. Хотя он и так уже был доступен с июня
Код
#nerf #rendering #photogrammetry
Код
#nerf #rendering #photogrammetry
Telegram
Нейронавт | Нейросети в творчестве
Neuralangelo
Страница проекта с примерами и интерактивом
Кода нет
#nerf #videoto3D
Страница проекта с примерами и интерактивом
Кода нет
#nerf #videoto3D
Media is too big
VIEW IN TELEGRAM
NVIDIA NeMo
Диалоговый набор ИИ-инструментов для
- распознавая речи
- генерации речи по тексту
- больших языковых моделей (LLM)
- обработки естественного языка (NLP)
- визуально-языковых задач
На гитхабе подробные туториалы, инструкции, примеры.
Гитхаб
Демо NeVA, визуально-языковой ассистент
#TTS #STT #multimodal #NLP #LLM #image2text #CV
Диалоговый набор ИИ-инструментов для
- распознавая речи
- генерации речи по тексту
- больших языковых моделей (LLM)
- обработки естественного языка (NLP)
- визуально-языковых задач
На гитхабе подробные туториалы, инструкции, примеры.
Гитхаб
Демо NeVA, визуально-языковой ассистент
#TTS #STT #multimodal #NLP #LLM #image2text #CV
AudioCraft Plus
Еще один однокнопочный установщик AudioCraft в браузере Pinokio. С возможностями, которых нет в других сборках:
- можно задать тональность
- можно задать темп
- можно выбрать тип лада
Установить можно по инструкции из предыдущего поста про Pinokio
Старую сборку в корзину!
#text2music #text2audio #tools
Еще один однокнопочный установщик AudioCraft в браузере Pinokio. С возможностями, которых нет в других сборках:
- можно задать тональность
- можно задать темп
- можно выбрать тип лада
Установить можно по инструкции из предыдущего поста про Pinokio
Старую сборку в корзину!
#text2music #text2audio #tools
This media is not supported in your browser
VIEW IN TELEGRAM
JEN-1
Новая мощная музыкальная модель.
Возможности:
- генерация музыки по тексту
- инпейнтинг (замена заданного фрагмента)
- продолжение заданного фрагмента
Хорошо справляется с попаданием в заданный темп, инструмент, настроение, эру (70-е, 80-е, 90-е), жанр
Послушать примеры
#text2music #music2music
Новая мощная музыкальная модель.
Возможности:
- генерация музыки по тексту
- инпейнтинг (замена заданного фрагмента)
- продолжение заданного фрагмента
Хорошо справляется с попаданием в заданный темп, инструмент, настроение, эру (70-е, 80-е, 90-е), жанр
Послушать примеры
#text2music #music2music
👏2
Опубликован код и веса генератора глубины по видео Neural Video Depth Stabilizer
Если удастся запустить, поделитесь результатами
Код
#depth #depth2video
Если удастся запустить, поделитесь результатами
Код
#depth #depth2video
Telegram
Нейронавт | Нейросети в творчестве
Neural Video Depth Stabilizer (NVDS)
Фреймворк для генерации согласованной во времени карты глубины для видео. Если вы когда-нибудь пробовали генерировать карты глубины для видео, вы знаете что модели, обученные предсказывать глубину для отдельно взятой…
Фреймворк для генерации согласованной во времени карты глубины для видео. Если вы когда-нибудь пробовали генерировать карты глубины для видео, вы знаете что модели, обученные предсказывать глубину для отдельно взятой…
👍1