Forwarded from Малоизвестное интересное
AGI подкрался незаметно.
Экспериментально доказано – LLM «думают» как люди, а не имитируют наше мышление на основе статистик
Это сенсационное открытие «Лаборатории вычислительного зрения и обучения» Университета Калифорнии (руководитель - проф. Хунцзин Лу) прошло научное рецензирование и опубликовано в новом выпуске Nature Human Behaviour под заголовком «Эмерджентное рассуждение по аналогии в больших языковых моделях» – без пэйвола см. здесь
Суть сделанного открытия в следующем.
Экспериментально доказано, что большие языковые модели (LLM) уровня GPT-3 и выше уже достигли и даже превосходят уровень людей при решении задач:
✔️ абсолютно новых для них (с которыми они никогда не сталкивались);
✔️ требующих умения рассуждать "с нуля", без какого-либо прямого обучения;
✔️ требующих способности к абстрактной индукции паттернов – т.е. абстрагирования от конкретной задачи и рассуждения по аналогии.
Рассуждения по аналогии – это квинтэссенция способности человека к абстрагированию, являющейся основой человеческого интеллекта и его отличительной особенностью. Без наличия у ИИ такой способности невозможна реализация AGI (Artificial General Intelligence).
Доказательство того, что LLM обладает этой способностью на уровне человека и даже выше ставит точку в споре о том:
1. «думают» ли LLM, как люди (т.е. обладают ли LLM неким когнитивным процессом, функционально эквивалентным мыслительным способностям людей);
2. или же LLM лишь имитируют человеческое мышление (т.е. подражают человеческим рассуждениям, используя огромную статистику из наборов данных, на которых эти модели проходили обучение).
Из результатов исследования следует вот что.
• Верен п.1 – LLM обладают неким когнитивным процессом, функционально эквивалентным мыслительным способностям людей.
• Пока не ясно, как устроен вычислительный процесс порождения у LLM эмерджентных реляционных представлений.
• Единственно, что пока понятно, - этот вычислительный процесс формируется у LLM радикально иным путем, чем тот, который использует биологический интеллект.
Не менее важно, что это исследование на экспериментальных тестах зафиксировало 3 отсутствующих у LLM элемента, обретя которые LLM интеллектуально уравняются с людьми (пока они лишь человекоподобны, но не равны людям).
Вот эти 3 элемента.
I. Наличие собственных целей и мотивации
II. Долговременная память
III. Физическое понимание мира на основе мультимодального сенсорного опыта
#LLM #AGI
Экспериментально доказано – LLM «думают» как люди, а не имитируют наше мышление на основе статистик
Это сенсационное открытие «Лаборатории вычислительного зрения и обучения» Университета Калифорнии (руководитель - проф. Хунцзин Лу) прошло научное рецензирование и опубликовано в новом выпуске Nature Human Behaviour под заголовком «Эмерджентное рассуждение по аналогии в больших языковых моделях» – без пэйвола см. здесь
Суть сделанного открытия в следующем.
Экспериментально доказано, что большие языковые модели (LLM) уровня GPT-3 и выше уже достигли и даже превосходят уровень людей при решении задач:
✔️ абсолютно новых для них (с которыми они никогда не сталкивались);
✔️ требующих умения рассуждать "с нуля", без какого-либо прямого обучения;
✔️ требующих способности к абстрактной индукции паттернов – т.е. абстрагирования от конкретной задачи и рассуждения по аналогии.
Рассуждения по аналогии – это квинтэссенция способности человека к абстрагированию, являющейся основой человеческого интеллекта и его отличительной особенностью. Без наличия у ИИ такой способности невозможна реализация AGI (Artificial General Intelligence).
Доказательство того, что LLM обладает этой способностью на уровне человека и даже выше ставит точку в споре о том:
1. «думают» ли LLM, как люди (т.е. обладают ли LLM неким когнитивным процессом, функционально эквивалентным мыслительным способностям людей);
2. или же LLM лишь имитируют человеческое мышление (т.е. подражают человеческим рассуждениям, используя огромную статистику из наборов данных, на которых эти модели проходили обучение).
Из результатов исследования следует вот что.
• Верен п.1 – LLM обладают неким когнитивным процессом, функционально эквивалентным мыслительным способностям людей.
• Пока не ясно, как устроен вычислительный процесс порождения у LLM эмерджентных реляционных представлений.
• Единственно, что пока понятно, - этот вычислительный процесс формируется у LLM радикально иным путем, чем тот, который использует биологический интеллект.
Не менее важно, что это исследование на экспериментальных тестах зафиксировало 3 отсутствующих у LLM элемента, обретя которые LLM интеллектуально уравняются с людьми (пока они лишь человекоподобны, но не равны людям).
Вот эти 3 элемента.
I. Наличие собственных целей и мотивации
II. Долговременная память
III. Физическое понимание мира на основе мультимодального сенсорного опыта
#LLM #AGI
Nature
Emergent analogical reasoning in large language models
Nature Human Behaviour - Webb et al. show that new artificial intelligence language models, such as Generative Pre-trained Transformer 3, are able to solve analogical reasoning problems at a...
🤯3👍2🔥2❤1😁1
Говорят, опубликован код Neuralangelo. Круто. Хотя он и так уже был доступен с июня
Код
#nerf #rendering #photogrammetry
Код
#nerf #rendering #photogrammetry
Telegram
Нейронавт | Нейросети в творчестве
Neuralangelo
Страница проекта с примерами и интерактивом
Кода нет
#nerf #videoto3D
Страница проекта с примерами и интерактивом
Кода нет
#nerf #videoto3D
Media is too big
VIEW IN TELEGRAM
NVIDIA NeMo
Диалоговый набор ИИ-инструментов для
- распознавая речи
- генерации речи по тексту
- больших языковых моделей (LLM)
- обработки естественного языка (NLP)
- визуально-языковых задач
На гитхабе подробные туториалы, инструкции, примеры.
Гитхаб
Демо NeVA, визуально-языковой ассистент
#TTS #STT #multimodal #NLP #LLM #image2text #CV
Диалоговый набор ИИ-инструментов для
- распознавая речи
- генерации речи по тексту
- больших языковых моделей (LLM)
- обработки естественного языка (NLP)
- визуально-языковых задач
На гитхабе подробные туториалы, инструкции, примеры.
Гитхаб
Демо NeVA, визуально-языковой ассистент
#TTS #STT #multimodal #NLP #LLM #image2text #CV
AudioCraft Plus
Еще один однокнопочный установщик AudioCraft в браузере Pinokio. С возможностями, которых нет в других сборках:
- можно задать тональность
- можно задать темп
- можно выбрать тип лада
Установить можно по инструкции из предыдущего поста про Pinokio
Старую сборку в корзину!
#text2music #text2audio #tools
Еще один однокнопочный установщик AudioCraft в браузере Pinokio. С возможностями, которых нет в других сборках:
- можно задать тональность
- можно задать темп
- можно выбрать тип лада
Установить можно по инструкции из предыдущего поста про Pinokio
Старую сборку в корзину!
#text2music #text2audio #tools
This media is not supported in your browser
VIEW IN TELEGRAM
JEN-1
Новая мощная музыкальная модель.
Возможности:
- генерация музыки по тексту
- инпейнтинг (замена заданного фрагмента)
- продолжение заданного фрагмента
Хорошо справляется с попаданием в заданный темп, инструмент, настроение, эру (70-е, 80-е, 90-е), жанр
Послушать примеры
#text2music #music2music
Новая мощная музыкальная модель.
Возможности:
- генерация музыки по тексту
- инпейнтинг (замена заданного фрагмента)
- продолжение заданного фрагмента
Хорошо справляется с попаданием в заданный темп, инструмент, настроение, эру (70-е, 80-е, 90-е), жанр
Послушать примеры
#text2music #music2music
👏2
Опубликован код и веса генератора глубины по видео Neural Video Depth Stabilizer
Если удастся запустить, поделитесь результатами
Код
#depth #depth2video
Если удастся запустить, поделитесь результатами
Код
#depth #depth2video
Telegram
Нейронавт | Нейросети в творчестве
Neural Video Depth Stabilizer (NVDS)
Фреймворк для генерации согласованной во времени карты глубины для видео. Если вы когда-нибудь пробовали генерировать карты глубины для видео, вы знаете что модели, обученные предсказывать глубину для отдельно взятой…
Фреймворк для генерации согласованной во времени карты глубины для видео. Если вы когда-нибудь пробовали генерировать карты глубины для видео, вы знаете что модели, обученные предсказывать глубину для отдельно взятой…
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Вслед за лидерами конкурентной гонки в области генерации ИИ-видео Kaiber выкатил генерацию видео по тексту и по начальному изображению.
Может генерировать видео продолжительностью до 4 минут.
И снова открыли пробный доступ для всех. Доступно 40 секунд бесплатной генерации. А помнится, в мае бесплатные сервисы прикрывали.
Попробовать Kaiber motion
#text2video #image2video
Может генерировать видео продолжительностью до 4 минут.
И снова открыли пробный доступ для всех. Доступно 40 секунд бесплатной генерации. А помнится, в мае бесплатные сервисы прикрывали.
Попробовать Kaiber motion
#text2video #image2video
👍2👎1
Дорогие подписчики, которые уносят заботливо добытые мною новости на свои коммерческие каналы с 50К+, 200К+ подписчиков. Я со своего канала не получаю ни копейки. Подумайте пожалуйста о том чтобы упомянуть меня как источник новости хотя бы один раз из 10 когда вы бесплатно ее тут забираете. Вам нетрудно, и мне приятно.
У меня довольно часто новости выходят раньше чем у соседей с пересекающейся тематикой, и я могу сделать так что таскать у меня новости станет менее удобно.
Всем хорошего дня
У меня довольно часто новости выходят раньше чем у соседей с пересекающейся тематикой, и я могу сделать так что таскать у меня новости станет менее удобно.
Всем хорошего дня
👍26👏6🔥5😁1
Forwarded from CGIT_Vines (Marvin Heemeyer)
This media is not supported in your browser
VIEW IN TELEGRAM
Еще не утихли баталии на счет генеративных 2D конечностей, как в университете Tsinghua пытаются научить сети правильной семантики движения суставов. Задача сложная, в ход идет даже Mixamo и датасет InterHand2.6M.
Успехи оцените сами, но мне кажется, я знаю, куда мы применим мощности квантовых компьютеров. 🤌
Почитать тут
Успехи оцените сами, но мне кажется, я знаю, куда мы применим мощности квантовых компьютеров. 🤌
Почитать тут
😁3👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Помните реконструкцию музыки по фМРТ мозговой активности?
Подоспело еще одно исследование в этой области, только на этот раз вместо фМРТ использовали электроды. В качестве испытуемых приняли участие 29 человек.
Исследователям удалось получить реконструкцию, отдаленно похожую на песню Another Brick in the Wall.
На примере можно услышать оригинал, преобразованный в амплитудную слуховую спектрограмму и обратно в аудиоволну. После него - реконструкция.
Такое преобразование демонстрируют чтобы можно было оценить разницу между оригиналом и реконструкцией в виде спектрограммы, считываемой с мозга. Криво объяснил, но надеюсь понятно.
Хабр
#tought2music #brain2music
Подоспело еще одно исследование в этой области, только на этот раз вместо фМРТ использовали электроды. В качестве испытуемых приняли участие 29 человек.
Исследователям удалось получить реконструкцию, отдаленно похожую на песню Another Brick in the Wall.
На примере можно услышать оригинал, преобразованный в амплитудную слуховую спектрограмму и обратно в аудиоволну. После него - реконструкция.
Такое преобразование демонстрируют чтобы можно было оценить разницу между оригиналом и реконструкцией в виде спектрограммы, считываемой с мозга. Криво объяснил, но надеюсь понятно.
Хабр
#tought2music #brain2music
👍3❤1
Опубликованы экспериментальные облегченные #ControlNet модели для SDXL. Они занимают меньше места, 320 Мб младшие и 545 Мб средние. При этом, по первым отзывам пользователей, работают не так хорошо как полновесные модели.
Что еще интереснее, команда diffusers опубликовала скрипт для обучения моделей ControlNet и код бенчмаркинга. Ну, теперь заживем.
твиттер
canny-small
canny-mid
depth-small
depth-mid
скрипт обучения
код бенчмаркинга
Что еще интереснее, команда diffusers опубликовала скрипт для обучения моделей ControlNet и код бенчмаркинга. Ну, теперь заживем.
твиттер
canny-small
canny-mid
depth-small
depth-mid
скрипт обучения
код бенчмаркинга
ImageBind
Мультимодальная модель от запрещенной в РФ Meta AI обеспечивает машины целостным пониманием, которое связывает объекты на фотографии с тем, как они будут звучать, их трехмерной формой, насколько они теплые или холодные и как они движутся. Таким образом железки становятся на шаг ближе к человеческой способности обучаться одновременно на разных типах информации.
Модель в опенсорсе, доступен код.
Демонстрация
Код
#multimodal
Мультимодальная модель от запрещенной в РФ Meta AI обеспечивает машины целостным пониманием, которое связывает объекты на фотографии с тем, как они будут звучать, их трехмерной формой, насколько они теплые или холодные и как они движутся. Таким образом железки становятся на шаг ближе к человеческой способности обучаться одновременно на разных типах информации.
Модель в опенсорсе, доступен код.
Демонстрация
Код
#multimodal
👍4❤1
Media is too big
VIEW IN TELEGRAM
Relightable and Animatable Neural Avatar from Sparse-View Video
Создание анимируемых аватаров по видео с нескольких или с одного ракурса, с возможностью релайтинга.
Код обещают выложить
#video2avatar #humananimation #relighting
Создание анимируемых аватаров по видео с нескольких или с одного ракурса, с возможностью релайтинга.
Код обещают выложить
#video2avatar #humananimation #relighting
CoDeF: Content Deformation Fields for Temporally Consistent Video Processing
Перенос движения на видео. Осуществляется за счет представления видео в виде Поля деформации контента (CoDeF). Оно состоит из поля каноничного статичного изображения и поля деформации. Казалось бы, звучит как обычный оптический поток. Но наверняка все сложнее. Если любите читать препринты и разберетесь, поделитесь в коментах.
Возможные применения
- стилизация видео, разумеется
- оживление изображений
- точечный трекинг
- сегментный трекинг
- трекинг неригидных объектов вроде дыма или жидкостей
- апскейл видео на основе каноничного апскейленного изображения
Код
Колаб
#video2video #tracking #image2video
Перенос движения на видео. Осуществляется за счет представления видео в виде Поля деформации контента (CoDeF). Оно состоит из поля каноничного статичного изображения и поля деформации. Казалось бы, звучит как обычный оптический поток. Но наверняка все сложнее. Если любите читать препринты и разберетесь, поделитесь в коментах.
Возможные применения
- стилизация видео, разумеется
- оживление изображений
- точечный трекинг
- сегментный трекинг
- трекинг неригидных объектов вроде дыма или жидкостей
- апскейл видео на основе каноничного апскейленного изображения
Код
Колаб
#video2video #tracking #image2video
This media is not supported in your browser
VIEW IN TELEGRAM
SceNeRFlow:Time-Consistent Reconstruction of General Dynamic Scenes
Исследователи (Meta Reality Labs Research, Институт Макса Планка и другие) научились восстанавливать динамическую 3D модель неригидных объектов и сцен по видео с нескольких статичных камер с известными параметрами оптики. Для этого, правда, им еще сначала нужна каноническая модель объекта, для которой рассчитывают деформацию чтобы получить движущуюся 3D модель и отрендерить ее волюметрически.
Кода, увы, нет
#videoto3D #nerf
Исследователи (Meta Reality Labs Research, Институт Макса Планка и другие) научились восстанавливать динамическую 3D модель неригидных объектов и сцен по видео с нескольких статичных камер с известными параметрами оптики. Для этого, правда, им еще сначала нужна каноническая модель объекта, для которой рассчитывают деформацию чтобы получить движущуюся 3D модель и отрендерить ее волюметрически.
Кода, увы, нет
#videoto3D #nerf
👍2