Forwarded from Джимми Нейрон 🚀
Межпространственные магазины из «Рика и Морти»
Когда я вижу очередной магазин «Мир чего-нибудь», я сразу представляю миры из «Рика и Морти», в которых существуют антропоморфные овощи или, например, основным разумным видом являются насосы. Давно хотел воплотить такое путешествие по разным вселенным. В конце-концов, кто знает, что скрывается за дверью магазина. Может быть там портал в мир цемента!
В комментах невошедшие в основную подборку миры (Мир Люстр, Мир Пряжи и др)
Когда я вижу очередной магазин «Мир чего-нибудь», я сразу представляю миры из «Рика и Морти», в которых существуют антропоморфные овощи или, например, основным разумным видом являются насосы. Давно хотел воплотить такое путешествие по разным вселенным. В конце-концов, кто знает, что скрывается за дверью магазина. Может быть там портал в мир цемента!
В комментах невошедшие в основную подборку миры (Мир Люстр, Мир Пряжи и др)
😁12👍8❤3🤮2
Forwarded from Denis Sexy IT 🤖
Вышел довольно качественный img2mesh алгоритм «Era3D»:
Вы подаете ему картинку, а он вам на выходе делает 3D модельку, с текстурой, картой нормали и тп. Пока это самое качественное, с чем я игрался в этом направлении.
Если захотите получить файл 3D модели, то придется разворачивать алгоритм у себя — в демке можно посмотреть результат только с заданных ракурсов, 3D модель скачать не дауют.
Демка | Код
Я прогнал старые мемы, так что держите проклятый стикер пак:
«Это уже будущее?», как бы говорит нам следующая картинка
Вы подаете ему картинку, а он вам на выходе делает 3D модельку, с текстурой, картой нормали и тп. Пока это самое качественное, с чем я игрался в этом направлении.
Если захотите получить файл 3D модели, то придется разворачивать алгоритм у себя — в демке можно посмотреть результат только с заданных ракурсов, 3D модель скачать не дауют.
Демка | Код
Я прогнал старые мемы, так что держите проклятый стикер пак:
«Это уже будущее?», как бы говорит нам следующая картинка
👍3👎2
Forwarded from Нейронавт | Нейросети в творчестве
SD3 medium
Модель SD3 medium будет опубликована на Huggingface 12 июня.
Реддитор получил имейл от Stability AI с анонсом релиза весов и кода SD3 medium с 2B параметров.
Заявленные сильные стороны:
- фотореализм
- типографика (изображение текста)
- ресурсоэффективность: скорость и требования к ресурсам, позволяющие работать на потребительском железе
- возможность дообучения
Реддит
#news #tetxt2image
Модель SD3 medium будет опубликована на Huggingface 12 июня.
Реддитор получил имейл от Stability AI с анонсом релиза весов и кода SD3 medium с 2B параметров.
Заявленные сильные стороны:
- фотореализм
- типографика (изображение текста)
- ресурсоэффективность: скорость и требования к ресурсам, позволяющие работать на потребительском железе
- возможность дообучения
Реддит
#news #tetxt2image
🍌4🔥2
Forwarded from e/acc
Сегодня твиттер взорвался. Экс-сотрудник OpenAI из команды Superalignment опубликовал 165-страничный документ о будущем ИИ.
Там много деталей, фактов, индукции и вполне разумных прогнозов, поэтому прежде чем строчить гневные и безумные комментарии крайне советую прочитать сам документ.
- AGI к 2027 году более чем вероятен.
- После AGI переход к ASI (сверхинтеллекту) за счет самообучения будет очень быстрым, почти мгновенным
- AGI — это самый существенный геополитический ресурс, куда важнее, чем ядерное оружение и страны пойдут на многое, чтобы получить его первым. В статье приводятся примеры того как китайцы шпионят за ИИ-компаниями в США.
- сегодня большой дата-центр это единицы или десятки мегаватт, но с ИИ потребность вырастет на, как минимум, 4 порядка (x 10,000)
- мы увидим единый вычислительный кластер стоимостью в триллион долларов в течении пяти лет. самая рациональная инвестиция со стороны state actors и big tech — это compute, атомная энергия и инфраструктура для первых двух.
- NVIDIA, MSFT, AMZN, GOOG уже сегодня планируют капекс в $100B в квартал на датацентры только для ИИ
- к 2030 году ежегодно и глобально будет инвестироваться $8T в ИИ (включая чипы и компьют), а так же только для ИИ будет потребляться больше чем 100% э/э генерируемой в США сегодня
- к 2026 году выручка одной из big tech компаний от ИИ превысит $100B
- это не безумно, и сравнимые расходы и сдвиги происходили во время Манхеттенского проекта или Промышленной революции и строительства ж/д
Завтра продолжу со второй частью
Если вам лень читать, то можете послушать вышедший сегодня 4-часовой подкаст о том же самом: https://www.dwarkeshpatel.com/p/leopold-aschenbrenner
Там много деталей, фактов, индукции и вполне разумных прогнозов, поэтому прежде чем строчить гневные и безумные комментарии крайне советую прочитать сам документ.
- AGI к 2027 году более чем вероятен.
- После AGI переход к ASI (сверхинтеллекту) за счет самообучения будет очень быстрым, почти мгновенным
- AGI — это самый существенный геополитический ресурс, куда важнее, чем ядерное оружение и страны пойдут на многое, чтобы получить его первым. В статье приводятся примеры того как китайцы шпионят за ИИ-компаниями в США.
- сегодня большой дата-центр это единицы или десятки мегаватт, но с ИИ потребность вырастет на, как минимум, 4 порядка (x 10,000)
- мы увидим единый вычислительный кластер стоимостью в триллион долларов в течении пяти лет. самая рациональная инвестиция со стороны state actors и big tech — это compute, атомная энергия и инфраструктура для первых двух.
- NVIDIA, MSFT, AMZN, GOOG уже сегодня планируют капекс в $100B в квартал на датацентры только для ИИ
- к 2030 году ежегодно и глобально будет инвестироваться $8T в ИИ (включая чипы и компьют), а так же только для ИИ будет потребляться больше чем 100% э/э генерируемой в США сегодня
- к 2026 году выручка одной из big tech компаний от ИИ превысит $100B
- это не безумно, и сравнимые расходы и сдвиги происходили во время Манхеттенского проекта или Промышленной революции и строительства ж/д
Завтра продолжу со второй частью
Если вам лень читать, то можете послушать вышедший сегодня 4-часовой подкаст о том же самом: https://www.dwarkeshpatel.com/p/leopold-aschenbrenner
👍7💊1
Forwarded from Denis Sexy IT 🤖
Наткнулся на интересный пейпер прошлой недели на любимую тему:
Межвидовая коммуникация и АИ
Есть такой алгоритм Wav2Vec2 от Facebook AI — он позволяет переводить нашу речь в текст. Алгоритм работает намного лучше многих альтернатив, так как не требует много размеченных данных и работает напрямую с аудио дорожками, не пытаясь их сначала конвертировать в текст для обработки. Вместо этого, Wav2Vec2 сам находит важные характеристики звука (тон, звуки, паузы и тп), после чего распознает речь.
Так вот, ученые взяли этот алгоритм и применили к лаю домашних песиков и в итоге решили четыре ML-задачи: распознавание конкретных собак, идентификацию породы, классификацию пола и привязку лая к контексту — модель может сама связать вокализации собаки с контекстом, в котором они были произведены (например, агрессивный лай на незнакомца, игривый лай и т.д.). Это важно, потому что у нас наконец-то есть эффективный способ разметки и обработки собачьих звуков.
Самое прикольное, что Wav2Vec2 обученный сначала на ЧЕЛОВЕЧЕСКОЙ РЕЧИ помогает решать эти задачи еще точнее — это довольно странная и клевая находка.
Короче, если исследование подтвердят другие желающие — то нас ждет зарождение стартапов в области переводчиков с собачьего, котячьего (в этих я не уверен), птичьего и тп и тд. Исследователи готовы поделиться собранным датасетом, если написать им на почту (есть в пейпере)
Сам пейпер тут:
https://arxiv.org/abs/2404.18739
Межвидовая коммуникация и АИ
Есть такой алгоритм Wav2Vec2 от Facebook AI — он позволяет переводить нашу речь в текст. Алгоритм работает намного лучше многих альтернатив, так как не требует много размеченных данных и работает напрямую с аудио дорожками, не пытаясь их сначала конвертировать в текст для обработки. Вместо этого, Wav2Vec2 сам находит важные характеристики звука (тон, звуки, паузы и тп), после чего распознает речь.
Так вот, ученые взяли этот алгоритм и применили к лаю домашних песиков и в итоге решили четыре ML-задачи: распознавание конкретных собак, идентификацию породы, классификацию пола и привязку лая к контексту — модель может сама связать вокализации собаки с контекстом, в котором они были произведены (например, агрессивный лай на незнакомца, игривый лай и т.д.). Это важно, потому что у нас наконец-то есть эффективный способ разметки и обработки собачьих звуков.
Самое прикольное, что Wav2Vec2 обученный сначала на ЧЕЛОВЕЧЕСКОЙ РЕЧИ помогает решать эти задачи еще точнее — это довольно странная и клевая находка.
Короче, если исследование подтвердят другие желающие — то нас ждет зарождение стартапов в области переводчиков с собачьего, котячьего (в этих я не уверен), птичьего и тп и тд. Исследователи готовы поделиться собранным датасетом, если написать им на почту (есть в пейпере)
Сам пейпер тут:
https://arxiv.org/abs/2404.18739
arXiv.org
Towards Dog Bark Decoding: Leveraging Human Speech Processing for...
Similar to humans, animals make extensive use of verbal and non-verbal forms of communication, including a large range of audio signals. In this paper, we address dog vocalizations and explore the...
🔥6
Forwarded from Нейронавт | Нейросети в творчестве
Media is too big
VIEW IN TELEGRAM
Kling
Китайский конкурент Sora - генератор видео по тексту
Хронометраж до 2 минут в Full HD и 30 fps.
До Sora недотягивает, но выглядит получше всего остального что я видел.
- имитирует физику реального мира
- умеет сочетать разные концепции
- кинематографичность
- умеет в разное соотношение сторон
- бонусом умеет делать из картинки тиктоковые танцы. Если я ничего не путаю. Своими глазами вижу это в самом низу сайта
Говорят, доступ дадут обычным землянам
#humananimation #text2video #image2video
Китайский конкурент Sora - генератор видео по тексту
Хронометраж до 2 минут в Full HD и 30 fps.
До Sora недотягивает, но выглядит получше всего остального что я видел.
- имитирует физику реального мира
- умеет сочетать разные концепции
- кинематографичность
- умеет в разное соотношение сторон
- бонусом умеет делать из картинки тиктоковые танцы. Если я ничего не путаю. Своими глазами вижу это в самом низу сайта
Говорят, доступ дадут обычным землянам
#humananimation #text2video #image2video
🤯4👍2
Forwarded from Neural Shit
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Сравнение генераций sora от OpenAI и китайского kling. Местами kling вообще не уступает sora, как по мне.
1)Видео от первого лица, на котором муравей перемещается по муравейнику.
2)Исторические кадры Калифорнии во время золотой лихорадки.
3)Молодой человек сидит на облаке в небе и читает книгу
4)В анимационной сцене крупным планом показан невысокий пушистый монстр, стоящий на коленях рядом с тающей красной свечой.
5)Фотореалистичное видео крупным планом, на котором два пиратских корабля сражаются друг с другом, плавая в чашке кофе
6)Бело-оранжевый полосатый бродячий кот мечется по переулку под проливным дождем в поисках убежища.
7)Гамбургер
1)Видео от первого лица, на котором муравей перемещается по муравейнику.
2)Исторические кадры Калифорнии во время золотой лихорадки.
3)Молодой человек сидит на облаке в небе и читает книгу
4)В анимационной сцене крупным планом показан невысокий пушистый монстр, стоящий на коленях рядом с тающей красной свечой.
5)Фотореалистичное видео крупным планом, на котором два пиратских корабля сражаются друг с другом, плавая в чашке кофе
6)Бело-оранжевый полосатый бродячий кот мечется по переулку под проливным дождем в поисках убежища.
7)Гамбургер
👍9🔥2