Forwarded from эйай ньюз
Follow-Your-Emoji:Fine-Controllable and Expressive Freestyle Portrait Animation
Тут завезли нормальный липсинк. Follow Your Emoji берет на вход видео с вашими кривляньями, переводит их в последовательность фреймов с лендмарками, а затем использует их чтобы драйвить входное фото. Это controlnet для лица на стеройдах, который очень хорошо сохраняет личность на входном фото. Все на базе SD.
Вышло настолько хорошо, что методу под силу не просто рот во время открывать, но и глаза косить, смеяться (и чихать, я думаю, тоже) см. примеры, авторы там знатно поиздевались над своим творением.
Код вроде как должны выложить, на project page уже есть ссылка, но пока в никуда.
Еще есть бумага.
@ai_newz
Тут завезли нормальный липсинк. Follow Your Emoji берет на вход видео с вашими кривляньями, переводит их в последовательность фреймов с лендмарками, а затем использует их чтобы драйвить входное фото. Это controlnet для лица на стеройдах, который очень хорошо сохраняет личность на входном фото. Все на базе SD.
Вышло настолько хорошо, что методу под силу не просто рот во время открывать, но и глаза косить, смеяться (и чихать, я думаю, тоже) см. примеры, авторы там знатно поиздевались над своим творением.
Код вроде как должны выложить, на project page уже есть ссылка, но пока в никуда.
Еще есть бумага.
@ai_newz
🔥14❤2
Forwarded from Data, Stories and Languages
LiteVAE: Lightweight and Efficient Variational Autoencoders for Latent Diffusion Models
Исследователи из Disney Studio представляют LiteVAE, семейство автоэнкодеров для LDMs, использующее 2D discrete wavelet transform для повышения масштабируемости и вычислительной эффективности по сравнению с обычными VAEs без потери качества.
Базовая модель LiteVAE сравнима по качеству с существующими VAEs в LDMs, при том, что количество параметров энкодера в шесть раз меньше - это значит, что тренировка идёт быстрее и нужно меньше памяти GPU. Более крупная модель превосходит VAEs аналогичной сложности по всем метрикам.
Paper link
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview
Исследователи из Disney Studio представляют LiteVAE, семейство автоэнкодеров для LDMs, использующее 2D discrete wavelet transform для повышения масштабируемости и вычислительной эффективности по сравнению с обычными VAEs без потери качества.
Базовая модель LiteVAE сравнима по качеству с существующими VAEs в LDMs, при том, что количество параметров энкодера в шесть раз меньше - это значит, что тренировка идёт быстрее и нужно меньше памяти GPU. Более крупная модель превосходит VAEs аналогичной сложности по всем метрикам.
Paper link
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview
🔥13👀3❤1👍1
Власти США подают в суд на adobe
Не одних нас достали постоянные юридические финты ушами от этого гиганта хитровыделанности. Думаю, все в курсе и прошлогодних обновлений пользовательского соглашения, которое давало им разрешение тренить на ваших картинках, загруженных в Фотошоп, нейронки, а также нововведения этого года, которое вообще даёт им роялти-фри лицензию на ваш контент.
До этого дойдут позже, так как государственная машина неповоротлива, а пока предьявляют за намеренное превращение процедуры отписки в полосу препятствий, по прохождении которой можно выдавать краповый (в цвет логотипа адоба) берет отписчика.
Иск
Подробнее
Не одних нас достали постоянные юридические финты ушами от этого гиганта хитровыделанности. Думаю, все в курсе и прошлогодних обновлений пользовательского соглашения, которое давало им разрешение тренить на ваших картинках, загруженных в Фотошоп, нейронки, а также нововведения этого года, которое вообще даёт им роялти-фри лицензию на ваш контент.
До этого дойдут позже, так как государственная машина неповоротлива, а пока предьявляют за намеренное превращение процедуры отписки в полосу препятствий, по прохождении которой можно выдавать краповый (в цвет логотипа адоба) берет отписчика.
Иск
Подробнее
❤26😁10👍6🔥3
Stable diffusion 3 banned from civit.ai
You can make this shit up 😅
Civit.ai временно скрыли все sd3-based модели и лоры.
Причина - широкая лицензия, которая даёт создателям sd3 права на контент, сгенеренный sd3, также модели, обученные на sd3 генерациях; так и непонятки с будущей судьбой stability. Через годик-другой новый владелец вполне может прийти и взыскать все просроченные платежи по подпискам. Ведь на civita.ai есть монетизация, что означает коммерческое использование sd3.
Post
You can make this shit up 😅
Civit.ai временно скрыли все sd3-based модели и лоры.
Причина - широкая лицензия, которая даёт создателям sd3 права на контент, сгенеренный sd3, также модели, обученные на sd3 генерациях; так и непонятки с будущей судьбой stability. Через годик-другой новый владелец вполне может прийти и взыскать все просроченные платежи по подпискам. Ведь на civita.ai есть монетизация, что означает коммерческое использование sd3.
Post
👍19😱7😁3
Изучаем эволюцию терминаторов:
Т (банк или пиво?)
Т4 (Nvidia GPU)
Т5 (text to text transfer transformer)
Т9 (погубил больше всего людей)
Т34
Т800
Т1000
Предлагаем варианты в комментах
Т (банк или пиво?)
Т4 (Nvidia GPU)
Т5 (text to text transfer transformer)
Т9 (погубил больше всего людей)
Т34
Т800
Т1000
Предлагаем варианты в комментах
🫡34🔥9👍3
Media is too big
VIEW IN TELEGRAM
What if beastieboys sabotage was made in the 80s by Nintendo
🔥12😁6🎉5
Forwarded from CGIT_Vines (Marvin Heemeyer)
This media is not supported in your browser
VIEW IN TELEGRAM
Я тут постоянно говорю о том, что нам не хватает инструментов для более точной настройки генераций, чтобы можно было более гибко настраивать и получать более предсказуемые результаты, пригодные для продакшена.
Таких инструментов пока немного, и чаще всего они собраны энтузиастами на коленке.
Как пример, Stable Projectorz — инструмент, созданный для текстурирования 3D-моделей с помощью нейросетей.
Из интересного, функционал поддерживает загрузку 3D-моделей и консистентную генерацию по ракурсам, вспомогательно простраивая карту глубины в реальном времени. Так же очень полезной выглядит фича инпэинтинга по маскам.
Работает на видеокартах NVIDIA (от GTX 1080) или AMD с поддержкой Stable Diffusion и от 12 ГБ оперативки.
Самое главное — после просмотра процесса текстурирования возникает вопрос: для каких целей вы это используете? И что самое главное, если бы вы делали эти же самые манипуляции для качества продакшен реди, не было бы это быстрее сделано привычными пайплайнами текстурирования с более предсказуемыми результатами?
Кажется, что ответ пока всё тот же: для быстрых прототипов или объектов дальнего плана, при сильной стилизации, вполне может сгодиться. Для семи или фотореализма — едва ли.
Но автору безусловный респект за сборку и возможность протестировать бесплатно!
Таких инструментов пока немного, и чаще всего они собраны энтузиастами на коленке.
Как пример, Stable Projectorz — инструмент, созданный для текстурирования 3D-моделей с помощью нейросетей.
Из интересного, функционал поддерживает загрузку 3D-моделей и консистентную генерацию по ракурсам, вспомогательно простраивая карту глубины в реальном времени. Так же очень полезной выглядит фича инпэинтинга по маскам.
Работает на видеокартах NVIDIA (от GTX 1080) или AMD с поддержкой Stable Diffusion и от 12 ГБ оперативки.
Самое главное — после просмотра процесса текстурирования возникает вопрос: для каких целей вы это используете? И что самое главное, если бы вы делали эти же самые манипуляции для качества продакшен реди, не было бы это быстрее сделано привычными пайплайнами текстурирования с более предсказуемыми результатами?
Кажется, что ответ пока всё тот же: для быстрых прототипов или объектов дальнего плана, при сильной стилизации, вполне может сгодиться. Для семи или фотореализма — едва ли.
Но автору безусловный респект за сборку и возможность протестировать бесплатно!
👍20🔥5❤2
Forwarded from эйай ньюз
DeepSeek Coder V2
Опенсорсная модель знающая 338 языков и умеющая кодить на уровне лучших проприетарных моделей - немного отстаёт лишь от Claude 3.5 Sonnet. Она в 3 раза быстрее LLaMa 70B из-за fine-grained MoE архитектуры и MLA, своего эффективного варианта Attention. Это позволяет сделать очень дешёвое API (дешевле Claude 3.5 Sonnet в 50 раз на генерации и в 35 раз на инпуте).
Для тренировки взяли чекпоинт на 4 триллиона токенов от оригинального DeepSeek V2 и дообучили его на 6 триллионах токенов микса кода (60%), математики (10%) и обычных токенов (30%).
Кроме большой модели на 236 миллиардов параметров выпустили ещё и Lite модель, которая кодит на уровне LLaMa 3 70B. Там всего 16 миллиардов параметров и полностью заполненный контекстом KV Cache занимает меньше 2 гигов, так что квантизированная до 4 бит модель прекрасно запускается на 11 гигабайтах видеопамяти.
Если вы уже пробовали использовать эту модель с ollama и она у вас сбивалась на китайский, то это из-за бага в промпте у ollama. Этот баг пофиксили сегодня утром.
Веса: 236B / 16B
Пейпер
@ai_newz
Опенсорсная модель знающая 338 языков и умеющая кодить на уровне лучших проприетарных моделей - немного отстаёт лишь от Claude 3.5 Sonnet. Она в 3 раза быстрее LLaMa 70B из-за fine-grained MoE архитектуры и MLA, своего эффективного варианта Attention. Это позволяет сделать очень дешёвое API (дешевле Claude 3.5 Sonnet в 50 раз на генерации и в 35 раз на инпуте).
Для тренировки взяли чекпоинт на 4 триллиона токенов от оригинального DeepSeek V2 и дообучили его на 6 триллионах токенов микса кода (60%), математики (10%) и обычных токенов (30%).
Кроме большой модели на 236 миллиардов параметров выпустили ещё и Lite модель, которая кодит на уровне LLaMa 3 70B. Там всего 16 миллиардов параметров и полностью заполненный контекстом KV Cache занимает меньше 2 гигов, так что квантизированная до 4 бит модель прекрасно запускается на 11 гигабайтах видеопамяти.
Если вы уже пробовали использовать эту модель с ollama и она у вас сбивалась на китайский, то это из-за бага в промпте у ollama. Этот баг пофиксили сегодня утром.
Веса: 236B / 16B
Пейпер
@ai_newz
🔥25❤1
Forwarded from Machinelearning
🔥Microsoft просто, без громкого анонса (опять!),выпустили новый интересный способ обучения моделей "Instruction Pre-Training, модели и датасеты.
При предварительном обучении с нуля модель 500M, обученная на 100B токенах, достигает производительности модели 1B, предварительно обученной на 300B токенах.
Доступны:
👀 Датасеты
🦙Llama 3 8B с качеством, сравнимым с 70B!
🔥 Общие модели + специализированные модели (медицина/финансы)
▪abs: https://arxiv.org/abs/2406.14491
▪models: https://huggingface.co/instruction-pretrain
@ai_machinelearning_big_data
При предварительном обучении с нуля модель 500M, обученная на 100B токенах, достигает производительности модели 1B, предварительно обученной на 300B токенах.
Доступны:
👀 Датасеты
🦙Llama 3 8B с качеством, сравнимым с 70B!
🔥 Общие модели + специализированные модели (медицина/финансы)
▪abs: https://arxiv.org/abs/2406.14491
▪models: https://huggingface.co/instruction-pretrain
@ai_machinelearning_big_data
🔥74👍10😱2❤1👀1
Forwarded from gonzo-обзоры ML статей
Superconducting supercomputers
В свежем IEEE Spectrum статья про сверхпроводящие компьютеры (https://spectrum.ieee.org/superconducting-computer) и целый стек, разрабатываемый сейчас международной организацией Imec (https://www.imec-int.com/en) со штаб-квартирой в Бельгии.
На фоне разговоров про триллионные кластеры с масштабами энергопотребления уровня 20% общего производства энергии США на один такой кластер (https://situational-awareness.ai/racing-to-the-trillion-dollar-cluster/#Training_compute) и энергию как одно из главных бутылочных горлышек таких затей (https://situational-awareness.ai/racing-to-the-trillion-dollar-cluster/#Power), и даже на фоне более ранних прогнозов из 2015-го про вычисления вообще, где говорилось что к 2040-му требуемая для вычислений энергия превзойдёт мировое производство оной (https://www.semiconductors.org/wp-content/uploads/2018/06/RITR-WEB-version-FINAL.pdf, Figure A8) если продолжать использовать типовые мейнстримовые вычислительные системы, все эти движения выглядят очень актуальными.
Imec разрабатывает решения сразу на всех уровнях стека, от материалов для сверхпроводящего железа, через новые схемотехнические решения для организации логических схем и памяти к архитектурным решениям на уровне совмещения с классической DRAM памятью.
Новые схемы основаны на использовании эффекта Джозефсона в устройствах под названием переход Джозефсона (Josephson junction, JJ, https://www.scientificamerican.com/article/what-are-josephson-juncti/). В них два слоя сверхпроводника разделены тонким слоем диэлектрика, через который туннелирует ток до тех пор, пока этот ток не превышает критическое значение. При превышении критического тока, в переходе возникает импульс напряжения, запускающий ток, который дальше будет течь по сверхпроводящему контуру с JJ бесконечно. На этих контурах можно построить логические элементы (ток течёт -- 1, не течёт -- 0) и память (два связанных контура, если ток в левом -- хранится 1, если ток в правом, а в левом нет -- 0).
Предложенная авторами плата под названием superconductor processing unit (SPU) содержит сверхпроводящие логические контуры и статическую память (SRAM) на JJ, охлаждённую жидким гелием до 4K, также через стеклянный изолятор на схеме есть классические не-сверхпроводящие CMOS DRAM охлаждённые до 77K и далее ведущие наружу в комнатной теплоты мир коннекторы.
Смоделирована система со ста такими платами, размером порядка обувной коробки (20x20x12 см), которая может выдавать 20 exaflops (10^18) в bf16 и потреблять всего 500 киловатт. У топового суперкомпьютера Frontier что-то типа чуть больше 1 экзафлопса, но правда это fp64, а не bf16. И энергопотребление в сотню раз выше. У DGX H100 с 8 GPU заявлено 32 petaflops в fp8, и соответственно 16 petaflops в bf16, то есть 20 exaflops потребует 10000 карт H100. Впечатляет в общем.
Да, требуется энергия на охлаждение, но начиная с некоторого масштаба (в районе десятка петафлопс) она уже полностью отбивается и сверхпроводящий суперкомпьютер обгоняет классический на GPU.
Из дополнительных интересных бонусов может быть более лёгкая интеграция с квантовыми компьютерами, которые требуют похожего охлаждения, а также с термодинамическими компьютерами типа как у Extropic, тоже использующими JJ (https://news.1rj.ru/str/gonzo_ML/2688).
Это потенциально очень интересное развитие. Может и не нужны будут гига-датацентры размером с футбольные поля с атомными электростанциями под боком, а будет свой маленький сверхпроводящий суперкомпьютер на районе? Со своим районным AI.
В свежем IEEE Spectrum статья про сверхпроводящие компьютеры (https://spectrum.ieee.org/superconducting-computer) и целый стек, разрабатываемый сейчас международной организацией Imec (https://www.imec-int.com/en) со штаб-квартирой в Бельгии.
На фоне разговоров про триллионные кластеры с масштабами энергопотребления уровня 20% общего производства энергии США на один такой кластер (https://situational-awareness.ai/racing-to-the-trillion-dollar-cluster/#Training_compute) и энергию как одно из главных бутылочных горлышек таких затей (https://situational-awareness.ai/racing-to-the-trillion-dollar-cluster/#Power), и даже на фоне более ранних прогнозов из 2015-го про вычисления вообще, где говорилось что к 2040-му требуемая для вычислений энергия превзойдёт мировое производство оной (https://www.semiconductors.org/wp-content/uploads/2018/06/RITR-WEB-version-FINAL.pdf, Figure A8) если продолжать использовать типовые мейнстримовые вычислительные системы, все эти движения выглядят очень актуальными.
Imec разрабатывает решения сразу на всех уровнях стека, от материалов для сверхпроводящего железа, через новые схемотехнические решения для организации логических схем и памяти к архитектурным решениям на уровне совмещения с классической DRAM памятью.
Новые схемы основаны на использовании эффекта Джозефсона в устройствах под названием переход Джозефсона (Josephson junction, JJ, https://www.scientificamerican.com/article/what-are-josephson-juncti/). В них два слоя сверхпроводника разделены тонким слоем диэлектрика, через который туннелирует ток до тех пор, пока этот ток не превышает критическое значение. При превышении критического тока, в переходе возникает импульс напряжения, запускающий ток, который дальше будет течь по сверхпроводящему контуру с JJ бесконечно. На этих контурах можно построить логические элементы (ток течёт -- 1, не течёт -- 0) и память (два связанных контура, если ток в левом -- хранится 1, если ток в правом, а в левом нет -- 0).
Предложенная авторами плата под названием superconductor processing unit (SPU) содержит сверхпроводящие логические контуры и статическую память (SRAM) на JJ, охлаждённую жидким гелием до 4K, также через стеклянный изолятор на схеме есть классические не-сверхпроводящие CMOS DRAM охлаждённые до 77K и далее ведущие наружу в комнатной теплоты мир коннекторы.
Смоделирована система со ста такими платами, размером порядка обувной коробки (20x20x12 см), которая может выдавать 20 exaflops (10^18) в bf16 и потреблять всего 500 киловатт. У топового суперкомпьютера Frontier что-то типа чуть больше 1 экзафлопса, но правда это fp64, а не bf16. И энергопотребление в сотню раз выше. У DGX H100 с 8 GPU заявлено 32 petaflops в fp8, и соответственно 16 petaflops в bf16, то есть 20 exaflops потребует 10000 карт H100. Впечатляет в общем.
Да, требуется энергия на охлаждение, но начиная с некоторого масштаба (в районе десятка петафлопс) она уже полностью отбивается и сверхпроводящий суперкомпьютер обгоняет классический на GPU.
Из дополнительных интересных бонусов может быть более лёгкая интеграция с квантовыми компьютерами, которые требуют похожего охлаждения, а также с термодинамическими компьютерами типа как у Extropic, тоже использующими JJ (https://news.1rj.ru/str/gonzo_ML/2688).
Это потенциально очень интересное развитие. Может и не нужны будут гига-датацентры размером с футбольные поля с атомными электростанциями под боком, а будет свой маленький сверхпроводящий суперкомпьютер на районе? Со своим районным AI.
IEEE Spectrum
How to Put a Data Center in a Shoebox
Imec’s plan to use superconductors to shrink computers
🔥19🎉2❤1
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Там Китайцы обновили свою модель для видео генерации Kling (пост про нее). Теперь она умеет оживлять фото, "Image-to-Video", как и Luma, а также может продлить видео вплоть до 3 минут – будет генериться по кусочкам, где каждый кусочек контролируется отдельным промптом.
Пёсель очень круто бежит, да так что уши трясутся❤️ .
@ai_newz
Пёсель очень круто бежит, да так что уши трясутся
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
❤18👍3
Forwarded from эйай ньюз
Карпатый готовит большой курс по LLM – LLM101n: Let's build a Storyteller
Андрей будет учить с нуля и буквально всему - архитектуре, подготовке датасетов, тюнингу, оптимизации, фреймворкам (PyTorch+Jax), CUDA. На выходе у студентов получится что-то похожее на ChatGPT, только написанное абсолютно с нуля.
Такое ему не в первой, он вместе со своим профом Ли Фей-Фей создал и вёл легендарный курс CS231 по глубокому обучению в Стенфорде (имхо этот курс – база, всем советую), да и обучающие видео у него выходят отличные.
В публичном доступе есть репа с содержанием курса, но самих лекций пока нету
Список туториалов Карпатого про LLM:
- Строим GPT с нуля, с разбором кода в ноутбуке (2ч)
- Как тренировали ChatGPT (large scale)
- Интро в большие языковые модели (LLM), тоже от Карпатого. (1ч)
- Токенизация в GPT и как ее закодить (2ч)
- Как воспроизвести и натренировать GPT-2 (124M) с нуля (4ч)
#ликбез
@ai_newz
Андрей будет учить с нуля и буквально всему - архитектуре, подготовке датасетов, тюнингу, оптимизации, фреймворкам (PyTorch+Jax), CUDA. На выходе у студентов получится что-то похожее на ChatGPT, только написанное абсолютно с нуля.
Такое ему не в первой, он вместе со своим профом Ли Фей-Фей создал и вёл легендарный курс CS231 по глубокому обучению в Стенфорде (имхо этот курс – база, всем советую), да и обучающие видео у него выходят отличные.
В публичном доступе есть репа с содержанием курса, но самих лекций пока нету
Список туториалов Карпатого про LLM:
- Строим GPT с нуля, с разбором кода в ноутбуке (2ч)
- Как тренировали ChatGPT (large scale)
- Интро в большие языковые модели (LLM), тоже от Карпатого. (1ч)
- Токенизация в GPT и как ее закодить (2ч)
- Как воспроизвести и натренировать GPT-2 (124M) с нуля (4ч)
#ликбез
@ai_newz
🔥52👍3
Forwarded from Dankest Memes // Данкест Мемс
This media is not supported in your browser
VIEW IN TELEGRAM
До чего нейросети дошли!
😁86🔥14🤩4😱2
Forwarded from Нейросети и Блендер
Luma выпустила интерполяцию между кадрами
📕 Теперь в Luma Dream machine доступно добавление первого кадра и последнего, это позволяет лучше контролировать сцены и скрещивать миры, которые казалось бы никогда не могли находиться в одном пространстве.
🐈⬛ Вчера всю ночь игрался с вариантами, особенно хорошо зашло с новой нодой для ComfyUI от создателя IP Adapter, где можно контролить точечно атеншин, и мем с котом в ученого, как раз был создан через точечный перенос стиля с двух совершенно не похожих объектов (Мемный кот и старая фотка человека с видеоприемником похожего на VR шлем)
LUMA
P.S. У меня есть хорошие новости для всех кто помнит мои обучалки на ютьюбе, а так же кто скучал по моей творческой части канала.Анонсирую второй сезон обучающих роликов и стримов по ComfyUI/Blender и новинок нейронок
LUMA
P.S. У меня есть хорошие новости для всех кто помнит мои обучалки на ютьюбе, а так же кто скучал по моей творческой части канала.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤20🔥10👍6