Сегодня вышла еще одна моя статья. Спасибо ребятам из DeepSchool)
Forwarded from DeepSchool
Unet
Кажется, первое слово, которое ассоциируется с сегментацией у большинства инженеров и ресерчеров – Unet. Возможно, у кого-то уже сложилась похожая ассоциация и с диффузионными моделями. Ведь в них также используются U-образные архитектуры.
Поэтому про Unet важно знать и можно вспоминать 🙂 Мы разобрали архитектуру 2015 года, а также соотнесли ее с современным положением дел. А именно рассказали:
- какая идея кроется за Unet;
- какие решения были до этой архитектуры;
- какие идеи в статье уже не актуальны;
- что можно использовать в качестве upsampling;
- и как можно улучшить результат Unet.
Читайте, чтобы освежить знания и узнать новое: https://deepschool-pro.notion.site/Unet-bf1d734f847e4bfd8d8c795cdfa6bbc6
Кажется, первое слово, которое ассоциируется с сегментацией у большинства инженеров и ресерчеров – Unet. Возможно, у кого-то уже сложилась похожая ассоциация и с диффузионными моделями. Ведь в них также используются U-образные архитектуры.
Поэтому про Unet важно знать и можно вспоминать 🙂 Мы разобрали архитектуру 2015 года, а также соотнесли ее с современным положением дел. А именно рассказали:
- какая идея кроется за Unet;
- какие решения были до этой архитектуры;
- какие идеи в статье уже не актуальны;
- что можно использовать в качестве upsampling;
- и как можно улучшить результат Unet.
Читайте, чтобы освежить знания и узнать новое: https://deepschool-pro.notion.site/Unet-bf1d734f847e4bfd8d8c795cdfa6bbc6
deepschool-pro on Notion
Unet | Notion
Автор: Илья Бакалец
🔥3
Я рад сообщить, что на канале DeepSchool вышла моя новая статья! В то же время я работаю над новым выпуском подкаста.
🔥2
Forwarded from DeepSchool
CVAT SDK PyTorch Adapter
Если вам надоело вручную выгружать задания от разметчиков и объединять их для загрузки на сервер, то эта статья для вас.
В новом материале обсудим:
- как загрузить данные из CVAT напрямую в torch.utils.data.Dataset;
- советы при работе с CVAT PyTorch SDK;
- недостатки SDK на данный момент.
Читайте новую статью по ссылке, чтобы готовить датасеты быстрее: https://deepschool-pro.notion.site/CVAT-SDK-PyTorch-Adapter-e223563927454322a8d56076e59b8b17
Если вам надоело вручную выгружать задания от разметчиков и объединять их для загрузки на сервер, то эта статья для вас.
В новом материале обсудим:
- как загрузить данные из CVAT напрямую в torch.utils.data.Dataset;
- советы при работе с CVAT PyTorch SDK;
- недостатки SDK на данный момент.
Читайте новую статью по ссылке, чтобы готовить датасеты быстрее: https://deepschool-pro.notion.site/CVAT-SDK-PyTorch-Adapter-e223563927454322a8d56076e59b8b17
👍3🔥2
Отличные новости - вышел новый выпуск подкаста "ИИ Что!" и в этом выпуске наш гость - Влад Грозин. Он сейчас учится на PhD в США и занимается разработкой рекомендательных систем. Кроме того, он является ex. Head of DS в компании INCYMO.
https://www.youtube.com/watch?v=t5myT5RVKP0&ab_channel=ИИчто
https://www.youtube.com/watch?v=t5myT5RVKP0&ab_channel=ИИчто
YouTube
Влад Грозин: мемы в Data Science, PhD в Америке, пузырь рекомендаций | ИИ что? #3
В этом выпуске мы обсудили важные темы, связанные с разработкой рекомендательных систем и процессом обучения в PhD. Мы также коснулись проблем в разработке ПО и проблемы "пузыря рекомендаций", которые могут возникнуть вокруг пользователя. Мы обсудили возможность…
🔥5🍾2
Сейчас идет Датафест 2023 на котором мне попался очень интересный доклад "momentum истыны". Рассказывается про некоторые особенности работы с SGD, ADAM и т.д. с визуализацией внутреннего состояния обучения на примере упрощенной ResNet.
После доклада сможете лучше понимать как пользоваться SGD и не только.
Кидаю ссылку на доклад с привязкой ко времени
https://youtu.be/j7LAX3Fqhwc?t=5311
После доклада сможете лучше понимать как пользоваться SGD и не только.
Кидаю ссылку на доклад с привязкой ко времени
https://youtu.be/j7LAX3Fqhwc?t=5311
YouTube
Data Fest 2023, день 12: оффлайн в Москве 31 мая
Открываем заключительную неделю Data Fest 2023!
Сегодня вас ждут живые выступления в гостях у Сколтеха:
-С 12 до 14 доклады про DS/ML Open Source и Random DS
-С 15 до 18 доклады секции Career
Полное расписание:
https://ods.ai/events/fest2023-moscow4/schedule…
Сегодня вас ждут живые выступления в гостях у Сколтеха:
-С 12 до 14 доклады про DS/ML Open Source и Random DS
-С 15 до 18 доклады секции Career
Полное расписание:
https://ods.ai/events/fest2023-moscow4/schedule…
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
MusicGen - SOTA для генерации музыки по тексту
Братишки из Meta AI только что доставили лучшую нейронку для синтеза музыки по тексту либо по заданной мелодии.
Архитектура основана на авторегрессионном трансформере (только декодер). Вся генерации идет тупо через один трансформер, без всяких иерархических апсемплингов, как обычно это было в предыдущих работах.
Код вылили в составе не просто так, а в составе новой библиотеки Audiocraft, которая задумана для дальнейшего ресерча в генерации аудио. Есть модели разного размера: от 300M до 3.3B параметров. Для инференса локально потребуется 16GB VRAM, но можно и в колабе.
Музыканты, битмейкеры и диджеи - налетайте!
Код + веса
Сайт с примерами генеараций
Демо на HF
Колаб на поиграться
@ai_newz
Братишки из Meta AI только что доставили лучшую нейронку для синтеза музыки по тексту либо по заданной мелодии.
Архитектура основана на авторегрессионном трансформере (только декодер). Вся генерации идет тупо через один трансформер, без всяких иерархических апсемплингов, как обычно это было в предыдущих работах.
Код вылили в составе не просто так, а в составе новой библиотеки Audiocraft, которая задумана для дальнейшего ресерча в генерации аудио. Есть модели разного размера: от 300M до 3.3B параметров. Для инференса локально потребуется 16GB VRAM, но можно и в колабе.
Музыканты, битмейкеры и диджеи - налетайте!
Код + веса
Сайт с примерами генеараций
Демо на HF
Колаб на поиграться
@ai_newz
👍2🔥2
Forwarded from AI для Всех
🔬 Обновления OpenAI API - еще на шаг ближе к личному ассистенту
OpenAI объявило о внедрении целого ряда улучшений в свои модели, среди которых большая гибкость управления моделями API, возможность вызова функций, расширение контекста, а также снижение цен.
Среди новшеств стоит отметить:
📍 Возможность вызова функций в Chat Completions API
📍 Обновлённые и более поддерживаемые версии gpt-4 и gpt-3.5-turbo
📍 Новая версия gpt-3.5-turbo с контекстом 16k (против стандартной версии 4k)
📍 Снижение стоимости на 75% для нашей модели векторного представления данных
📍 Снижение стоимости на 25% за входные токены для gpt-3.5-turbo
Нововведение в виде вызова функций позволит разработчикам более надёжно связывать возможности GPT с внешними инструментами и API.
К примеру, теперь разработчики могут:
📨 Создавать чат-ботов, отвечающих на вопросы с помощью внешних инструментов
🔀 Преобразовывать естественный язык в вызовы API или запросы к базам данных
🗂 Извлекать структурированные данные из текста
И что самое удивительное, пока во всем мире инфляция и цены повышаются - OpenAI наоборот демпингует и снижает цены на использование своего API.
Новость
OpenAI объявило о внедрении целого ряда улучшений в свои модели, среди которых большая гибкость управления моделями API, возможность вызова функций, расширение контекста, а также снижение цен.
Среди новшеств стоит отметить:
📍 Возможность вызова функций в Chat Completions API
📍 Обновлённые и более поддерживаемые версии gpt-4 и gpt-3.5-turbo
📍 Новая версия gpt-3.5-turbo с контекстом 16k (против стандартной версии 4k)
📍 Снижение стоимости на 75% для нашей модели векторного представления данных
📍 Снижение стоимости на 25% за входные токены для gpt-3.5-turbo
Нововведение в виде вызова функций позволит разработчикам более надёжно связывать возможности GPT с внешними инструментами и API.
К примеру, теперь разработчики могут:
📨 Создавать чат-ботов, отвечающих на вопросы с помощью внешних инструментов
🔀 Преобразовывать естественный язык в вызовы API или запросы к базам данных
🗂 Извлекать структурированные данные из текста
И что самое удивительное, пока во всем мире инфляция и цены повышаются - OpenAI наоборот демпингует и снижает цены на использование своего API.
Новость
Forwarded from the last neural cell (Alexander Kovalev)
Probabilistic Adaptation of Text-to-Video Models
What: Finetune large pretrain text to video model on small domain specific videos.
Complicated but interesting. You can finetune pretrain diffusion model on your domain with small additional block.
Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding
What: Finetune LLM for understanding video+audio.
Use Q-Former for getting audio and video features. Then add it to pretrained llama model.
Iterative α-(de)Blending: a Minimalist Deterministic Diffusion Model
What: propose simple implementation and intuition of diffusion model.
Good start to dive into the field and try on your data.
Simple and Controllable Music Generation
What: propose decoder for text 2 audio based on latent audio features.
They use vq quantization. Check it if you don't hear about it.
It allows to represent data with a limited number of vectors.
Please open Telegram to view this post
VIEW IN TELEGRAM
🥰1
Forwarded from the last neural cell (Alexander Kovalev)
Multimodal
Add visual information to LLM using trainable adapters.
Expand LLaMA Adapters V1 to vision.
+ Apply early fusion for visual tokens.
+ Add calibration of norm, bias of the LLM model.
+ Finetune on image-text dataset.
Audio
Compress natural audio to discrete tokens with VQ technique.
Train universal compression model on all audio data: speech, music, noise.
+ add vector quantization.
+ add adversarial loss (GAN loss).
Audio generative "diffusion" model trained on 50k hours data.
Use Flow Matching, similar w/ diffusion, but better
Masked train setting with context information. The model can synthesize speech, noise removal, content editing,
Neuro
Decode tonal language from ECoG data with CNN-LSTM models.
Adapt multi-stream model -> looks unnecessary complicated.
Record small datasets. Overall 10 minutes per patient for 8 different syllables.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2
Forwarded from the last neural cell (Alexander Kovalev)
Media is too big
VIEW IN TELEGRAM
Introducing motor interface for amputee | ALVI Labs
That is the first system for decoding precise finger movements for people with hand amputation. They use only 8 surface EMG electrodes.
Interface can decode different types of moves virtual reality:
🔘 finger flexion
🔘 finger extension
🟣 typing
🟣 some more
Full demo: YouTube link
Subscribe and follow the further progress:
Twitter: link
Instagram: link
Please like and repost YouTube video✨
That is the first system for decoding precise finger movements for people with hand amputation. They use only 8 surface EMG electrodes.
Interface can decode different types of moves virtual reality:
Full demo: YouTube link
Subscribe and follow the further progress:
Twitter: link
Instagram: link
Please like and repost YouTube video
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2
Собираю сейчас данные на я.толоке и пока смотрел материалы различные, нашел работающий промокод на $20. Мелочь, а приятно)
promocode: UNAMTUTORIAL
P.S.
это не реклама))
мне не нравится толока, но сейчас для моей задачи это лучший выбор
promocode: UNAMTUTORIAL
P.S.
это не реклама))
мне не нравится толока, но сейчас для моей задачи это лучший выбор
Вышла статья по мотивам нашего выпуска с Владом Грозиным.
https://habr.com/ru/companies/magnus-tech/articles/759426/
Спасибо за ее подготовку и публикацию Игорю Santry, IT журналисту у которого, кстати, есть свой блог:
https://news.1rj.ru/str/SantryBlog
https://habr.com/ru/companies/magnus-tech/articles/759426/
Спасибо за ее подготовку и публикацию Игорю Santry, IT журналисту у которого, кстати, есть свой блог:
https://news.1rj.ru/str/SantryBlog
Хабр
Влад Грозин о PhD в США, философии в Data Science, пузыре рекомендаций и голодающих геймерах
К нам в гости заглянул Влад Грозин — создатель ODS Pet Projects, ex. Head of Data Science из компании INCYMO, чтобы поговорить за жизнь про получение PhD в Америке и экзистенциальные риски, связанные...
🔥1
Новый подкаст в процессе монтажа, а пока я его делаю, можно почитать статью по подкасту с Антоном Мальцевым.
https://habr.com/ru/companies/magnus-tech/articles/768476/
Спасибо за подготовку и публикацию Игорю Santry, IT журналисту
https://habr.com/ru/companies/magnus-tech/articles/768476/
Спасибо за подготовку и публикацию Игорю Santry, IT журналисту
Хабр
Антон Мальцев про удобные NPU, Computer Vision для коботов и восстание неуклюжих машин
У нас в гостях специалист с 15-летним опытом в Machine Learning который совмещает пару высокоуровневых должностей в разных компаниях — Head of ML в Cherry Labs и CTO в Rembrain. За полтора часа мы...
❤1🔥1
Forwarded from the last neural cell (Aleksandr Kovalev)
Meet the new ALVI Interface: a breakthrough in intuitive prosthetic control.
This technology offers individuals with hand differences a new movement experience:
✨ Wrist rotation.
🖐 Finger movement.
🕹 Interaction with objects in VR.
Discover how we're turning futuristic dreams into today's reality. Be among the first to step into this new era of possibilities.
Recent demo:
https://youtu.be/Dx_6Id2clZ0?si=jF9pX3u7tSiKobM5
This technology offers individuals with hand differences a new movement experience:
✨ Wrist rotation.
🖐 Finger movement.
🕹 Interaction with objects in VR.
Discover how we're turning futuristic dreams into today's reality. Be among the first to step into this new era of possibilities.
Recent demo:
https://youtu.be/Dx_6Id2clZ0?si=jF9pX3u7tSiKobM5
👍1
🎙️ Привет, друзья! В этом выпуске подкаста я пригласил особенного гостя - Романа Тезикова, Senior DL engineer.
🚀 Вместе с Романом мы обсудим его увлекательный опыт, затронем темы Large Language Models (LLM), промтинга, освоения искусства найма сотрудников и проведения эффективных собеседований. Обсудим сферу MLOps и полезные инструменты, такие как ClearML и DVC.
📘 Поговорим о вкладе в open source, а также как Роман стал единственным ревьюером книги Себастьяна Рашки. Будьте готовы к потоку вдохновения от Ромы 🙂
🔗 Ссылки на полезные инструменты и упомянутые проекты будут в описании.
Краткая выжимка в виде статьи на habr
https://habr.com/ru/companies/magnus-tech/articles/792098/
https://youtu.be/Fu48y_QZgg0
🚀 Вместе с Романом мы обсудим его увлекательный опыт, затронем темы Large Language Models (LLM), промтинга, освоения искусства найма сотрудников и проведения эффективных собеседований. Обсудим сферу MLOps и полезные инструменты, такие как ClearML и DVC.
📘 Поговорим о вкладе в open source, а также как Роман стал единственным ревьюером книги Себастьяна Рашки. Будьте готовы к потоку вдохновения от Ромы 🙂
🔗 Ссылки на полезные инструменты и упомянутые проекты будут в описании.
Краткая выжимка в виде статьи на habr
https://habr.com/ru/companies/magnus-tech/articles/792098/
https://youtu.be/Fu48y_QZgg0
YouTube
Роман Тезиков: LLM, процессы в команде, MLOps | ИИ что? #4
В этом выпуске мы обсудили опыт Романа в разработке нейронных сетей и индустрию AI в целом.
Упомянутые статьи и материалы:
Статья Мальцева: "Лопнул ли пузырь машинного обучения, или начало новой зари"
https://habr.com/ru/companies/recognitor/articles/455676/…
Упомянутые статьи и материалы:
Статья Мальцева: "Лопнул ли пузырь машинного обучения, или начало новой зари"
https://habr.com/ru/companies/recognitor/articles/455676/…
🔥2😎1
Forwarded from the last neural cell (Aleksandr Kovalev)
#10 Summary
Humanoid Locomotion as Next Token Prediction
What.
They trained causal decoder to predict next action (and observation)
Data.
Normally, you'd need a bunch of data that shows both what the robot sees (observations) and what it does (actions). But that's tough to get . The authors used videos - some with the actions laid out and some without. This way, the robot can learn even from videos where we don't know what the actions were supposed to be.
In case there’re not action, they replace with [MASK] token. Very simple and straightforward
My thoughts
- I love how this paper makes the robot predict its next move and what it'll see next. It's like it's planning its future steps.
- For the robot to guess what's going to happen next accurately, it needs to have a mini understanding of physics and how the world works. This concept, called a 'world model,' is super intriguing.
- What's next? You can add condition with cross attention and train to understand commands, like VIMA paper.
More examples
Humanoid Locomotion as Next Token Prediction
What.
They trained causal decoder to predict next action (and observation)
Data.
Normally, you'd need a bunch of data that shows both what the robot sees (observations) and what it does (actions).
In case there’re not action, they replace with [MASK] token. Very simple and straightforward
My thoughts
- I love how this paper makes the robot predict its next move and what it'll see next. It's like it's planning its future steps.
- For the robot to guess what's going to happen next accurately, it needs to have a mini understanding of physics and how the world works. This concept, called a 'world model,' is super intriguing.
- What's next? You can add condition with cross attention and train to understand commands, like VIMA paper.
More examples