NEW BOT Телеграм, страница

ИИ Что?

Сейчас идет Датафест 2023 на котором мне попался очень интересный доклад "momentum истыны". Рассказывается про некоторые особенности работы с SGD, ADAM и т.д. с визуализацией внутреннего состояния обучения на примере упрощенной ResNet.
После доклада сможете лучше понимать как пользоваться SGD и не только.

Кидаю ссылку на доклад с привязкой ко времени
https://youtu.be/j7LAX3Fqhwc?t=5311

YouTube

Data Fest 2023, день 12: оффлайн в Москве 31 мая

Открываем заключительную неделю Data Fest 2023!

Сегодня вас ждут живые выступления в гостях у Сколтеха:
-С 12 до 14 доклады про DS/ML Open Source и Random DS
-С 15 до 18 доклады секции Career

Полное расписание:
https://ods.ai/events/fest2023-moscow4/schedule…

132 viewsIlia Bakalets, edited 12:34

ИИ Что?

Это просто моя мечта, пошел разбираться с генерацией музыки!

101 viewsIlia Bakalets, 16:32

ИИ Что?

Forwarded from эйай ньюз

0:48

This media is not supported in your browser

VIEW IN TELEGRAM

MusicGen - SOTA для генерации музыки по тексту

Братишки из Meta AI только что доставили лучшую нейронку для синтеза музыки по тексту либо по заданной мелодии.

Архитектура основана на авторегрессионном трансформере (только декодер). Вся генерации идет тупо через один трансформер, без всяких иерархических апсемплингов, как обычно это было в предыдущих работах.

Код вылили в составе не просто так, а в составе новой библиотеки Audiocraft, которая задумана для дальнейшего ресерча в генерации аудио. Есть модели разного размера: от 300M до 3.3B параметров. Для инференса локально потребуется 16GB VRAM, но можно и в колабе.

Музыканты, битмейкеры и диджеи - налетайте!

Код + веса
Сайт с примерами генеараций
Демо на HF
Колаб на поиграться

@ai_newz

👍2🔥2

106 viewsIlia Bakalets, 16:32

ИИ Что?

Forwarded from AI для Всех

🔬 Обновления OpenAI API - еще на шаг ближе к личному ассистенту

OpenAI объявило о внедрении целого ряда улучшений в свои модели, среди которых большая гибкость управления моделями API, возможность вызова функций, расширение контекста, а также снижение цен.

Среди новшеств стоит отметить:

📍 Возможность вызова функций в Chat Completions API
📍 Обновлённые и более поддерживаемые версии gpt-4 и gpt-3.5-turbo
📍 Новая версия gpt-3.5-turbo с контекстом 16k (против стандартной версии 4k)
📍 Снижение стоимости на 75% для нашей модели векторного представления данных
📍 Снижение стоимости на 25% за входные токены для gpt-3.5-turbo

Нововведение в виде вызова функций позволит разработчикам более надёжно связывать возможности GPT с внешними инструментами и API.

К примеру, теперь разработчики могут:
📨 Создавать чат-ботов, отвечающих на вопросы с помощью внешних инструментов
🔀 Преобразовывать естественный язык в вызовы API или запросы к базам данных
🗂 Извлекать структурированные данные из текста

И что самое удивительное, пока во всем мире инфляция и цены повышаются - OpenAI наоборот демпингует и снижает цены на использование своего API.

Новость

127 viewsAlexander Kovalev, 17:32

ИИ Что?

Forwarded from the last neural cell (Alexander Kovalev)

🧬

Interesting papers | 01-13 June 2023

💎

Video + Text

Probabilistic Adaptation of Text-to-Video Models

What: Finetune large pretrain text to video model on small domain specific videos.

Complicated but interesting. You can finetune pretrain diffusion model on your domain with small additional block.

Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding

What: Finetune LLM for understanding video+audio.

Use Q-Former for getting audio and video features. Then add it to pretrained llama model.

🧬

Diffusion

Iterative α-(de)Blending: a Minimalist Deterministic Diffusion Model

What: propose simple implementation and intuition of diffusion model.

Good start to dive into the field and try on your data.

💎

Audio Transformers

Simple and Controllable Music Generation

What: propose decoder for text 2 audio based on latent audio features.

They use vq quantization. Check it if you don't hear about it.
It allows to represent data with a limited number of vectors.

💎If you like this format please write in comments.

Please open Telegram to view this post

VIEW IN TELEGRAM

🥰1

155 viewsAlexander Kovalev, 18:16

ИИ Что?

ИИ Что? pinned «Отличные новости - вышел новый выпуск подкаста "ИИ Что!" и в этом выпуске наш гость - Влад Грозин. Он сейчас учится на PhD в США и занимается разработкой рекомендательных систем. Кроме того, он является ex. Head of DS в компании INCYMO. https://www.youtu…»

11:54

ИИ Что?

Forwarded from the last neural cell (Alexander Kovalev)

🧬

Good papers | 13-20 June 2023

Multimodal

🟣LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model

Add visual information to LLM using trainable adapters.

Expand LLaMA Adapters V1 to vision.
+ Apply early fusion for visual tokens.
+ Add calibration of norm, bias of the LLM model.
+ Finetune on image-text dataset.

Audio

🟣High-Fidelity Audio Compression with Improved RVQGAN

Compress natural audio to discrete tokens with VQ technique.

Train universal compression model on all audio data: speech, music, noise.
+ add vector quantization.
+ add adversarial loss (GAN loss).

🟣Voicebox: Text-Guided Multilingual Universal Speech Generation at Scale

Audio generative "diffusion" model trained on 50k hours data.

Use Flow Matching, similar w/ diffusion, but better ✌
Masked train setting with context information. The model can synthesize speech, noise removal, content editing,

Neuro

🟢

Decoding and synthesizing tonal language speech from brain activity

Decode tonal language from ECoG data with CNN-LSTM models.

Adapt multi-stream model -> looks unnecessary complicated.
Record small datasets. Overall 10 minutes per patient for 8 different syllables.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥2

183 viewsAlexander Kovalev, 17:39

ИИ Что?

Forwarded from the last neural cell (Alexander Kovalev)

0:15

Media is too big

VIEW IN TELEGRAM

Introducing motor interface for amputee | ALVI Labs

That is the first system for decoding precise finger movements for people with hand amputation. They use only 8 surface EMG electrodes.

Interface can decode different types of moves virtual reality:
🔘finger flexion
🔘finger extension
🟣typing
🟣some more

Full demo: YouTube link

Subscribe and follow the further progress:
Twitter: link
Instagram: link

Please like and repost YouTube video✨

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥2

227 viewsAlexander Kovalev, 08:30

ИИ Что?

Собираю сейчас данные на я.толоке и пока смотрел материалы различные, нашел работающий промокод на $20. Мелочь, а приятно)
promocode: UNAMTUTORIAL

P.S.
это не реклама))
мне не нравится толока, но сейчас для моей задачи это лучший выбор

233 viewsIlia Bakalets, 14:34

ИИ Что?

Вышла статья по мотивам нашего выпуска с Владом Грозиным.

https://habr.com/ru/companies/magnus-tech/articles/759426/

Спасибо за ее подготовку и публикацию Игорю Santry, IT журналисту у которого, кстати, есть свой блог:
https://news.1rj.ru/str/SantryBlog

Хабр

Влад Грозин о PhD в США, философии в Data Science, пузыре рекомендаций и голодающих геймерах

К нам в гости заглянул Влад Грозин — создатель ODS Pet Projects, ex. Head of Data Science из компании INCYMO, чтобы поговорить за жизнь про получение PhD в Америке и экзистенциальные риски, связанные...

🔥1

269 viewsIlia Bakalets, edited 15:42

ИИ Что?

Новый подкаст в процессе монтажа, а пока я его делаю, можно почитать статью по подкасту с Антоном Мальцевым.

https://habr.com/ru/companies/magnus-tech/articles/768476/

Спасибо за подготовку и публикацию Игорю Santry, IT журналисту

Хабр

Антон Мальцев про удобные NPU, Computer Vision для коботов и восстание неуклюжих машин

У нас в гостях специалист с 15-летним опытом в Machine Learning который совмещает пару высокоуровневых должностей в разных компаниях — Head of ML в Cherry Labs и CTO в Rembrain. За полтора часа мы...

❤1🔥1

242 viewsIlia Bakalets, 14:24

ИИ Что?

Forwarded from the last neural cell (Aleksandr Kovalev)

Meet the new ALVI Interface: a breakthrough in intuitive prosthetic control.

This technology offers individuals with hand differences a new movement experience:
✨ Wrist rotation.
🖐 Finger movement.
🕹 Interaction with objects in VR.

Discover how we're turning futuristic dreams into today's reality. Be among the first to step into this new era of possibilities.

Recent demo:
https://youtu.be/Dx_6Id2clZ0?si=jF9pX3u7tSiKobM5

👍1

232 viewsAleksandr Kovalev, 14:52

ИИ Что?

🎙️ Привет, друзья! В этом выпуске подкаста я пригласил особенного гостя - Романа Тезикова, Senior DL engineer.

🚀 Вместе с Романом мы обсудим его увлекательный опыт, затронем темы Large Language Models (LLM), промтинга, освоения искусства найма сотрудников и проведения эффективных собеседований. Обсудим сферу MLOps и полезные инструменты, такие как ClearML и DVC.

📘 Поговорим о вкладе в open source, а также как Роман стал единственным ревьюером книги Себастьяна Рашки. Будьте готовы к потоку вдохновения от Ромы 🙂

🔗 Ссылки на полезные инструменты и упомянутые проекты будут в описании.

Краткая выжимка в виде статьи на habr
https://habr.com/ru/companies/magnus-tech/articles/792098/

https://youtu.be/Fu48y_QZgg0

YouTube

Роман Тезиков: LLM, процессы в команде, MLOps | ИИ что? #4

В этом выпуске мы обсудили опыт Романа в разработке нейронных сетей и индустрию AI в целом.

Упомянутые статьи и материалы:
Статья Мальцева: "Лопнул ли пузырь машинного обучения, или начало новой зари"
https://habr.com/ru/companies/recognitor/articles/455676/…

🔥2😎1

310 viewsIlia Bakalets, edited 11:13

ИИ Что?

Forwarded from the last neural cell (Aleksandr Kovalev)

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

#10 Summary
Humanoid Locomotion as Next Token Prediction

What.
They trained causal decoder to predict next action (and observation)

Data.
Normally, you'd need a bunch of data that shows both what the robot sees (observations) and what it does (actions). But that's tough to get. The authors used videos - some with the actions laid out and some without. This way, the robot can learn even from videos where we don't know what the actions were supposed to be.
In case there’re not action, they replace with [MASK] token. Very simple and straightforward

My thoughts
- I love how this paper makes the robot predict its next move and what it'll see next. It's like it's planning its future steps.
- For the robot to guess what's going to happen next accurately, it needs to have a mini understanding of physics and how the world works. This concept, called a 'world model,' is super intriguing.
- What's next? You can add condition with cross attention and train to understand commands, like VIMA paper.

More examples

201 viewsAleksandr Kovalev, 21:36

ИИ Что?

Forwarded from the last neural cell (Aleksandr Kovalev)

Brain-To-Text Competition 2024

This is the most fascinating BCI competition yet, organized by Stanford. Everyone has one month to develop the world's best brain-to-speech decoder!

Task: Predict attempted speech from brain activity.

Deadline: June 2, 2024

Dataset: They've recorded 12,100 sentences from a patient who can no longer speak intelligibly due to amyotrophic lateral sclerosis (ALS).

For each sentence, we provide the trannoscript of what the participant was attempting to say, along with the corresponding time series of neural spiking activity recorded from 256 microelectrodes in speech-related areas of cortex.

Just letting you know we're jumping into this challenge!
Together with @Altime, @kovalev_alvi and the team of ALVI Labs, we're going to create something interesting.

Like this post if you want to follow our updates❤️

🔥1

200 viewsAleksandr Kovalev, 15:46

ИИ Что?

Forwarded from the last neural cell (Aleksandr Kovalev)

Muscle-To-Motion Competition 2024

I’m happy to tell you about new competition!

This is the BCI competition, organized by ALVI Labs and BCI Initiative. You've got 21 days to cook up the world's best prosthetic control system.

Task: Predict finger movements from the muscle activation(EMG).

Deadline: August 5, 2024

Dataset: We've recorded 10+ hours of data from both healthy and amputee subjects.

We asked people to make different finger movements (simple moves, gestures, static moves). We recorded muscle activity using Myo Thalmic Armband ( 8 electrodes, 200Hz). Plus, we captured hand positions with 20 DoF at 25 Hz.

This isn't just classification - it's a full regression challenge. We'll test your model on a real amputee. Your code could directly impact someone's life.

Time to create some next-level shit and maybe, just maybe, revolutionize prosthetics. Let’s fun.❤️

kaggle: https://www.kaggle.com/c/bci-initiative-alvi-hci-challenge/overview

Github with code: https://github.com/BCI-I/BCI_ALVI_challenge

👍1

144 viewsAleksandr Kovalev, 10:41

ИИ Что?

Forwarded from the last neural cell (Aleksandr Kovalev)

🧬

Tasty AI papers | 01-31 July 2024

💎

Vision models

Genie: Generative Interactive Environments

What: learn latent actions from videos (only) of games.
- predict future frames based on previous and latent actions.
- they trained actions to help model make transition between frames.
- just let’s AI model figures out commands by yourself.

SAM 2: Segment Anything in Images and Videos

What: SAM now works well with videos.
- annotate big dataset of videos.
- add memory block to ensure temporal consistency of predicted mask.

💎

General

Mixture of A Million Experts

What: expand MoE for lots of experts.
- store low rank approx of experts.
- works better than dense FFN.

The Road Less Scheduled

What: propose schedule-free optimizer.
- one more thing that beats AdamW.
- easy to drop in your training pipeline.

🔘

Diffusion

Rolling Diffusion Models

What: incorporating temporal info in generative diffusion process for videos.
- let’s make denoising and predict next frames at the same time.
- hard math, but idea is interesting.

Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion

What: step into merging local and global planning.

Our approach is shown to combine the strengths of next-token prediction models, such as variable-length generation, with the strengths of full-sequence diffusion models, such as the ability to guide sampling to desirable trajectories.

#digest

Please open Telegram to view this post

VIEW IN TELEGRAM

142 viewsAleksandr Kovalev, 21:03

ИИ Что?

Нашлись умельцы и написали llama 3 с нуля
https://github.com/naklecha/llama3-from-scratch

GitHub

GitHub - naklecha/llama3-from-scratch: llama3 implementation one matrix multiplication at a time

llama3 implementation one matrix multiplication at a time - naklecha/llama3-from-scratch

🔥1

141 viewsIlia Bakalets, 15:17

ИИ Что?

Forwarded from еба́ные идеи для резерча

обучать модели с requires_grad=True менее приятно чем с requires_grad=False из-за так называемого backward effect

137 viewsAleksandr Kovalev, 10:46

ИИ Что?

Forwarded from the last neural cell (Aleksandr Kovalev)

Transformers for brain decoding | foundational models

Хочу рассказать про модели, которые сейчас используют для расшифровки мозговых сигналов (спайки, LFP). Посмотрим, как их обучают на данных с разных сессий и животных, какие подходы к предобучению применяют, и какие архитектуры в ходу. Я выделил три интересные статьи, кратко про каждую.

🔘

POYO-1: A Unified, Scalable Framework for Neural Population Decoding
perciever io, где токены это отдельные спайки, обучали с учителем на разных животных, решая разные задачи.

🔘

Neural Data Transformer 2: Multi-context Pretraining for Neural Spiking Activity
Адаптировали masked autoencoder (MAE). Плюс также добавляют инфу о сессии и о испытуемом. MAE это круто и просто. Вот ссылка на наш обзор

🔘

Towards a "universal translator" for neural dynamics at single-cell, single-spike resolution
Расширили прошлый подход и сделали более умный претрейн, начали добавлять ещё токены о типе маскирования. Показали что стало лучше.

Какой тренд мы видим. Multi task, multi subject, multi sessions, multi multi. Transformers go brr... Короче говоря, берут трансформер и хотят чтобы он решал всё и для всех.

Про каждую модель будет пост. Чётко разберемся что за данные, как их предобрабатывпли, какую модель использовали и что решали.

Везде данные разные да и сравнивать side by side пока тяжеловато. Всё это больше для ознакомления, о том как можно работать с данными. Так что вдохновляйтесь в своей работе)

Just my thought

Трансформер работает с векторами. Поэтому чтобы туда запихнуть наши нейро данные, их нужно вначале в эти вектора превратить. Однако что считать токеном для нейро активности? Отдельные спайки, binned activity, группу нейронов и т.д. Это вопрос открытый. Можно по-разному. Но вот что если сначала сжать информацию? И использовать более полезные токены из нашего “сжимателя”? Пример VQVAE который сейчас для всех аудио задач используется и для картинок, видео тоже. Чем нейро хуже?)

P.S. Если знаете ещё интересные статьи, где работают с intracortical activity. Пожалуйста скиньте. Тоже разберем)

#digest

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

199 viewsAleksandr Kovalev, 13:21

About

Blog

Apps

Platform