Pro AI – Telegram
Вебинар Ивана Бондаренко "Проблема устойчивости нейросетевых алгоритмов распознавания речи и её решение на примере Wav2Vec2" переносится на неделю.

Встречаемся 17 октября 2023, 16:00 MCK

Ссылка на регистрацию остается актуальной.
👍2
Сегодня в 16.00мск встречаемся на вебинаре Ивана Бондаренко "Проблема устойчивости нейросетевых алгоритмов распознавания речи и её решение на примере Wav2Vec2".

Регистрируйтесь:)
🔥8🤔2
Видеозапись вебинара Ивана Бондаренко "Проблема устойчивости нейросетевых алгоритмов распознавания речи и её решение на примере Wav2Vec2" доступна по ссылке
👍91
Channel photo updated
Channel name was changed to «Pro AI»
Всем привет! Мы возобновляем канал и обновляем формат.

Кто мы? Николай Михайловский, основатель и директор компании НТР, которая разрабатывает информационные системы для крупнейших российских промышленных компаний, и Наталья Дерюгина, научный коммуникатор и математик.

Здесь были и будут объявления о предстоящих вебинарах, которые мы проводим вместе с Высшей IT Школой Томского государственного управления (HITS). А еще здесь будут обзоры статей об искусственном интеллекте, машинном обучении и других задачах и проектах, которые покажутся нам интересными.
🔥163👍3
⚡️Уже на следующей неделе встречаемся на вебинаре Алексея Староверова "Иерархические методы и алгоритмы визуальной навигации внутри помещений с обучаемыми навыками"

🗣Спикер: Алексей Староверов, AIRI, Москва, Россия

🕰 Вторник 12 декабря 2023, 16:00 MCK

🖊Алексей о вебинаре:
Темой семинара является развитие автономности робототехнических систем, поскольку современные методы нуждаются в большем семантическом понимании окружающей среды для решения задачи навигации при поиске целевых объектов и увеличении горизонта планирования. Перенос как обучаемых так и необучаемых методов решения задачи навигации из симуляционной среды в реальный мир также требует развития методологии и увеличения метрик качества получаемой траектории в силу того, что требуется учитывать возникающие шумы в датчиках и актуаторах робота.

Сайт мероприятия

Регистрация на вебинар
🔥7
Выбор данных, SLM и Шмидхубер

Большие языковые модели — это хорошо, но интересно, можно ли получить сравнимое качество на малых моделях. Вести диалог с GPT-2 не получится, а тем более написать диплом или научную статью. Она и другие small language models (SLM) по большей части выдают слабый текст, даже если обучить их на всей Википедии.

При чем здесь Шмидхубер
👍9🤔2
На следующей неделе встречаемся на вебинаре Александра Коротина " Нейросетевые методы вычислительного оптимального транспорта для построения генеративных моделей на непарных данных"

🗣Спикер: Коротин Александр, Сколтех, AIRI, Москва, Россия

🕰 Вторник 19 декабря 2023, 17:00 MCK

🖊Александр о вебинаре:
В докладе будет рассказано о новых методах обучения глубоких генеративных моделей на основе математической теории оптимального транспорта (ОТ). Основное внимание будет уделено новым алгоритмам на основе нейронных сетей для вычисления ОТ и их применению для решения практических задач перевода домена (перенос стиля, сверх-разрешение изображений, и т.д.) с использованием лишь непарных обучающих выборок данных.

Сайт мероприятия

Регистрация на вебинар
👍5🔥3
Диффузионные модели и большие языковые модели прочно заняли и информационное поле, и исследовательское. Диффузионные модели генерируют прекрасные картинки, видео и аудио, а LLM отлично справляются с генерацией текста. Но где-то посередине остается область диффузионных текстовых моделей. Нельзя сказать, что она забыта — нет, исследования ведутся, и есть хорошие локальные успехи — но сравниться с успехам нашумевших LLM и DM пока не получается.

Читать дальше
🔥6👍1
Видеозапись вебинара Алексея Староверова "Иерархические методы и алгоритмы визуальной навигации внутри помещений с обучаемыми навыками" доступна по ссылке
👍6
“Attention is all you need” — так говорило название статьи, представившей трансформеры в 2017. Какое-то время так и казалось, но сейчас архитектуры без внимания возвращают себе былую популярность. Какие-то делают ставку на гейты, какие-то — на свертку, какие-то — комбинируют их. Есть вполне успешные примеры, получалось даже добиться лучшего масштабирования, чем у внимания. Однако, например, на Pile лучшие сверточные модели проигрывают в перплексии трансформером на 2.1 балла.

Такой серьезный провал, как выяснилось, возникает из-за одной единственной характеристики — способности запоминать информацию, которая уже была озвучена. Другими словами — запомнить n-граммы на входе и выдать такие же на выходе. Это свойство называется ассоциативная память (AR - associative recall). Считается, что AR показывает качество понимания контекста. На синтетических задачах новые модели с гейтами и сверткой не уступали вниманию по AR, поэтому разрыв в 2.1 балла перплексии на реальном языке стал сюрпризом.

Синтетические примеры предполагают “один вход-один запрос”. В реальных задачах иногда нужно вспомнить сразу несколько ассоциаций для нескольких токенов. Поэтому исследователи из Стенфорда предложили переформализовать AR в MQAR (multi-query AR). Выглядит это как точная копия AR, только для каждого токена последовательности.

Причиной большой разницы в перплексии оказалось то, что сверточные модели обрабатывают входные последовательности с помощью фиксированных фильтров, заданных весами модели. В моделях же со вниманием есть зависимость от входа, так как они учитывают взаимосвязь токенов, когда собирают последовательность. Разобравшись с теоретической основой проблемы, авторы предложили минимальную архитектуру BaseConv, которая ее закрывает на MQAR на Pile. BaseConv — это гибрид свертки и внимания с зависящим от входа вниманием и сложностью менее (типичной для трансформеров) квадратичной. Он на 97,4% закрывает разрыв в перплексии.
🔥11👍4
Нео-РНН или Make RNNs great again

Когда в 2017 году появились трансформеры, популярные до этого RNN обрели слишком серьезного конкурента и отошли на второй план. Трансформеры допускали распараллеливание, а значит — ускоренное обучение, поэтому быстро захватили NLP. Преимущества трансформеров понятны, но с моделированием длинных последовательностей возникают проблемы даже у них. Для RNN это тоже непростая задача из-за исчезающих или взрывающихся градиентов. Но RNN с их линейной зависимостью от масштаба выглядят гораздо привлекательнее квадратичной сложности трансформеров. Идеальным вариантом было бы совместить преимущества тех и других.

Читать дальше
🔥7👍3
Всё смешалось — эксперты, модели. Как уменьшить LLM, но не проиграть в продуктивности

Следом за накатившей волной LLM с их правилом “чем больше, тем лучше” сразу возникает естественный запрос добиться повышения эффективности не за счет увеличения размера модели. Похоже, что вторая волна будет (или уже есть) именно такая — наращивание размеров уже не так впечатляет, появляется всё больше “хитрых” подходов, которые делают ставку не на размер. Попробуем разобрать некоторые из них.
👍12🙏2
Предобученные языковые модели генерируют качественный текст, сравнимый по качеству с человеческим (иногда даже превосходящий его). Но некоторые проблемы остаются даже у лучших LLM — сеть не понимает, что говорит. Может получаться хоть и виртуозный с точки зрения грамматики и лексики, но всё-таки неверный по смыслу результат.

Известен недавний пример, который авторы окрестили “проклятьем обратимости” (reversal curse). Даже GPT-4 может быть не в состоянии построить обратную логическую связь между простыми фактами. Например, на вопрос о том, как зовут маму Тома Круза GPT-4 отвечает правильно (Мэри Ли Пфайффер). А вот как зовут сына Мэри Ли Пфайффер GPT-4, к сожалению, не знает.

Читать дальше про то, как с этим помогают графы знаний
🔥13👍3👏1😁1
Основная часть параметров LLM относится к слоям прямого распространения (FF, feedforward). Но для выхода не нужны все нейроны этих слоев. В реальности на инференсе играет роль только небольшая доля нейронов FF. Отсюда возникает идея оптимизировать каким-то образом этот процесс и не тратить лишние вычисления на нейроны, которые потом никак не повлияют на выход.

Авторы из ETH Zurich предложили сеть UltraFastBERT, вариант BERT, который используют 0,3% его нейронов, но даёт сравнимые результаты. На инференсе каждого слоя используется всего 12 из 4095 нейронов.

Читать дальше
👍21🔥15
Почти детективное расследование провели в Калифорнийском университете. Авторы взяли 12 разных LLM, включая GPT-3, и проверили их на датасетах, созданных в разное время — до и после обучения моделей. Обнаруженные артефакты указывают на то, что one-shot и few-shot задания улучшают работу модели просто потому, что она уже встречала эти данные в процессе обучения. Авторы назвали это загрязнением заданий, task contamination.

Читать дальше
👍20🔥3😁1😱1
На следующей неделе приглашаем на вебинар Алексея Зайцева "Оценка неопределенности для глубоких нейронных сетей"

🗣Спикер: Алексей Зайцев, Сколтех, Москва, Россия

🕰 Вторник 20 февраля 2024, 16:00 MCK

🖊Алексей о вебинаре:
Нейронные сети используются во многих приложениях. Однако они все рано совершают ошибки, и мы не в полной мере осознаем, когда это происходит. Улучшить качество решений в таком случае позволит оценка степень уверенности в прогнозе. Однако текущие способы оценки неопределенности не очень хороши в силу ряда проблем. В этом докладе мы сделаем общий обзор существующих подходов к оценке неопределенности с фокусом на вероятностные методы. Отдельное внимание мы уделим оценке на основе ансамблей и численно эффективным подходам, основанным на одной нейронной сети, не требующим построения ансамбля и существенные изменения в процедуре обучения.

Сайт мероприятия

Регистрация на вебинар
👍83🔥1
LLM развились до того момента, когда человек стал для них ограничением. Точнее — человеческая обратная связь выходит слабым звеном. Чтобы развиваться дальше, AI нужно избавиться от человека — заголовок, достойный желтой прессы. Но если серьезно, об успешной попытке сделать это рассказали Meta и NYU.

Читать дальше
👍12💩2🤡1🥱1