Pro AI – Telegram
Всем привет👋

Во вторник ждем вас на вебинаре «Глубокое обучение для моделирования и реконструкции 3D форм»

Спикер: Евгений Бурнаев, Сколтех, Россия

Когда и во сколько: 29 августа 2023, 17:00 MCK

Спикер о вебинаре:
В докладе я расскажу об одной из важнейших для компьютерного зрения задач – моделирование и реконструкция 3D объектов. Действительно, современные приложения в области компьютерной графики и анимации, построения сцен для виртуальной и дополненной реальности и робототехники были бы невозможными без точных алгоритмов анализа и моделирования трехмерных изображений, учитывающих геометрию сцены. Вы узнаете об основных этапах, которые необходимо пройти при реконструкции 3D объектов, и о том, какие методы на этих этапах можно использовать, а также о том, какие данные для этого требуются и каким образом их можно собирать.

✔️Регистрация на вебинар

🌐Страница вебинара на сайте НТР

📹Youtube
👍9
⚡️На следующей неделе встречаемся на вебинаре Ивана Бондаренко "Проблема устойчивости нейросетевых алгоритмов распознавания речи и её решение на примере Wav2Vec2"

🗣Спикер: Иван Бондаренко, Новосибирский Государственный Университет, Новосибирск, Россия

🕰 Вторник 10 октября 2023, 16:00 MCK

🖊Иван о вебинаре:
Современные нейросетевые алгоритмы распознавания речи, несмотря на демонстрацию впечатляющих успехов на ряде бенчмарков, всё ещё недостаточно устойчивы к сдвигу данных. Нередкой является ситуация, когда модель показывает весьма низкий уровень ошибок на тестовой части одного из популярных академических датасетов (например, Librispeech или CommonVoice), но качество этой же модели на реальных данных в ходе эксплуатации существенно отличается в худшую сторону.
В своём докладе я попробую охарактеризовать проблему устойчивости нейросетевых алгоритмов распознавания речи и рассмотреть подходы к её решению в рамках парадигмы минимизации инвариантного риска (invariant risk minimization). Отдельное внимание я уделю вопросу о том, что в рамках данной парадигмы может являться средой (environment) для алгоритма распознавания речи и как автоматизировать разметку обучающих речевых корпусов по средам.

Сайт мероприятия

Регистрация на вебинар
🔥8
Вебинар Ивана Бондаренко "Проблема устойчивости нейросетевых алгоритмов распознавания речи и её решение на примере Wav2Vec2" переносится на неделю.

Встречаемся 17 октября 2023, 16:00 MCK

Ссылка на регистрацию остается актуальной.
👍2
Сегодня в 16.00мск встречаемся на вебинаре Ивана Бондаренко "Проблема устойчивости нейросетевых алгоритмов распознавания речи и её решение на примере Wav2Vec2".

Регистрируйтесь:)
🔥8🤔2
Видеозапись вебинара Ивана Бондаренко "Проблема устойчивости нейросетевых алгоритмов распознавания речи и её решение на примере Wav2Vec2" доступна по ссылке
👍91
Channel photo updated
Channel name was changed to «Pro AI»
Всем привет! Мы возобновляем канал и обновляем формат.

Кто мы? Николай Михайловский, основатель и директор компании НТР, которая разрабатывает информационные системы для крупнейших российских промышленных компаний, и Наталья Дерюгина, научный коммуникатор и математик.

Здесь были и будут объявления о предстоящих вебинарах, которые мы проводим вместе с Высшей IT Школой Томского государственного управления (HITS). А еще здесь будут обзоры статей об искусственном интеллекте, машинном обучении и других задачах и проектах, которые покажутся нам интересными.
🔥163👍3
⚡️Уже на следующей неделе встречаемся на вебинаре Алексея Староверова "Иерархические методы и алгоритмы визуальной навигации внутри помещений с обучаемыми навыками"

🗣Спикер: Алексей Староверов, AIRI, Москва, Россия

🕰 Вторник 12 декабря 2023, 16:00 MCK

🖊Алексей о вебинаре:
Темой семинара является развитие автономности робототехнических систем, поскольку современные методы нуждаются в большем семантическом понимании окружающей среды для решения задачи навигации при поиске целевых объектов и увеличении горизонта планирования. Перенос как обучаемых так и необучаемых методов решения задачи навигации из симуляционной среды в реальный мир также требует развития методологии и увеличения метрик качества получаемой траектории в силу того, что требуется учитывать возникающие шумы в датчиках и актуаторах робота.

Сайт мероприятия

Регистрация на вебинар
🔥7
Выбор данных, SLM и Шмидхубер

Большие языковые модели — это хорошо, но интересно, можно ли получить сравнимое качество на малых моделях. Вести диалог с GPT-2 не получится, а тем более написать диплом или научную статью. Она и другие small language models (SLM) по большей части выдают слабый текст, даже если обучить их на всей Википедии.

При чем здесь Шмидхубер
👍9🤔2
На следующей неделе встречаемся на вебинаре Александра Коротина " Нейросетевые методы вычислительного оптимального транспорта для построения генеративных моделей на непарных данных"

🗣Спикер: Коротин Александр, Сколтех, AIRI, Москва, Россия

🕰 Вторник 19 декабря 2023, 17:00 MCK

🖊Александр о вебинаре:
В докладе будет рассказано о новых методах обучения глубоких генеративных моделей на основе математической теории оптимального транспорта (ОТ). Основное внимание будет уделено новым алгоритмам на основе нейронных сетей для вычисления ОТ и их применению для решения практических задач перевода домена (перенос стиля, сверх-разрешение изображений, и т.д.) с использованием лишь непарных обучающих выборок данных.

Сайт мероприятия

Регистрация на вебинар
👍5🔥3
Диффузионные модели и большие языковые модели прочно заняли и информационное поле, и исследовательское. Диффузионные модели генерируют прекрасные картинки, видео и аудио, а LLM отлично справляются с генерацией текста. Но где-то посередине остается область диффузионных текстовых моделей. Нельзя сказать, что она забыта — нет, исследования ведутся, и есть хорошие локальные успехи — но сравниться с успехам нашумевших LLM и DM пока не получается.

Читать дальше
🔥6👍1
Видеозапись вебинара Алексея Староверова "Иерархические методы и алгоритмы визуальной навигации внутри помещений с обучаемыми навыками" доступна по ссылке
👍6
“Attention is all you need” — так говорило название статьи, представившей трансформеры в 2017. Какое-то время так и казалось, но сейчас архитектуры без внимания возвращают себе былую популярность. Какие-то делают ставку на гейты, какие-то — на свертку, какие-то — комбинируют их. Есть вполне успешные примеры, получалось даже добиться лучшего масштабирования, чем у внимания. Однако, например, на Pile лучшие сверточные модели проигрывают в перплексии трансформером на 2.1 балла.

Такой серьезный провал, как выяснилось, возникает из-за одной единственной характеристики — способности запоминать информацию, которая уже была озвучена. Другими словами — запомнить n-граммы на входе и выдать такие же на выходе. Это свойство называется ассоциативная память (AR - associative recall). Считается, что AR показывает качество понимания контекста. На синтетических задачах новые модели с гейтами и сверткой не уступали вниманию по AR, поэтому разрыв в 2.1 балла перплексии на реальном языке стал сюрпризом.

Синтетические примеры предполагают “один вход-один запрос”. В реальных задачах иногда нужно вспомнить сразу несколько ассоциаций для нескольких токенов. Поэтому исследователи из Стенфорда предложили переформализовать AR в MQAR (multi-query AR). Выглядит это как точная копия AR, только для каждого токена последовательности.

Причиной большой разницы в перплексии оказалось то, что сверточные модели обрабатывают входные последовательности с помощью фиксированных фильтров, заданных весами модели. В моделях же со вниманием есть зависимость от входа, так как они учитывают взаимосвязь токенов, когда собирают последовательность. Разобравшись с теоретической основой проблемы, авторы предложили минимальную архитектуру BaseConv, которая ее закрывает на MQAR на Pile. BaseConv — это гибрид свертки и внимания с зависящим от входа вниманием и сложностью менее (типичной для трансформеров) квадратичной. Он на 97,4% закрывает разрыв в перплексии.
🔥11👍4
Нео-РНН или Make RNNs great again

Когда в 2017 году появились трансформеры, популярные до этого RNN обрели слишком серьезного конкурента и отошли на второй план. Трансформеры допускали распараллеливание, а значит — ускоренное обучение, поэтому быстро захватили NLP. Преимущества трансформеров понятны, но с моделированием длинных последовательностей возникают проблемы даже у них. Для RNN это тоже непростая задача из-за исчезающих или взрывающихся градиентов. Но RNN с их линейной зависимостью от масштаба выглядят гораздо привлекательнее квадратичной сложности трансформеров. Идеальным вариантом было бы совместить преимущества тех и других.

Читать дальше
🔥7👍3
Всё смешалось — эксперты, модели. Как уменьшить LLM, но не проиграть в продуктивности

Следом за накатившей волной LLM с их правилом “чем больше, тем лучше” сразу возникает естественный запрос добиться повышения эффективности не за счет увеличения размера модели. Похоже, что вторая волна будет (или уже есть) именно такая — наращивание размеров уже не так впечатляет, появляется всё больше “хитрых” подходов, которые делают ставку не на размер. Попробуем разобрать некоторые из них.
👍12🙏2
Предобученные языковые модели генерируют качественный текст, сравнимый по качеству с человеческим (иногда даже превосходящий его). Но некоторые проблемы остаются даже у лучших LLM — сеть не понимает, что говорит. Может получаться хоть и виртуозный с точки зрения грамматики и лексики, но всё-таки неверный по смыслу результат.

Известен недавний пример, который авторы окрестили “проклятьем обратимости” (reversal curse). Даже GPT-4 может быть не в состоянии построить обратную логическую связь между простыми фактами. Например, на вопрос о том, как зовут маму Тома Круза GPT-4 отвечает правильно (Мэри Ли Пфайффер). А вот как зовут сына Мэри Ли Пфайффер GPT-4, к сожалению, не знает.

Читать дальше про то, как с этим помогают графы знаний
🔥13👍3👏1😁1
Основная часть параметров LLM относится к слоям прямого распространения (FF, feedforward). Но для выхода не нужны все нейроны этих слоев. В реальности на инференсе играет роль только небольшая доля нейронов FF. Отсюда возникает идея оптимизировать каким-то образом этот процесс и не тратить лишние вычисления на нейроны, которые потом никак не повлияют на выход.

Авторы из ETH Zurich предложили сеть UltraFastBERT, вариант BERT, который используют 0,3% его нейронов, но даёт сравнимые результаты. На инференсе каждого слоя используется всего 12 из 4095 нейронов.

Читать дальше
👍21🔥15
Почти детективное расследование провели в Калифорнийском университете. Авторы взяли 12 разных LLM, включая GPT-3, и проверили их на датасетах, созданных в разное время — до и после обучения моделей. Обнаруженные артефакты указывают на то, что one-shot и few-shot задания улучшают работу модели просто потому, что она уже встречала эти данные в процессе обучения. Авторы назвали это загрязнением заданий, task contamination.

Читать дальше
👍20🔥3😁1😱1