Pro AI
Всем привет👋 Во вторник ждем вас на вебинаре «Глубокое обучение для моделирования и реконструкции 3D форм» Спикер: Евгений Бурнаев, Сколтех, Россия Когда и во сколько: 29 августа 2023, 17:00 MCK Спикер о вебинаре: В докладе я расскажу об одной из важнейших…
Видеозапись вчерашнего вебинара «Глубокое обучение для моделирования и реконструкции 3D форм» уже доступна по ссылке
YouTube
Глубокое обучение для моделирования и реконструкции 3D форм. Евгений Бурнаев, Сколтех
Научно-технический вебинар «Глубокое обучение для моделирования и реконструкции 3D форм»
Спикер
Евгений Бурнаев, Сколтех, Россия
Спикер о вебинаре:
В докладе я рассказал об одной из важнейших для компьютерного зрения задач – моделирование и реконструкция…
Спикер
Евгений Бурнаев, Сколтех, Россия
Спикер о вебинаре:
В докладе я рассказал об одной из важнейших для компьютерного зрения задач – моделирование и реконструкция…
🔥5👍2
⚡️На следующей неделе встречаемся на вебинаре Ивана Бондаренко "Проблема устойчивости нейросетевых алгоритмов распознавания речи и её решение на примере Wav2Vec2"
🗣Спикер: Иван Бондаренко, Новосибирский Государственный Университет, Новосибирск, Россия
🕰 Вторник 10 октября 2023, 16:00 MCK
🖊Иван о вебинаре:
Современные нейросетевые алгоритмы распознавания речи, несмотря на демонстрацию впечатляющих успехов на ряде бенчмарков, всё ещё недостаточно устойчивы к сдвигу данных. Нередкой является ситуация, когда модель показывает весьма низкий уровень ошибок на тестовой части одного из популярных академических датасетов (например, Librispeech или CommonVoice), но качество этой же модели на реальных данных в ходе эксплуатации существенно отличается в худшую сторону.
В своём докладе я попробую охарактеризовать проблему устойчивости нейросетевых алгоритмов распознавания речи и рассмотреть подходы к её решению в рамках парадигмы минимизации инвариантного риска (invariant risk minimization). Отдельное внимание я уделю вопросу о том, что в рамках данной парадигмы может являться средой (environment) для алгоритма распознавания речи и как автоматизировать разметку обучающих речевых корпусов по средам.
Сайт мероприятия
✅Регистрация на вебинар✅
🗣Спикер: Иван Бондаренко, Новосибирский Государственный Университет, Новосибирск, Россия
🕰 Вторник 10 октября 2023, 16:00 MCK
🖊Иван о вебинаре:
Современные нейросетевые алгоритмы распознавания речи, несмотря на демонстрацию впечатляющих успехов на ряде бенчмарков, всё ещё недостаточно устойчивы к сдвигу данных. Нередкой является ситуация, когда модель показывает весьма низкий уровень ошибок на тестовой части одного из популярных академических датасетов (например, Librispeech или CommonVoice), но качество этой же модели на реальных данных в ходе эксплуатации существенно отличается в худшую сторону.
В своём докладе я попробую охарактеризовать проблему устойчивости нейросетевых алгоритмов распознавания речи и рассмотреть подходы к её решению в рамках парадигмы минимизации инвариантного риска (invariant risk minimization). Отдельное внимание я уделю вопросу о том, что в рамках данной парадигмы может являться средой (environment) для алгоритма распознавания речи и как автоматизировать разметку обучающих речевых корпусов по средам.
Сайт мероприятия
✅Регистрация на вебинар✅
Компания НТР | Разработка информационных систем
Научно-технический вебинар «Проблема устойчивости нейросетевых алгоритмов распознавания речи и её решение на примере Wav2Vec2»…
Спикер о вебинаре: Современные нейросетевые алгоритмы распознавания речи, несмотря на демонстрацию впечатляющих успехов на ряде бенчмарков, всё ещё недостаточно устойчивы к сдвигу данных. Нередкой является ситуация, когда модель показывает весьма низкий уровень…
🔥8
Вебинар Ивана Бондаренко "Проблема устойчивости нейросетевых алгоритмов распознавания речи и её решение на примере Wav2Vec2" переносится на неделю.
Встречаемся 17 октября 2023, 16:00 MCK
Ссылка на регистрацию остается актуальной.
Встречаемся 17 октября 2023, 16:00 MCK
Ссылка на регистрацию остается актуальной.
👍2
Сегодня в 16.00мск встречаемся на вебинаре Ивана Бондаренко "Проблема устойчивости нейросетевых алгоритмов распознавания речи и её решение на примере Wav2Vec2".
Регистрируйтесь:)
Регистрируйтесь:)
🔥8🤔2
Всем привет! Мы возобновляем канал и обновляем формат.
Кто мы? Николай Михайловский, основатель и директор компании НТР, которая разрабатывает информационные системы для крупнейших российских промышленных компаний, и Наталья Дерюгина, научный коммуникатор и математик.
Здесь были и будут объявления о предстоящих вебинарах, которые мы проводим вместе с Высшей IT Школой Томского государственного управления (HITS). А еще здесь будут обзоры статей об искусственном интеллекте, машинном обучении и других задачах и проектах, которые покажутся нам интересными.
Кто мы? Николай Михайловский, основатель и директор компании НТР, которая разрабатывает информационные системы для крупнейших российских промышленных компаний, и Наталья Дерюгина, научный коммуникатор и математик.
Здесь были и будут объявления о предстоящих вебинарах, которые мы проводим вместе с Высшей IT Школой Томского государственного управления (HITS). А еще здесь будут обзоры статей об искусственном интеллекте, машинном обучении и других задачах и проектах, которые покажутся нам интересными.
🔥16❤3👍3
⚡️Уже на следующей неделе встречаемся на вебинаре Алексея Староверова "Иерархические методы и алгоритмы визуальной навигации внутри помещений с обучаемыми навыками"
🗣Спикер: Алексей Староверов, AIRI, Москва, Россия
🕰 Вторник 12 декабря 2023, 16:00 MCK
🖊Алексей о вебинаре:
Темой семинара является развитие автономности робототехнических систем, поскольку современные методы нуждаются в большем семантическом понимании окружающей среды для решения задачи навигации при поиске целевых объектов и увеличении горизонта планирования. Перенос как обучаемых так и необучаемых методов решения задачи навигации из симуляционной среды в реальный мир также требует развития методологии и увеличения метрик качества получаемой траектории в силу того, что требуется учитывать возникающие шумы в датчиках и актуаторах робота.
Сайт мероприятия
✅Регистрация на вебинар✅
🗣Спикер: Алексей Староверов, AIRI, Москва, Россия
🕰 Вторник 12 декабря 2023, 16:00 MCK
🖊Алексей о вебинаре:
Темой семинара является развитие автономности робототехнических систем, поскольку современные методы нуждаются в большем семантическом понимании окружающей среды для решения задачи навигации при поиске целевых объектов и увеличении горизонта планирования. Перенос как обучаемых так и необучаемых методов решения задачи навигации из симуляционной среды в реальный мир также требует развития методологии и увеличения метрик качества получаемой траектории в силу того, что требуется учитывать возникающие шумы в датчиках и актуаторах робота.
Сайт мероприятия
✅Регистрация на вебинар✅
🔥7
Выбор данных, SLM и Шмидхубер
Большие языковые модели — это хорошо, но интересно, можно ли получить сравнимое качество на малых моделях. Вести диалог с GPT-2 не получится, а тем более написать диплом или научную статью. Она и другие small language models (SLM) по большей части выдают слабый текст, даже если обучить их на всей Википедии.
При чем здесь Шмидхубер
Большие языковые модели — это хорошо, но интересно, можно ли получить сравнимое качество на малых моделях. Вести диалог с GPT-2 не получится, а тем более написать диплом или научную статью. Она и другие small language models (SLM) по большей части выдают слабый текст, даже если обучить их на всей Википедии.
При чем здесь Шмидхубер
Telegraph
Выбор данных, SLM и Шмидхубер
Большие языковые модели — это хорошо, но интересно, можно ли получить сравнимое качество на малых моделях. Вести диалог с GPT-2 не получится, а тем более написать диплом или научную статью. Она и другие small language models (SLM) по большей части выдают…
👍9🤔2
⚡На следующей неделе встречаемся на вебинаре Александра Коротина " Нейросетевые методы вычислительного оптимального транспорта для построения генеративных моделей на непарных данных"
🗣Спикер: Коротин Александр, Сколтех, AIRI, Москва, Россия
🕰 Вторник 19 декабря 2023, 17:00 MCK
🖊Александр о вебинаре:
В докладе будет рассказано о новых методах обучения глубоких генеративных моделей на основе математической теории оптимального транспорта (ОТ). Основное внимание будет уделено новым алгоритмам на основе нейронных сетей для вычисления ОТ и их применению для решения практических задач перевода домена (перенос стиля, сверх-разрешение изображений, и т.д.) с использованием лишь непарных обучающих выборок данных.
Сайт мероприятия
✅Регистрация на вебинар✅
🗣Спикер: Коротин Александр, Сколтех, AIRI, Москва, Россия
🕰 Вторник 19 декабря 2023, 17:00 MCK
🖊Александр о вебинаре:
В докладе будет рассказано о новых методах обучения глубоких генеративных моделей на основе математической теории оптимального транспорта (ОТ). Основное внимание будет уделено новым алгоритмам на основе нейронных сетей для вычисления ОТ и их применению для решения практических задач перевода домена (перенос стиля, сверх-разрешение изображений, и т.д.) с использованием лишь непарных обучающих выборок данных.
Сайт мероприятия
✅Регистрация на вебинар✅
👍5🔥3
Диффузионные модели и большие языковые модели прочно заняли и информационное поле, и исследовательское. Диффузионные модели генерируют прекрасные картинки, видео и аудио, а LLM отлично справляются с генерацией текста. Но где-то посередине остается область диффузионных текстовых моделей. Нельзя сказать, что она забыта — нет, исследования ведутся, и есть хорошие локальные успехи — но сравниться с успехам нашумевших LLM и DM пока не получается.
Читать дальше
Читать дальше
Telegraph
Диффузионные текстовые модели
Диффузионные модели и большие языковые модели прочно заняли и информационное поле, и исследовательское. Диффузионные модели генерируют прекрасные картинки, видео и аудио, а LLM отлично справляются с генерацией текста. Но где-то посередине остается область…
🔥6👍1
“Attention is all you need” — так говорило название статьи, представившей трансформеры в 2017. Какое-то время так и казалось, но сейчас архитектуры без внимания возвращают себе былую популярность. Какие-то делают ставку на гейты, какие-то — на свертку, какие-то — комбинируют их. Есть вполне успешные примеры, получалось даже добиться лучшего масштабирования, чем у внимания. Однако, например, на Pile лучшие сверточные модели проигрывают в перплексии трансформером на 2.1 балла.
Такой серьезный провал, как выяснилось, возникает из-за одной единственной характеристики — способности запоминать информацию, которая уже была озвучена. Другими словами — запомнить n-граммы на входе и выдать такие же на выходе. Это свойство называется ассоциативная память (AR - associative recall). Считается, что AR показывает качество понимания контекста. На синтетических задачах новые модели с гейтами и сверткой не уступали вниманию по AR, поэтому разрыв в 2.1 балла перплексии на реальном языке стал сюрпризом.
Синтетические примеры предполагают “один вход-один запрос”. В реальных задачах иногда нужно вспомнить сразу несколько ассоциаций для нескольких токенов. Поэтому исследователи из Стенфорда предложили переформализовать AR в MQAR (multi-query AR). Выглядит это как точная копия AR, только для каждого токена последовательности.
Причиной большой разницы в перплексии оказалось то, что сверточные модели обрабатывают входные последовательности с помощью фиксированных фильтров, заданных весами модели. В моделях же со вниманием есть зависимость от входа, так как они учитывают взаимосвязь токенов, когда собирают последовательность. Разобравшись с теоретической основой проблемы, авторы предложили минимальную архитектуру BaseConv, которая ее закрывает на MQAR на Pile. BaseConv — это гибрид свертки и внимания с зависящим от входа вниманием и сложностью менее (типичной для трансформеров) квадратичной. Он на 97,4% закрывает разрыв в перплексии.
Такой серьезный провал, как выяснилось, возникает из-за одной единственной характеристики — способности запоминать информацию, которая уже была озвучена. Другими словами — запомнить n-граммы на входе и выдать такие же на выходе. Это свойство называется ассоциативная память (AR - associative recall). Считается, что AR показывает качество понимания контекста. На синтетических задачах новые модели с гейтами и сверткой не уступали вниманию по AR, поэтому разрыв в 2.1 балла перплексии на реальном языке стал сюрпризом.
Синтетические примеры предполагают “один вход-один запрос”. В реальных задачах иногда нужно вспомнить сразу несколько ассоциаций для нескольких токенов. Поэтому исследователи из Стенфорда предложили переформализовать AR в MQAR (multi-query AR). Выглядит это как точная копия AR, только для каждого токена последовательности.
Причиной большой разницы в перплексии оказалось то, что сверточные модели обрабатывают входные последовательности с помощью фиксированных фильтров, заданных весами модели. В моделях же со вниманием есть зависимость от входа, так как они учитывают взаимосвязь токенов, когда собирают последовательность. Разобравшись с теоретической основой проблемы, авторы предложили минимальную архитектуру BaseConv, которая ее закрывает на MQAR на Pile. BaseConv — это гибрид свертки и внимания с зависящим от входа вниманием и сложностью менее (типичной для трансформеров) квадратичной. Он на 97,4% закрывает разрыв в перплексии.
🔥11👍4
Видеозапись вебинара Александра Коротина "Нейросетевые методы вычислительного оптимального транспорта для построения генеративных моделей" доступна по ссылке
YouTube
Нейросетевые методы вычислительного оптимального транспорта для построения генеративных моделей...
🗣Спикер: Коротин Александр, Сколтех, AIRI, Москва, Россия
🕰 Вторник 19 декабря 2023, 17:00 MCK
🖊Александр о вебинаре:
В докладе будет рассказано о новых методах обучения глубоких генеративных моделей на основе математической теории оптимального…
🕰 Вторник 19 декабря 2023, 17:00 MCK
🖊Александр о вебинаре:
В докладе будет рассказано о новых методах обучения глубоких генеративных моделей на основе математической теории оптимального…
👍10🔥1😢1
Нео-РНН или Make RNNs great again
Когда в 2017 году появились трансформеры, популярные до этого RNN обрели слишком серьезного конкурента и отошли на второй план. Трансформеры допускали распараллеливание, а значит — ускоренное обучение, поэтому быстро захватили NLP. Преимущества трансформеров понятны, но с моделированием длинных последовательностей возникают проблемы даже у них. Для RNN это тоже непростая задача из-за исчезающих или взрывающихся градиентов. Но RNN с их линейной зависимостью от масштаба выглядят гораздо привлекательнее квадратичной сложности трансформеров. Идеальным вариантом было бы совместить преимущества тех и других.
Читать дальше
Когда в 2017 году появились трансформеры, популярные до этого RNN обрели слишком серьезного конкурента и отошли на второй план. Трансформеры допускали распараллеливание, а значит — ускоренное обучение, поэтому быстро захватили NLP. Преимущества трансформеров понятны, но с моделированием длинных последовательностей возникают проблемы даже у них. Для RNN это тоже непростая задача из-за исчезающих или взрывающихся градиентов. Но RNN с их линейной зависимостью от масштаба выглядят гораздо привлекательнее квадратичной сложности трансформеров. Идеальным вариантом было бы совместить преимущества тех и других.
Читать дальше
Telegraph
Нео-РНН или Make RNNs great again
Когда в 2017 году появились трансформеры, популярные до этого RNN обрели слишком серьезного конкурента и отошли на второй план. Трансформеры допускали распараллеливание, а значит — ускоренное обучение, поэтому быстро захватили NLP. Преимущества трансформеров…
🔥7👍3
Всё смешалось — эксперты, модели. Как уменьшить LLM, но не проиграть в продуктивности
Следом за накатившей волной LLM с их правилом “чем больше, тем лучше” сразу возникает естественный запрос добиться повышения эффективности не за счет увеличения размера модели. Похоже, что вторая волна будет (или уже есть) именно такая — наращивание размеров уже не так впечатляет, появляется всё больше “хитрых” подходов, которые делают ставку не на размер. Попробуем разобрать некоторые из них.
Следом за накатившей волной LLM с их правилом “чем больше, тем лучше” сразу возникает естественный запрос добиться повышения эффективности не за счет увеличения размера модели. Похоже, что вторая волна будет (или уже есть) именно такая — наращивание размеров уже не так впечатляет, появляется всё больше “хитрых” подходов, которые делают ставку не на размер. Попробуем разобрать некоторые из них.
Telegraph
Всё смешалось — эксперты, модели. Как уменьшить LLM, но не проиграть в продуктивности
Следом за накатившей волной LLM с их правилом “чем больше, тем лучше” сразу возникает естественный запрос добиться повышения эффективности не за счет увеличения размера модели. Похоже, что вторая волна будет (или уже есть) именно такая — наращивание размеров…
👍12🙏2
Предобученные языковые модели генерируют качественный текст, сравнимый по качеству с человеческим (иногда даже превосходящий его). Но некоторые проблемы остаются даже у лучших LLM — сеть не понимает, что говорит. Может получаться хоть и виртуозный с точки зрения грамматики и лексики, но всё-таки неверный по смыслу результат.
Известен недавний пример, который авторы окрестили “проклятьем обратимости” (reversal curse). Даже GPT-4 может быть не в состоянии построить обратную логическую связь между простыми фактами. Например, на вопрос о том, как зовут маму Тома Круза GPT-4 отвечает правильно (Мэри Ли Пфайффер). А вот как зовут сына Мэри Ли Пфайффер GPT-4, к сожалению, не знает.
Читать дальше про то, как с этим помогают графы знаний
Известен недавний пример, который авторы окрестили “проклятьем обратимости” (reversal curse). Даже GPT-4 может быть не в состоянии построить обратную логическую связь между простыми фактами. Например, на вопрос о том, как зовут маму Тома Круза GPT-4 отвечает правильно (Мэри Ли Пфайффер). А вот как зовут сына Мэри Ли Пфайффер GPT-4, к сожалению, не знает.
Читать дальше про то, как с этим помогают графы знаний
Telegraph
LLM и графы знаний, прекрасен ваш союз!
Предобученные языковые модели генерируют качественный текст, сравнимый по качеству с человеческим (иногда даже превосходящий его). Но некоторые проблемы остаются даже у лучших LLM — сеть не понимает, что говорит. Может получаться хоть и виртуозный с точки…
🔥13👍3👏1😁1
Основная часть параметров LLM относится к слоям прямого распространения (FF, feedforward). Но для выхода не нужны все нейроны этих слоев. В реальности на инференсе играет роль только небольшая доля нейронов FF. Отсюда возникает идея оптимизировать каким-то образом этот процесс и не тратить лишние вычисления на нейроны, которые потом никак не повлияют на выход.
Авторы из ETH Zurich предложили сеть UltraFastBERT, вариант BERT, который используют 0,3% его нейронов, но даёт сравнимые результаты. На инференсе каждого слоя используется всего 12 из 4095 нейронов.
Читать дальше
Авторы из ETH Zurich предложили сеть UltraFastBERT, вариант BERT, который используют 0,3% его нейронов, но даёт сравнимые результаты. На инференсе каждого слоя используется всего 12 из 4095 нейронов.
Читать дальше
Telegraph
FFF — это FF, только быстрее
Основная часть параметров LLM относится к слоям прямого распространения (FF, feedforward). Но для выхода не нужны все нейроны этих слоев. В реальности на инференсе играет роль только небольшая доля нейронов FF. Отсюда возникает идея оптимизировать каким-то…
👍21🔥15
Почти детективное расследование провели в Калифорнийском университете. Авторы взяли 12 разных LLM, включая GPT-3, и проверили их на датасетах, созданных в разное время — до и после обучения моделей. Обнаруженные артефакты указывают на то, что one-shot и few-shot задания улучшают работу модели просто потому, что она уже встречала эти данные в процессе обучения. Авторы назвали это загрязнением заданий, task contamination.
Читать дальше
Читать дальше
Telegraph
Task contamination, интриги, расследования
Почти детективное расследование провели в Калифорнийском университете. Авторы взяли 12 разных LLM, включая GPT-3, и проверили их на датасетах, созданных в разное время — до и после обучения моделей. Обнаруженные артефакты указывают на то, что one-shot и few…
👍20🔥3😁1😱1
️⚡На следующей неделе приглашаем на вебинар Алексея Зайцева "Оценка неопределенности для глубоких нейронных сетей"
🗣Спикер: Алексей Зайцев, Сколтех, Москва, Россия
🕰 Вторник 20 февраля 2024, 16:00 MCK
🖊Алексей о вебинаре:
Нейронные сети используются во многих приложениях. Однако они все рано совершают ошибки, и мы не в полной мере осознаем, когда это происходит. Улучшить качество решений в таком случае позволит оценка степень уверенности в прогнозе. Однако текущие способы оценки неопределенности не очень хороши в силу ряда проблем. В этом докладе мы сделаем общий обзор существующих подходов к оценке неопределенности с фокусом на вероятностные методы. Отдельное внимание мы уделим оценке на основе ансамблей и численно эффективным подходам, основанным на одной нейронной сети, не требующим построения ансамбля и существенные изменения в процедуре обучения.
Сайт мероприятия
✅Регистрация на вебинар✅
🗣Спикер: Алексей Зайцев, Сколтех, Москва, Россия
🕰 Вторник 20 февраля 2024, 16:00 MCK
🖊Алексей о вебинаре:
Нейронные сети используются во многих приложениях. Однако они все рано совершают ошибки, и мы не в полной мере осознаем, когда это происходит. Улучшить качество решений в таком случае позволит оценка степень уверенности в прогнозе. Однако текущие способы оценки неопределенности не очень хороши в силу ряда проблем. В этом докладе мы сделаем общий обзор существующих подходов к оценке неопределенности с фокусом на вероятностные методы. Отдельное внимание мы уделим оценке на основе ансамблей и численно эффективным подходам, основанным на одной нейронной сети, не требующим построения ансамбля и существенные изменения в процедуре обучения.
Сайт мероприятия
✅Регистрация на вебинар✅
👍8❤3🔥1
