Вебинар Ивана Бондаренко "Проблема устойчивости нейросетевых алгоритмов распознавания речи и её решение на примере Wav2Vec2" переносится на неделю.
Встречаемся 17 октября 2023, 16:00 MCK
Ссылка на регистрацию остается актуальной.
Встречаемся 17 октября 2023, 16:00 MCK
Ссылка на регистрацию остается актуальной.
👍2
Сегодня в 16.00мск встречаемся на вебинаре Ивана Бондаренко "Проблема устойчивости нейросетевых алгоритмов распознавания речи и её решение на примере Wav2Vec2".
Регистрируйтесь:)
Регистрируйтесь:)
🔥8🤔2
Всем привет! Мы возобновляем канал и обновляем формат.
Кто мы? Николай Михайловский, основатель и директор компании НТР, которая разрабатывает информационные системы для крупнейших российских промышленных компаний, и Наталья Дерюгина, научный коммуникатор и математик.
Здесь были и будут объявления о предстоящих вебинарах, которые мы проводим вместе с Высшей IT Школой Томского государственного управления (HITS). А еще здесь будут обзоры статей об искусственном интеллекте, машинном обучении и других задачах и проектах, которые покажутся нам интересными.
Кто мы? Николай Михайловский, основатель и директор компании НТР, которая разрабатывает информационные системы для крупнейших российских промышленных компаний, и Наталья Дерюгина, научный коммуникатор и математик.
Здесь были и будут объявления о предстоящих вебинарах, которые мы проводим вместе с Высшей IT Школой Томского государственного управления (HITS). А еще здесь будут обзоры статей об искусственном интеллекте, машинном обучении и других задачах и проектах, которые покажутся нам интересными.
🔥16❤3👍3
⚡️Уже на следующей неделе встречаемся на вебинаре Алексея Староверова "Иерархические методы и алгоритмы визуальной навигации внутри помещений с обучаемыми навыками"
🗣Спикер: Алексей Староверов, AIRI, Москва, Россия
🕰 Вторник 12 декабря 2023, 16:00 MCK
🖊Алексей о вебинаре:
Темой семинара является развитие автономности робототехнических систем, поскольку современные методы нуждаются в большем семантическом понимании окружающей среды для решения задачи навигации при поиске целевых объектов и увеличении горизонта планирования. Перенос как обучаемых так и необучаемых методов решения задачи навигации из симуляционной среды в реальный мир также требует развития методологии и увеличения метрик качества получаемой траектории в силу того, что требуется учитывать возникающие шумы в датчиках и актуаторах робота.
Сайт мероприятия
✅Регистрация на вебинар✅
🗣Спикер: Алексей Староверов, AIRI, Москва, Россия
🕰 Вторник 12 декабря 2023, 16:00 MCK
🖊Алексей о вебинаре:
Темой семинара является развитие автономности робототехнических систем, поскольку современные методы нуждаются в большем семантическом понимании окружающей среды для решения задачи навигации при поиске целевых объектов и увеличении горизонта планирования. Перенос как обучаемых так и необучаемых методов решения задачи навигации из симуляционной среды в реальный мир также требует развития методологии и увеличения метрик качества получаемой траектории в силу того, что требуется учитывать возникающие шумы в датчиках и актуаторах робота.
Сайт мероприятия
✅Регистрация на вебинар✅
🔥7
Выбор данных, SLM и Шмидхубер
Большие языковые модели — это хорошо, но интересно, можно ли получить сравнимое качество на малых моделях. Вести диалог с GPT-2 не получится, а тем более написать диплом или научную статью. Она и другие small language models (SLM) по большей части выдают слабый текст, даже если обучить их на всей Википедии.
При чем здесь Шмидхубер
Большие языковые модели — это хорошо, но интересно, можно ли получить сравнимое качество на малых моделях. Вести диалог с GPT-2 не получится, а тем более написать диплом или научную статью. Она и другие small language models (SLM) по большей части выдают слабый текст, даже если обучить их на всей Википедии.
При чем здесь Шмидхубер
Telegraph
Выбор данных, SLM и Шмидхубер
Большие языковые модели — это хорошо, но интересно, можно ли получить сравнимое качество на малых моделях. Вести диалог с GPT-2 не получится, а тем более написать диплом или научную статью. Она и другие small language models (SLM) по большей части выдают…
👍9🤔2
⚡На следующей неделе встречаемся на вебинаре Александра Коротина " Нейросетевые методы вычислительного оптимального транспорта для построения генеративных моделей на непарных данных"
🗣Спикер: Коротин Александр, Сколтех, AIRI, Москва, Россия
🕰 Вторник 19 декабря 2023, 17:00 MCK
🖊Александр о вебинаре:
В докладе будет рассказано о новых методах обучения глубоких генеративных моделей на основе математической теории оптимального транспорта (ОТ). Основное внимание будет уделено новым алгоритмам на основе нейронных сетей для вычисления ОТ и их применению для решения практических задач перевода домена (перенос стиля, сверх-разрешение изображений, и т.д.) с использованием лишь непарных обучающих выборок данных.
Сайт мероприятия
✅Регистрация на вебинар✅
🗣Спикер: Коротин Александр, Сколтех, AIRI, Москва, Россия
🕰 Вторник 19 декабря 2023, 17:00 MCK
🖊Александр о вебинаре:
В докладе будет рассказано о новых методах обучения глубоких генеративных моделей на основе математической теории оптимального транспорта (ОТ). Основное внимание будет уделено новым алгоритмам на основе нейронных сетей для вычисления ОТ и их применению для решения практических задач перевода домена (перенос стиля, сверх-разрешение изображений, и т.д.) с использованием лишь непарных обучающих выборок данных.
Сайт мероприятия
✅Регистрация на вебинар✅
👍5🔥3
Диффузионные модели и большие языковые модели прочно заняли и информационное поле, и исследовательское. Диффузионные модели генерируют прекрасные картинки, видео и аудио, а LLM отлично справляются с генерацией текста. Но где-то посередине остается область диффузионных текстовых моделей. Нельзя сказать, что она забыта — нет, исследования ведутся, и есть хорошие локальные успехи — но сравниться с успехам нашумевших LLM и DM пока не получается.
Читать дальше
Читать дальше
Telegraph
Диффузионные текстовые модели
Диффузионные модели и большие языковые модели прочно заняли и информационное поле, и исследовательское. Диффузионные модели генерируют прекрасные картинки, видео и аудио, а LLM отлично справляются с генерацией текста. Но где-то посередине остается область…
🔥6👍1
“Attention is all you need” — так говорило название статьи, представившей трансформеры в 2017. Какое-то время так и казалось, но сейчас архитектуры без внимания возвращают себе былую популярность. Какие-то делают ставку на гейты, какие-то — на свертку, какие-то — комбинируют их. Есть вполне успешные примеры, получалось даже добиться лучшего масштабирования, чем у внимания. Однако, например, на Pile лучшие сверточные модели проигрывают в перплексии трансформером на 2.1 балла.
Такой серьезный провал, как выяснилось, возникает из-за одной единственной характеристики — способности запоминать информацию, которая уже была озвучена. Другими словами — запомнить n-граммы на входе и выдать такие же на выходе. Это свойство называется ассоциативная память (AR - associative recall). Считается, что AR показывает качество понимания контекста. На синтетических задачах новые модели с гейтами и сверткой не уступали вниманию по AR, поэтому разрыв в 2.1 балла перплексии на реальном языке стал сюрпризом.
Синтетические примеры предполагают “один вход-один запрос”. В реальных задачах иногда нужно вспомнить сразу несколько ассоциаций для нескольких токенов. Поэтому исследователи из Стенфорда предложили переформализовать AR в MQAR (multi-query AR). Выглядит это как точная копия AR, только для каждого токена последовательности.
Причиной большой разницы в перплексии оказалось то, что сверточные модели обрабатывают входные последовательности с помощью фиксированных фильтров, заданных весами модели. В моделях же со вниманием есть зависимость от входа, так как они учитывают взаимосвязь токенов, когда собирают последовательность. Разобравшись с теоретической основой проблемы, авторы предложили минимальную архитектуру BaseConv, которая ее закрывает на MQAR на Pile. BaseConv — это гибрид свертки и внимания с зависящим от входа вниманием и сложностью менее (типичной для трансформеров) квадратичной. Он на 97,4% закрывает разрыв в перплексии.
Такой серьезный провал, как выяснилось, возникает из-за одной единственной характеристики — способности запоминать информацию, которая уже была озвучена. Другими словами — запомнить n-граммы на входе и выдать такие же на выходе. Это свойство называется ассоциативная память (AR - associative recall). Считается, что AR показывает качество понимания контекста. На синтетических задачах новые модели с гейтами и сверткой не уступали вниманию по AR, поэтому разрыв в 2.1 балла перплексии на реальном языке стал сюрпризом.
Синтетические примеры предполагают “один вход-один запрос”. В реальных задачах иногда нужно вспомнить сразу несколько ассоциаций для нескольких токенов. Поэтому исследователи из Стенфорда предложили переформализовать AR в MQAR (multi-query AR). Выглядит это как точная копия AR, только для каждого токена последовательности.
Причиной большой разницы в перплексии оказалось то, что сверточные модели обрабатывают входные последовательности с помощью фиксированных фильтров, заданных весами модели. В моделях же со вниманием есть зависимость от входа, так как они учитывают взаимосвязь токенов, когда собирают последовательность. Разобравшись с теоретической основой проблемы, авторы предложили минимальную архитектуру BaseConv, которая ее закрывает на MQAR на Pile. BaseConv — это гибрид свертки и внимания с зависящим от входа вниманием и сложностью менее (типичной для трансформеров) квадратичной. Он на 97,4% закрывает разрыв в перплексии.
🔥11👍4
Видеозапись вебинара Александра Коротина "Нейросетевые методы вычислительного оптимального транспорта для построения генеративных моделей" доступна по ссылке
YouTube
Нейросетевые методы вычислительного оптимального транспорта для построения генеративных моделей...
🗣Спикер: Коротин Александр, Сколтех, AIRI, Москва, Россия
🕰 Вторник 19 декабря 2023, 17:00 MCK
🖊Александр о вебинаре:
В докладе будет рассказано о новых методах обучения глубоких генеративных моделей на основе математической теории оптимального…
🕰 Вторник 19 декабря 2023, 17:00 MCK
🖊Александр о вебинаре:
В докладе будет рассказано о новых методах обучения глубоких генеративных моделей на основе математической теории оптимального…
👍10🔥1😢1
Нео-РНН или Make RNNs great again
Когда в 2017 году появились трансформеры, популярные до этого RNN обрели слишком серьезного конкурента и отошли на второй план. Трансформеры допускали распараллеливание, а значит — ускоренное обучение, поэтому быстро захватили NLP. Преимущества трансформеров понятны, но с моделированием длинных последовательностей возникают проблемы даже у них. Для RNN это тоже непростая задача из-за исчезающих или взрывающихся градиентов. Но RNN с их линейной зависимостью от масштаба выглядят гораздо привлекательнее квадратичной сложности трансформеров. Идеальным вариантом было бы совместить преимущества тех и других.
Читать дальше
Когда в 2017 году появились трансформеры, популярные до этого RNN обрели слишком серьезного конкурента и отошли на второй план. Трансформеры допускали распараллеливание, а значит — ускоренное обучение, поэтому быстро захватили NLP. Преимущества трансформеров понятны, но с моделированием длинных последовательностей возникают проблемы даже у них. Для RNN это тоже непростая задача из-за исчезающих или взрывающихся градиентов. Но RNN с их линейной зависимостью от масштаба выглядят гораздо привлекательнее квадратичной сложности трансформеров. Идеальным вариантом было бы совместить преимущества тех и других.
Читать дальше
Telegraph
Нео-РНН или Make RNNs great again
Когда в 2017 году появились трансформеры, популярные до этого RNN обрели слишком серьезного конкурента и отошли на второй план. Трансформеры допускали распараллеливание, а значит — ускоренное обучение, поэтому быстро захватили NLP. Преимущества трансформеров…
🔥7👍3
Всё смешалось — эксперты, модели. Как уменьшить LLM, но не проиграть в продуктивности
Следом за накатившей волной LLM с их правилом “чем больше, тем лучше” сразу возникает естественный запрос добиться повышения эффективности не за счет увеличения размера модели. Похоже, что вторая волна будет (или уже есть) именно такая — наращивание размеров уже не так впечатляет, появляется всё больше “хитрых” подходов, которые делают ставку не на размер. Попробуем разобрать некоторые из них.
Следом за накатившей волной LLM с их правилом “чем больше, тем лучше” сразу возникает естественный запрос добиться повышения эффективности не за счет увеличения размера модели. Похоже, что вторая волна будет (или уже есть) именно такая — наращивание размеров уже не так впечатляет, появляется всё больше “хитрых” подходов, которые делают ставку не на размер. Попробуем разобрать некоторые из них.
Telegraph
Всё смешалось — эксперты, модели. Как уменьшить LLM, но не проиграть в продуктивности
Следом за накатившей волной LLM с их правилом “чем больше, тем лучше” сразу возникает естественный запрос добиться повышения эффективности не за счет увеличения размера модели. Похоже, что вторая волна будет (или уже есть) именно такая — наращивание размеров…
👍12🙏2
Предобученные языковые модели генерируют качественный текст, сравнимый по качеству с человеческим (иногда даже превосходящий его). Но некоторые проблемы остаются даже у лучших LLM — сеть не понимает, что говорит. Может получаться хоть и виртуозный с точки зрения грамматики и лексики, но всё-таки неверный по смыслу результат.
Известен недавний пример, который авторы окрестили “проклятьем обратимости” (reversal curse). Даже GPT-4 может быть не в состоянии построить обратную логическую связь между простыми фактами. Например, на вопрос о том, как зовут маму Тома Круза GPT-4 отвечает правильно (Мэри Ли Пфайффер). А вот как зовут сына Мэри Ли Пфайффер GPT-4, к сожалению, не знает.
Читать дальше про то, как с этим помогают графы знаний
Известен недавний пример, который авторы окрестили “проклятьем обратимости” (reversal curse). Даже GPT-4 может быть не в состоянии построить обратную логическую связь между простыми фактами. Например, на вопрос о том, как зовут маму Тома Круза GPT-4 отвечает правильно (Мэри Ли Пфайффер). А вот как зовут сына Мэри Ли Пфайффер GPT-4, к сожалению, не знает.
Читать дальше про то, как с этим помогают графы знаний
Telegraph
LLM и графы знаний, прекрасен ваш союз!
Предобученные языковые модели генерируют качественный текст, сравнимый по качеству с человеческим (иногда даже превосходящий его). Но некоторые проблемы остаются даже у лучших LLM — сеть не понимает, что говорит. Может получаться хоть и виртуозный с точки…
🔥13👍3👏1😁1
Основная часть параметров LLM относится к слоям прямого распространения (FF, feedforward). Но для выхода не нужны все нейроны этих слоев. В реальности на инференсе играет роль только небольшая доля нейронов FF. Отсюда возникает идея оптимизировать каким-то образом этот процесс и не тратить лишние вычисления на нейроны, которые потом никак не повлияют на выход.
Авторы из ETH Zurich предложили сеть UltraFastBERT, вариант BERT, который используют 0,3% его нейронов, но даёт сравнимые результаты. На инференсе каждого слоя используется всего 12 из 4095 нейронов.
Читать дальше
Авторы из ETH Zurich предложили сеть UltraFastBERT, вариант BERT, который используют 0,3% его нейронов, но даёт сравнимые результаты. На инференсе каждого слоя используется всего 12 из 4095 нейронов.
Читать дальше
Telegraph
FFF — это FF, только быстрее
Основная часть параметров LLM относится к слоям прямого распространения (FF, feedforward). Но для выхода не нужны все нейроны этих слоев. В реальности на инференсе играет роль только небольшая доля нейронов FF. Отсюда возникает идея оптимизировать каким-то…
👍21🔥15
Почти детективное расследование провели в Калифорнийском университете. Авторы взяли 12 разных LLM, включая GPT-3, и проверили их на датасетах, созданных в разное время — до и после обучения моделей. Обнаруженные артефакты указывают на то, что one-shot и few-shot задания улучшают работу модели просто потому, что она уже встречала эти данные в процессе обучения. Авторы назвали это загрязнением заданий, task contamination.
Читать дальше
Читать дальше
Telegraph
Task contamination, интриги, расследования
Почти детективное расследование провели в Калифорнийском университете. Авторы взяли 12 разных LLM, включая GPT-3, и проверили их на датасетах, созданных в разное время — до и после обучения моделей. Обнаруженные артефакты указывают на то, что one-shot и few…
👍20🔥3😁1😱1
️⚡На следующей неделе приглашаем на вебинар Алексея Зайцева "Оценка неопределенности для глубоких нейронных сетей"
🗣Спикер: Алексей Зайцев, Сколтех, Москва, Россия
🕰 Вторник 20 февраля 2024, 16:00 MCK
🖊Алексей о вебинаре:
Нейронные сети используются во многих приложениях. Однако они все рано совершают ошибки, и мы не в полной мере осознаем, когда это происходит. Улучшить качество решений в таком случае позволит оценка степень уверенности в прогнозе. Однако текущие способы оценки неопределенности не очень хороши в силу ряда проблем. В этом докладе мы сделаем общий обзор существующих подходов к оценке неопределенности с фокусом на вероятностные методы. Отдельное внимание мы уделим оценке на основе ансамблей и численно эффективным подходам, основанным на одной нейронной сети, не требующим построения ансамбля и существенные изменения в процедуре обучения.
Сайт мероприятия
✅Регистрация на вебинар✅
🗣Спикер: Алексей Зайцев, Сколтех, Москва, Россия
🕰 Вторник 20 февраля 2024, 16:00 MCK
🖊Алексей о вебинаре:
Нейронные сети используются во многих приложениях. Однако они все рано совершают ошибки, и мы не в полной мере осознаем, когда это происходит. Улучшить качество решений в таком случае позволит оценка степень уверенности в прогнозе. Однако текущие способы оценки неопределенности не очень хороши в силу ряда проблем. В этом докладе мы сделаем общий обзор существующих подходов к оценке неопределенности с фокусом на вероятностные методы. Отдельное внимание мы уделим оценке на основе ансамблей и численно эффективным подходам, основанным на одной нейронной сети, не требующим построения ансамбля и существенные изменения в процедуре обучения.
Сайт мероприятия
✅Регистрация на вебинар✅
👍8❤3🔥1
LLM развились до того момента, когда человек стал для них ограничением. Точнее — человеческая обратная связь выходит слабым звеном. Чтобы развиваться дальше, AI нужно избавиться от человека — заголовок, достойный желтой прессы. Но если серьезно, об успешной попытке сделать это рассказали Meta и NYU.
Читать дальше
Читать дальше
Telegraph
Сверхчеловеческая модель требует сверхчеловеческого фидбека. А сам человек в этом лишний
LLM развились до того момента, когда человек стал для них ограничением. Точнее — человеческая обратная связь выходит слабым звеном. Чтобы развиваться дальше, AI нужно избавиться от человека — заголовок, достойный желтой прессы. Но если серьезно, об успешной…
👍12💩2🤡1🥱1
Pro AI
️⚡На следующей неделе приглашаем на вебинар Алексея Зайцева "Оценка неопределенности для глубоких нейронных сетей" 🗣Спикер: Алексей Зайцев, Сколтех, Москва, Россия 🕰 Вторник 20 февраля 2024, 16:00 MCK 🖊Алексей о вебинаре: Нейронные сети используются…
Видеозапись вебинара Алексея Зайцева "Оценка неопределенности для глубоких нейронных сетей" доступна по ссылке
YouTube
Оценка неопределенности для глубоких нейронных сетей
🗣Спикер: Алексей Зайцев, Сколтех, Москва, Россия
🕰 Вторник 20 февраля 2024, 16:00 MCK
🖊Алексей о вебинаре:
Нейронные сети используются во многих приложениях. Однако они все рано совершают ошибки, и мы не в полной мере осознаем, когда это происходит.…
🕰 Вторник 20 февраля 2024, 16:00 MCK
🖊Алексей о вебинаре:
Нейронные сети используются во многих приложениях. Однако они все рано совершают ошибки, и мы не в полной мере осознаем, когда это происходит.…
👍7
