NEW BOT Телеграм, страница

Pro AI

Вебинар Ивана Бондаренко "Проблема устойчивости нейросетевых алгоритмов распознавания речи и её решение на примере Wav2Vec2" переносится на неделю.

Встречаемся 17 октября 2023, 16:00 MCK

Ссылка на регистрацию остается актуальной.

👍2

1.05K viewsRufina Rafikova, 15:34

Pro AI

Сегодня в 16.00мск встречаемся на вебинаре Ивана Бондаренко "Проблема устойчивости нейросетевых алгоритмов распознавания речи и её решение на примере Wav2Vec2".

Регистрируйтесь:)

🔥8🤔2

1.56K viewsRufina Rafikova, edited 06:34

Pro AI

Видеозапись вебинара Ивана Бондаренко "Проблема устойчивости нейросетевых алгоритмов распознавания речи и её решение на примере Wav2Vec2" доступна по ссылке

👍9❤1

1.7K viewsRufina Rafikova, 08:39

Pro AI

Channel photo updated

07:56

Pro AI

Channel name was changed to «Pro AI»

07:56

Pro AI

Всем привет! Мы возобновляем канал и обновляем формат.

Кто мы? Николай Михайловский, основатель и директор компании НТР, которая разрабатывает информационные системы для крупнейших российских промышленных компаний, и Наталья Дерюгина, научный коммуникатор и математик.

Здесь были и будут объявления о предстоящих вебинарах, которые мы проводим вместе с Высшей IT Школой Томского государственного управления (HITS). А еще здесь будут обзоры статей об искусственном интеллекте, машинном обучении и других задачах и проектах, которые покажутся нам интересными.

🔥16❤3👍3

785 viewsNatalia Deryugina, 07:57

Pro AI

⚡️Уже на следующей неделе встречаемся на вебинаре Алексея Староверова "Иерархические методы и алгоритмы визуальной навигации внутри помещений с обучаемыми навыками"

🗣Спикер: Алексей Староверов, AIRI, Москва, Россия

🕰 Вторник 12 декабря 2023, 16:00 MCK

🖊Алексей о вебинаре:
Темой семинара является развитие автономности робототехнических систем, поскольку современные методы нуждаются в большем семантическом понимании окружающей среды для решения задачи навигации при поиске целевых объектов и увеличении горизонта планирования. Перенос как обучаемых так и необучаемых методов решения задачи навигации из симуляционной среды в реальный мир также требует развития методологии и увеличения метрик качества получаемой траектории в силу того, что требуется учитывать возникающие шумы в датчиках и актуаторах робота.

Сайт мероприятия

✅Регистрация на вебинар✅

🔥7

901 views09:02

Pro AI

Выбор данных, SLM и Шмидхубер

Большие языковые модели — это хорошо, но интересно, можно ли получить сравнимое качество на малых моделях. Вести диалог с GPT-2 не получится, а тем более написать диплом или научную статью. Она и другие small language models (SLM) по большей части выдают слабый текст, даже если обучить их на всей Википедии.

При чем здесь Шмидхубер

Telegraph

Выбор данных, SLM и Шмидхубер

Большие языковые модели — это хорошо, но интересно, можно ли получить сравнимое качество на малых моделях. Вести диалог с GPT-2 не получится, а тем более написать диплом или научную статью. Она и другие small language models (SLM) по большей части выдают…

👍9🤔2

1.49K views13:57

Pro AI

⚡На следующей неделе встречаемся на вебинаре Александра Коротина " Нейросетевые методы вычислительного оптимального транспорта для построения генеративных моделей на непарных данных"

🗣Спикер: Коротин Александр, Сколтех, AIRI, Москва, Россия

🕰 Вторник 19 декабря 2023, 17:00 MCK

🖊Александр о вебинаре:
В докладе будет рассказано о новых методах обучения глубоких генеративных моделей на основе математической теории оптимального транспорта (ОТ). Основное внимание будет уделено новым алгоритмам на основе нейронных сетей для вычисления ОТ и их применению для решения практических задач перевода домена (перенос стиля, сверх-разрешение изображений, и т.д.) с использованием лишь непарных обучающих выборок данных.

Сайт мероприятия

✅Регистрация на вебинар✅

👍5🔥3

1.12K views08:43

Pro AI

Диффузионные модели и большие языковые модели прочно заняли и информационное поле, и исследовательское. Диффузионные модели генерируют прекрасные картинки, видео и аудио, а LLM отлично справляются с генерацией текста. Но где-то посередине остается область диффузионных текстовых моделей. Нельзя сказать, что она забыта — нет, исследования ведутся, и есть хорошие локальные успехи — но сравниться с успехам нашумевших LLM и DM пока не получается.

Читать дальше

Telegraph

Диффузионные текстовые модели

🔥6👍1

1.51K views14:16

Pro AI

Видеозапись вебинара Алексея Староверова "Иерархические методы и алгоритмы визуальной навигации внутри помещений с обучаемыми навыками" доступна по ссылке

👍6

1.11K viewsedited 12:49

Pro AI

“Attention is all you need” — так говорило название статьи, представившей трансформеры в 2017. Какое-то время так и казалось, но сейчас архитектуры без внимания возвращают себе былую популярность. Какие-то делают ставку на гейты, какие-то — на свертку, какие-то — комбинируют их. Есть вполне успешные примеры, получалось даже добиться лучшего масштабирования, чем у внимания. Однако, например, на Pile лучшие сверточные модели проигрывают в перплексии трансформером на 2.1 балла.

Такой серьезный провал, как выяснилось, возникает из-за одной единственной характеристики — способности запоминать информацию, которая уже была озвучена. Другими словами — запомнить n-граммы на входе и выдать такие же на выходе. Это свойство называется ассоциативная память (AR - associative recall). Считается, что AR показывает качество понимания контекста. На синтетических задачах новые модели с гейтами и сверткой не уступали вниманию по AR, поэтому разрыв в 2.1 балла перплексии на реальном языке стал сюрпризом.

Синтетические примеры предполагают “один вход-один запрос”. В реальных задачах иногда нужно вспомнить сразу несколько ассоциаций для нескольких токенов. Поэтому исследователи из Стенфорда предложили переформализовать AR в MQAR (multi-query AR). Выглядит это как точная копия AR, только для каждого токена последовательности.

Причиной большой разницы в перплексии оказалось то, что сверточные модели обрабатывают входные последовательности с помощью фиксированных фильтров, заданных весами модели. В моделях же со вниманием есть зависимость от входа, так как они учитывают взаимосвязь токенов, когда собирают последовательность. Разобравшись с теоретической основой проблемы, авторы предложили минимальную архитектуру BaseConv, которая ее закрывает на MQAR на Pile. BaseConv — это гибрид свертки и внимания с зависящим от входа вниманием и сложностью менее (типичной для трансформеров) квадратичной. Он на 97,4% закрывает разрыв в перплексии.

🔥11👍4

1.7K views14:17

Pro AI

Видеозапись вебинара Александра Коротина "Нейросетевые методы вычислительного оптимального транспорта для построения генеративных моделей" доступна по ссылке

YouTube

Нейросетевые методы вычислительного оптимального транспорта для построения генеративных моделей...

🗣Спикер: Коротин Александр, Сколтех, AIRI, Москва, Россия

🕰 Вторник 19 декабря 2023, 17:00 MCK

🖊Александр о вебинаре:
В докладе будет рассказано о новых методах обучения глубоких генеративных моделей на основе математической теории оптимального…

👍10🔥1😢1

1.67K views11:07

Pro AI

Нео-РНН или Make RNNs great again

Когда в 2017 году появились трансформеры, популярные до этого RNN обрели слишком серьезного конкурента и отошли на второй план. Трансформеры допускали распараллеливание, а значит — ускоренное обучение, поэтому быстро захватили NLP. Преимущества трансформеров понятны, но с моделированием длинных последовательностей возникают проблемы даже у них. Для RNN это тоже непростая задача из-за исчезающих или взрывающихся градиентов. Но RNN с их линейной зависимостью от масштаба выглядят гораздо привлекательнее квадратичной сложности трансформеров. Идеальным вариантом было бы совместить преимущества тех и других.

Читать дальше

Telegraph

Нео-РНН или Make RNNs great again

Когда в 2017 году появились трансформеры, популярные до этого RNN обрели слишком серьезного конкурента и отошли на второй план. Трансформеры допускали распараллеливание, а значит — ускоренное обучение, поэтому быстро захватили NLP. Преимущества трансформеров…

🔥7👍3

1.97K views14:44

Pro AI

Всё смешалось — эксперты, модели. Как уменьшить LLM, но не проиграть в продуктивности

Следом за накатившей волной LLM с их правилом “чем больше, тем лучше” сразу возникает естественный запрос добиться повышения эффективности не за счет увеличения размера модели. Похоже, что вторая волна будет (или уже есть) именно такая — наращивание размеров уже не так впечатляет, появляется всё больше “хитрых” подходов, которые делают ставку не на размер. Попробуем разобрать некоторые из них.

Telegraph

Всё смешалось — эксперты, модели. Как уменьшить LLM, но не проиграть в продуктивности

Следом за накатившей волной LLM с их правилом “чем больше, тем лучше” сразу возникает естественный запрос добиться повышения эффективности не за счет увеличения размера модели. Похоже, что вторая волна будет (или уже есть) именно такая — наращивание размеров…

👍12🙏2

2.17K views14:52

Pro AI

Предобученные языковые модели генерируют качественный текст, сравнимый по качеству с человеческим (иногда даже превосходящий его). Но некоторые проблемы остаются даже у лучших LLM — сеть не понимает, что говорит. Может получаться хоть и виртуозный с точки зрения грамматики и лексики, но всё-таки неверный по смыслу результат.

Известен недавний пример, который авторы окрестили “проклятьем обратимости” (reversal curse). Даже GPT-4 может быть не в состоянии построить обратную логическую связь между простыми фактами. Например, на вопрос о том, как зовут маму Тома Круза GPT-4 отвечает правильно (Мэри Ли Пфайффер). А вот как зовут сына Мэри Ли Пфайффер GPT-4, к сожалению, не знает.

Читать дальше про то, как с этим помогают графы знаний

Telegraph

LLM и графы знаний, прекрасен ваш союз!

🔥13👍3👏1😁1

8.9K views09:19

Pro AI

Основная часть параметров LLM относится к слоям прямого распространения (FF, feedforward). Но для выхода не нужны все нейроны этих слоев. В реальности на инференсе играет роль только небольшая доля нейронов FF. Отсюда возникает идея оптимизировать каким-то образом этот процесс и не тратить лишние вычисления на нейроны, которые потом никак не повлияют на выход.

Авторы из ETH Zurich предложили сеть UltraFastBERT, вариант BERT, который используют 0,3% его нейронов, но даёт сравнимые результаты. На инференсе каждого слоя используется всего 12 из 4095 нейронов.

Читать дальше

Telegraph

FFF — это FF, только быстрее

👍21🔥15

2.2K views17:24

Pro AI

Почти детективное расследование провели в Калифорнийском университете. Авторы взяли 12 разных LLM, включая GPT-3, и проверили их на датасетах, созданных в разное время — до и после обучения моделей. Обнаруженные артефакты указывают на то, что one-shot и few-shot задания улучшают работу модели просто потому, что она уже встречала эти данные в процессе обучения. Авторы назвали это загрязнением заданий, task contamination.

Читать дальше

Telegraph

Task contamination, интриги, расследования

👍20🔥3😁1😱1

2.75K views07:51

Pro AI

️⚡На следующей неделе приглашаем на вебинар Алексея Зайцева "Оценка неопределенности для глубоких нейронных сетей"

🗣Спикер: Алексей Зайцев, Сколтех, Москва, Россия

🕰 Вторник 20 февраля 2024, 16:00 MCK

🖊Алексей о вебинаре:
Нейронные сети используются во многих приложениях. Однако они все рано совершают ошибки, и мы не в полной мере осознаем, когда это происходит. Улучшить качество решений в таком случае позволит оценка степень уверенности в прогнозе. Однако текущие способы оценки неопределенности не очень хороши в силу ряда проблем. В этом докладе мы сделаем общий обзор существующих подходов к оценке неопределенности с фокусом на вероятностные методы. Отдельное внимание мы уделим оценке на основе ансамблей и численно эффективным подходам, основанным на одной нейронной сети, не требующим построения ансамбля и существенные изменения в процедуре обучения.

Сайт мероприятия

✅Регистрация на вебинар✅

👍8❤3🔥1

1.9K viewsedited 08:51

Pro AI

LLM развились до того момента, когда человек стал для них ограничением. Точнее — человеческая обратная связь выходит слабым звеном. Чтобы развиваться дальше, AI нужно избавиться от человека — заголовок, достойный желтой прессы. Но если серьезно, об успешной попытке сделать это рассказали Meta и NYU.

Читать дальше

Telegraph

Сверхчеловеческая модель требует сверхчеловеческого фидбека. А сам человек в этом лишний

👍12💩2🤡1🥱1

1.84K views10:48

Pro AI

️⚡На следующей неделе приглашаем на вебинар Алексея Зайцева "Оценка неопределенности для глубоких нейронных сетей" 🗣Спикер: Алексей Зайцев, Сколтех, Москва, Россия 🕰 Вторник 20 февраля 2024, 16:00 MCK 🖊Алексей о вебинаре: Нейронные сети используются…

Видеозапись вебинара Алексея Зайцева "Оценка неопределенности для глубоких нейронных сетей" доступна по ссылке

YouTube

Оценка неопределенности для глубоких нейронных сетей

🗣Спикер: Алексей Зайцев, Сколтех, Москва, Россия

🕰 Вторник 20 февраля 2024, 16:00 MCK

🖊Алексей о вебинаре:
Нейронные сети используются во многих приложениях. Однако они все рано совершают ошибки, и мы не в полной мере осознаем, когда это происходит.…

👍7

1.56K views11:15

About

Blog

Apps

Platform