В работе исследуется архитектура Transformer, сфокусированная на компоненте Feed Forward Network (FFN). Удаление слоев FFN в декодере и использование общего FFN в энкодере позволяют существенно сократить параметры, сохраняя при этом точность. Масштабирование архитектуры к исходному размеру приводит к заметному улучшению в точности и латентности по сравнению с оригинальным Transformer Big.
🔥3
Исследование, посвященное проблемам поиска, решаемым с использованием метода градиентного спуска в ограниченном выпуклом политопе. Авторы демонстрируют, что данный класс задач совпадает с пересечением двух известных классов, PPAD и PLS, предлагая новый взгляд на взаимосвязь этих классов в контексте вычислительной сложности.
К дополнению можно глянуть следующую статью.
К дополнению можно глянуть следующую статью.
❤🔥6❤1
Открытый учебник по асимптотике представляющий глубокий обзор математических и статистических основ, включая слабую и сильную сходимость, центральные предельные теоремы и метод максимального правдоподобия. Авторы разбирают темы, такие как тестирование гипотез, критерии Уолда, Рао и отношения правдоподобия, придавая особое внимание приложениям в статистике. Особенностями являются изучение U-статистик, теста Пирсона и метода дельта.
❤6
Иссерпывающая статья вводит в современные математические подходы в глубоком обучении. Разделы рассматривают обобщение больших нейронных сетей, роль глубины нейронных сетей в их выразительности, оптимизацию глубоких нейронных сетей и их архитектурные особенности, такие как CNN и RNN.
❤3🔥2
Статья предоставляет исчерпывающий обзор различных алгоритмов оптимизации, используемых в глубоком обучении. Она охватывает ключевые концепции, такие как градиентный спуск, скорость обучения, и различные типы оптимизаторов, включая SGD, Adagrad, RMS Prop, AdaDelta и Adam
❤6❤🔥1
Туториал по Expectation-Maximization (EM) предоставляет интуитивное и математически строгое понимание EM, разъясняя его применение к обучению смесей гауссовых моделей (GMM) и скрытых марковских моделей (HMM). Предоставлено подробное описание шагов EM с примерами, акцентируя внимание на практической применимости EM, несмотря на его теоретическую сложность.
🔥6
🪆Matryoshka Representation Learning (MRL) представляет гибкий подход к обучению представлений, который адаптируется к различным вычислительным ограничениям в задачах. Кодируя информацию на разных уровнях детализации, MRL достигает уменьшения размера вложений до 14 раз при сохранении точности, существенного ускорения для поиска по крупномасштабным данным и повышения точности в задачах малообученной классификации.
❤4
В статье исследуется влияние индуктивного смещения на многослойные перцептроны (MLP) в задачах компьютерного зрения. Авторы показывают, что производительность MLP значительно повышается с увеличением масштаба, противореча общепринятому мнению об уменьшении индуктивного смещения, и подчеркивают их эффективность в крупных экспериментах по предварительному обучению.
❤3
В данной статье предложен новый метод балансировки классов GMOTE для решения проблем классификации. Метод использует Gaussian mixture model для генерации синтетических экземпляров, учитывая локальные выбросы через махаланобисово расстояние. Эксперименты, проведенные на наборе тестовых данных, показывают, что GMOTE в сочетании с деревом решений и методом опорных векторов (SVM) проявляет лучшую точность и F1-score по сравнению с другими методами, такими как SMOTE.
❤🔥6
Статья предлагает исчерпывающий обзор undersampling для сбалансировки несбалансированных датасетов, выделяя ее преимущества и недостатки. Автор поясняет важность решения проблемы дисбаланса классов для достижения точных результатов, рассматривая различные методы undersampling, включая случайное уменьшение и методы, ориентированные на миноритарный класс.
🔥5
Исчерпывающий обзор активационных функций в нейронных сетях, раскрывающий их важность, различные виды и трудности, возникающие при обучении глубоких нейронных сетей. Статья также предоставляет рекомендации по выбору оптимальной функции активации для эффективного обучения.
❤🔥6
Статья исследует методы ценообразования, используя алгоритмы и метод Лагранжа для достижения баланса в ключевых бизнес-метриках.
❤🔥6🔥1
Использование Insightface для быстрого поиска и сравнения лиц на изображениях.
Автору удалось реализовать систему для детектирования лиц в pdf-документах и поиска похожих людей с помощью библиотеки Insightface.
https://habr.com/ru/articles/773744/
Автору удалось реализовать систему для детектирования лиц в pdf-документах и поиска похожих людей с помощью библиотеки Insightface.
https://habr.com/ru/articles/773744/
❤4
«ИИ без границ»: как научить Transformer обрабатывать длинные тексты.
Статья посвящена проблеме обработки длинных входных последовательностей нейросетевыми моделями на основе архитектуры Transformer.
Статья посвящена проблеме обработки длинных входных последовательностей нейросетевыми моделями на основе архитектуры Transformer.
🔥3❤1
Детальное сравнение последних моделей большого языка.
В статье рассматриваются последние достижения в области больших языковых моделей и дается всесторонний обзор новейших и наиболее совершенных моделей, доступных в настоящее время. В частности, в обзоре будет представлена общая информация о моделях и о том, как их использовать, являются ли они открытым исходным кодом или нет, и можно ли их использовать в коммерческих целях.
В статье рассматриваются последние достижения в области больших языковых моделей и дается всесторонний обзор новейших и наиболее совершенных моделей, доступных в настоящее время. В частности, в обзоре будет представлена общая информация о моделях и о том, как их использовать, являются ли они открытым исходным кодом или нет, и можно ли их использовать в коммерческих целях.
🔥5
Использование искусственного интеллекта для оптимизации быстрой нейронной визуализации.
https://news.mit.edu/2023/using-ai-optimize-rapid-neural-imaging-1106
https://news.mit.edu/2023/using-ai-optimize-rapid-neural-imaging-1106
❤3
Четыре эксперимента по почерку с помощью нейронной сети.
В этой статье автор попытался продвинуться в этом направлении, взяв генеративную модель почерка и визуализировать его разными способами.
В этой статье автор попытался продвинуться в этом направлении, взяв генеративную модель почерка и визуализировать его разными способами.
❤4
Как преобразовать любой текст в график понятий.
Задача автора в данной статье — преобразовать любой текстовый корпус в график понятий и визуализировать его как красивый баннер.
Задача автора в данной статье — преобразовать любой текстовый корпус в график понятий и визуализировать его как красивый баннер.
❤🔥3
Создание собственного мини-ChatGPT дома.
Эта статья научит вас создавать чат-бот с помощью большой языковой модели из библиотеки Hugging Face.
А именно рассматриваются 3 части:
•Что такое модели, следующие инструкциям?
•Как найти модели, следующие инструкциям
•Построение простого чат-бота.
Эта статья научит вас создавать чат-бот с помощью большой языковой модели из библиотеки Hugging Face.
А именно рассматриваются 3 части:
•Что такое модели, следующие инструкциям?
•Как найти модели, следующие инструкциям
•Построение простого чат-бота.
🔥4❤🔥2