Geometric Algebra Transformer (GATr) - универсальная архитектура для работы с различными формами геометрических данных с учетом их симметрий, использующая проективную геометрическую алгебру для эффективного представления. GATr демонстрирует превосходство над другими базовыми моделями в задачах моделирования взаимодействия тел, оценки сдвига стенок артерий и планирования движений роботов, улучшая точность, эффективность работы с данными и масштабируемость.
https://arxiv.org/pdf/2305.18415
https://arxiv.org/pdf/2305.18415
🔥5
В статье исследуют методы эффективного обучения больших языковых моделей, акцентируя внимание на Ask-LLM и сэмплирование по плотности.
Исследование показывает, что эти подходы позволяют достичь высокой точности модели при сокращении до 90% данных и ускорении сходимости до 70%.
https://arxiv.org/pdf/2402.09668
Исследование показывает, что эти подходы позволяют достичь высокой точности модели при сокращении до 90% данных и ускорении сходимости до 70%.
https://arxiv.org/pdf/2402.09668
В статье представлен новый оптимизатор Adam-mini, который значительно сокращает использование памяти за счет уменьшения числа скоростей обучения и превосходит AdamW, эффективно работая на моделях размером от 125M до 7B параметров для предварительного обучения, самонастройки и обучения с подкреплением.
https://arxiv.org/abs/2406.16793
https://arxiv.org/abs/2406.16793
❤🔥4👍2
Статья охватывает темы создания 3D модели солнечной системы на Python с использованием Matplotlib, включая представление точек и векторов в 3D, создание классoв, а также добавление визуализации и эффектов гравитации.
👍7
Фреймворк TextGrad обеспечивает автоматическое дифференцирование через обратное распространение на текстовой обратной связи, предоставляемой LLM.
Этот подход улучшает отдельные компоненты и помогает оптимизировать вычислительный граф с использованием естественного языка без настройки подсказок или компонентов.
TextGrad утверждает, что в сочетании с GPT4o достигает лучших результатов на задачах LeetCodeHard и демонстрирует SOTA-производительность на GPQA.
https://arxiv.org/abs/2406.07496v1
Этот подход улучшает отдельные компоненты и помогает оптимизировать вычислительный граф с использованием естественного языка без настройки подсказок или компонентов.
TextGrad утверждает, что в сочетании с GPT4o достигает лучших результатов на задачах LeetCodeHard и демонстрирует SOTA-производительность на GPQA.
https://arxiv.org/abs/2406.07496v1
❤🔥3👍2
Aвторы представляют аксиоматическую систему для точного определения и количественной оценки эффектов запоминания и контекстного рассуждения в больших языковых моделях (LLM).
Они разделяют эффекты запоминания на базовые и хаотические, а эффекты контекстного рассуждения - на усиленные, устраненные и обращенные. Эта система позволяет точно разложить доверительные оценки модели на эффекты запоминания и рассуждения.
https://arxiv.org/pdf/2405.11880
Они разделяют эффекты запоминания на базовые и хаотические, а эффекты контекстного рассуждения - на усиленные, устраненные и обращенные. Эта система позволяет точно разложить доверительные оценки модели на эффекты запоминания и рассуждения.
https://arxiv.org/pdf/2405.11880
В статье рассматриваются основы позиционного кодирования в трансформерах, объясняя, как синусоидальные функции вводят информацию о позициях токенов, что помогает моделям распознавать порядок элементов в последовательности.
Обсуждаются различные методы позиционного кодирования, включая обучаемые векторы и роторные кодировки, которые улучшают обработку длинных контекстов.
Обсуждаются различные методы позиционного кодирования, включая обучаемые векторы и роторные кодировки, которые улучшают обработку длинных контекстов.
👍4
Эта статья рассматривает популярное мнение о том, что увеличение размера языковых моделей (LLM) неизбежно приведёт к созданию искусственного общего интеллекта (AGI). Авторы оспаривают это мнение.
Авторы предлагают рассматривать развитие AI как "лестницу общности", где LLM — лишь очередная ступень. Они подчеркивают, что исторически AI-сообщество плохо предсказывало будущие прорывы и их последствия.
В целом, статья призывает к более скептическому и реалистичному взгляду на перспективы масштабирования языковых моделей и их потенциал в достижении AGI.
Авторы предлагают рассматривать развитие AI как "лестницу общности", где LLM — лишь очередная ступень. Они подчеркивают, что исторически AI-сообщество плохо предсказывало будущие прорывы и их последствия.
В целом, статья призывает к более скептическому и реалистичному взгляду на перспективы масштабирования языковых моделей и их потенциал в достижении AGI.
❤🔥5
В статье рассматриваются проблемы крупных языковых моделей (галлюцинации, устаревшие данные, непрозрачные процессы рассуждения) и как Retrieval-Augmented Generation (RAG) решает эти проблемы, интегрируя внешние базы данных.
Описываются различные парадигмы RAG (Naive RAG, Advanced RAG, Modular RAG) и их ключевые компоненты (извлечение, генерация, дополнение).
https://arxiv.org/pdf/2312.10997
Описываются различные парадигмы RAG (Naive RAG, Advanced RAG, Modular RAG) и их ключевые компоненты (извлечение, генерация, дополнение).
https://arxiv.org/pdf/2312.10997
👍3❤🔥2 2
Статья освещает основы векторного поиска, его компоненты (извлечение и ранжирование), и применение алгоритмов машинного обучения, таких как BM25, в современных поисковых системах, улучшенных за счет использования моделей глубокого обучения, включая BERT.
В статье изучаются методы ускорения предобучения больших языковых моделей (LLM). Авторы предлагают оператор глубинного стэкинга Gstack, который ускоряет обучение, снижая потери и улучшая производительность на восьми стандартных NLP-бенчмарках. Gstack показывает высокую масштабируемость и эффективность, достигая тех же результатов, что и традиционные модели, но с меньшими затратами токенов. Авторы также формулируют рекомендации по применению Gstack, делая его практичным для предобучения LLM.
👍3
Aвторы исследуют линейные характеристики трансформеров GPT, LLaMA, OPT, BLOOM и другие. Они обнаружили почти идеальную линейную связь между преобразованиями эмбеддингов между последовательными слоями.
Эксперименты показали, что удаление или линейная аппроксимация некоторых наиболее линейных блоков незначительно влияет на потерю или производительность модели. Введение регуляризации на основе косинусного сходства при предварительном обучении улучшило метрики производительности и уменьшило линейность моделей, что ставит под сомнение существующее понимание архитектур трансформеров.
https://arxiv.org/pdf/2405.12250
Эксперименты показали, что удаление или линейная аппроксимация некоторых наиболее линейных блоков незначительно влияет на потерю или производительность модели. Введение регуляризации на основе косинусного сходства при предварительном обучении улучшило метрики производительности и уменьшило линейность моделей, что ставит под сомнение существующее понимание архитектур трансформеров.
https://arxiv.org/pdf/2405.12250
👍3❤🔥2 1
Статья охватывает следующие темы: архитектура трансформеров с декодером и их важность для генеративных языковых моделей (LLM), механизм самовнимания (self-attention), включая скалированное точечное произведение внимания и многоголовое внимание (multi-head attention), а также реализация каскадного самовнимания на PyTorch с примерами кода.
👍3
В статье рассматривается парадигма обработки естественного языка, включающая крупномасштабное предварительное обучение на данных общего домена и адаптацию к конкретным задачам или доменам.
https://arxiv.org/pdf/2106.09685
https://arxiv.org/pdf/2106.09685
❤🔥2👍2
Исследование представляет обзор выбранных методов и их реализаций. Предложен двухэтапный подход к классификации данных высокой размерности, а также методы робастной регрессии и обработки выбросов для изображений.
Статья охватывает несколько ключевых тем в области дообучения языковых моделей, включая текущее состояние RLHF и его влияние по сравнению с предобучением.
Автор обсуждает разработку и оценку моделей оптимизации проксимальной политики и прямой оптимизации предпочтений, важность наборов данных для дообучения, производительность моделей вознаграждения через RewardBench.
https://substack.com/home/post/p-146002205
Автор обсуждает разработку и оценку моделей оптимизации проксимальной политики и прямой оптимизации предпочтений, важность наборов данных для дообучения, производительность моделей вознаграждения через RewardBench.
https://substack.com/home/post/p-146002205
Рассматриваются основные аспекты Information Retrieval включая классические алгоритмы типа инвертированного индекса и модели мешка слов (BoW), применение современных методов глубокого обучения, таких как трансформерные модели, вроде BERT.
❤🔥3
https://vpnand.com/?ref=92
Наши друзья создали VPN. Рекомендуем. Скачивайте.
Мем для привлечения внимания 🌝❤️
Наши друзья создали VPN. Рекомендуем. Скачивайте.
Мем для привлечения внимания 🌝❤️
🔥6 5❤🔥1
Cравнительный анализ стратегий обучения, которые используют как выбор признаков для работы с высокой размерностью, так и методы обучения с учетом стоимости для справления с дисбалансом классов. Эксперименты проводились на трех бенчмарках из геномной области, что позволило оценить влияние комбинации выбора признаков и обучения с учетом стоимости на несбалансированных данных.
https://peerj.com/articles/cs-832/
https://peerj.com/articles/cs-832/
Статья исследует, улучшает ли увеличение данных обобщение в обработке естественного языка (NLP), помогая моделям отказаться от поверхностных признаков в пользу более общих и сильных.
Исследование показывает, что увеличение данных может сначала ухудшить производительность, прежде чем начать помогать, и что его эффективность ограничена, если более сильный признак значительно сложнее извлечь, чем конкурирующий поверхностный признак.
https://arxiv.org/abs/2004.15012
Исследование показывает, что увеличение данных может сначала ухудшить производительность, прежде чем начать помогать, и что его эффективность ограничена, если более сильный признак значительно сложнее извлечь, чем конкурирующий поверхностный признак.
https://arxiv.org/abs/2004.15012
👍2
Наткнулся на сайт, который сделал визуализацию метрики ROI (возврат инвестиций) образования в разбивке по направлениям и университетам. Потом они составили рейтинг университетов по этому показателю
Здесь можно посмотреть на рейтинг универов, а здесь — подробнее почитать про методологию. Вот небольшое саммари методологии:
Факторы, учитываемые в расчете ROI:
Процесс расчета ROI:
Интерпретация ROI: Например, если программа имеет ROI $50,000, это означает, что студент, начавший эту программу, становится на $50,000 "богаче" (в текущих деньгах) по сравнению с тем, если бы он сразу вышел на рынок труда после школы.
Получилась довольно занимательная статистика — кто бы мог подумать, что после обучения на visual and performing arts люди в среднем получают меньше, чем после computer science?
Занимательно, что университеты стоимостью $20.000 в среднем имеют меньший ROI университетов с более дорогим образованием. Еще интересно было сравнить частные вузы с публичными — вторые стоят в два раза дешевле, но ROI показывают на уровне верхушки частных вузов
Что думаете про визуализацию? Нужно ли школьникам учитывать подобные рейтинги и метрики при поступлении в универ и выборе направлении? Прожимайте реакцию
t.me/dataminingteam
(C) t.me/tagir_analyzes
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7😁2