NEW BOT Телеграм, страница

Data Mining | Анализ данных🚀

Mеханистическое проектирование гибридных архитектур глубокого обучения через методику MAD, охватывающую синтетические задачи манипуляции токенами.

Мне приглянулось исследование того, как перплексия изменяется в зависимости от размера состояния. Под "размером состояния" понимается история KV для трансформеров или латентные переменные состояния для вариантов SSM/RNN. Мы получаем чистое степенное масштабирование в пределах данного класса архитектур, но нет общей границы Парето, на которой находились бы все варианты.

link

🔥4👍1🐳1

1.01K views14:33

Data Mining | Анализ данных🚀

Статья рассматривает применение алгоритмов на графах для кластеризации товаров на сайте Ozon, что помогает улучшать поиск и сравнение предложений для пользователей. Особое внимание уделено методам выделения сообществ и анализу структуры сети товаров для оптимизации матчинга.

🔥6👍1

1.11K views15:37

Data Mining | Анализ данных🚀

Статья объясняет процесс токенизации в больших языковых моделях (LLMs). Токены представляют собой дискретные компоненты, на которые разбивается последовательность для обучения модели. Особое внимание уделено субсловной токенизации, которая разбивает слова на подстроки, учитывая морфологические особенности языка. Обсуждаются преимущества такого подхода перед классическими методами токенизации слов или символов и его влияние на способность моделей понимать и генерировать текст.

👍4❤‍🔥21

955 views15:31

Data Mining | Анализ данных🚀

Cтатья охватывает методы плотного поиска информации, используя модели с плотным представлением (на основе трансформеров).

Рассматривается использование bi-encoder для обучения моделей, минимизирующих расстояние между семантически близкими объектами. Также обсуждаются методы тройных потерь и использование техник псевдо-разметки и дистилляции знаний для улучшения результатов плотного поиска.

https://medium.com/@aikho/deep-learning-in-information-retrieval-part-ii-dense-retrieval-1f9fecb47de9

❤‍🔥5

1.24K views15:35

Data Mining | Анализ данных🚀

стажеры такие:

❤‍🔥21😁3💯2

1.27K views15:45

Data Mining | Анализ данных🚀

Освещены темы: векторные представления слов, их преобразование в предсказания, механизмы внимания и прямого распространения в нейронных сетях, процесс обучения языковых моделей

https://seantrott.substack.com/p/large-language-models-explained

❤‍🔥6💯11

1.09K views15:32

Data Mining | Анализ данных🚀

Исследование изучает законы масштабирования в моделях плотного поиска, исследуя, как производительность моделей зависит от их размера и объема аннотированных данных.

Используя контрастную лог-правдоподобие (contrastive log-likelihood) в качестве метрики, авторы обнаружили, что производительность моделей следует закону мощности относительно числа параметров модели и объема аннотаций.

Исследование подчеркивает важность понимания эффектов масштабирования и предлагает рекомендации по оптимизации распределения ресурсов.

https://arxiv.org/pdf/2403.18684

7❤‍🔥1👍1

1.01K views15:44

Data Mining | Анализ данных🚀

Исследование включает создание синтетических задач, адаптацию моделей к специализированным данным, и сравнение эффективности с другими методами самонастройки и обучения моделей.

https://arxiv.org/pdf/2402.18334

👍5❤‍🔥2

932 views15:43

Data Mining | Анализ данных🚀

Geometric Algebra Transformer (GATr) - универсальная архитектура для работы с различными формами геометрических данных с учетом их симметрий, использующая проективную геометрическую алгебру для эффективного представления. GATr демонстрирует превосходство над другими базовыми моделями в задачах моделирования взаимодействия тел, оценки сдвига стенок артерий и планирования движений роботов, улучшая точность, эффективность работы с данными и масштабируемость.

https://arxiv.org/pdf/2305.18415

🔥5

979 views15:34

Data Mining | Анализ данных🚀

В статье исследуют методы эффективного обучения больших языковых моделей, акцентируя внимание на Ask-LLM и сэмплирование по плотности.

Исследование показывает, что эти подходы позволяют достичь высокой точности модели при сокращении до 90% данных и ускорении сходимости до 70%.

https://arxiv.org/pdf/2402.09668

4👍1

1.01K views15:29

Data Mining | Анализ данных🚀

В статье представлен новый оптимизатор Adam-mini, который значительно сокращает использование памяти за счет уменьшения числа скоростей обучения и превосходит AdamW, эффективно работая на моделях размером от 125M до 7B параметров для предварительного обучения, самонастройки и обучения с подкреплением.

https://arxiv.org/abs/2406.16793

❤‍🔥4👍2

1.04K views15:32

Data Mining | Анализ данных🚀

Статья охватывает темы создания 3D модели солнечной системы на Python с использованием Matplotlib, включая представление точек и векторов в 3D, создание классoв, а также добавление визуализации и эффектов гравитации.

👍7

1.03K views15:34

Data Mining | Анализ данных🚀

Фреймворк TextGrad обеспечивает автоматическое дифференцирование через обратное распространение на текстовой обратной связи, предоставляемой LLM.

Этот подход улучшает отдельные компоненты и помогает оптимизировать вычислительный граф с использованием естественного языка без настройки подсказок или компонентов.

TextGrad утверждает, что в сочетании с GPT4o достигает лучших результатов на задачах LeetCodeHard и демонстрирует SOTA-производительность на GPQA.

https://arxiv.org/abs/2406.07496v1

❤‍🔥3👍2

969 views15:41

Data Mining | Анализ данных🚀

Aвторы представляют аксиоматическую систему для точного определения и количественной оценки эффектов запоминания и контекстного рассуждения в больших языковых моделях (LLM).

Они разделяют эффекты запоминания на базовые и хаотические, а эффекты контекстного рассуждения - на усиленные, устраненные и обращенные. Эта система позволяет точно разложить доверительные оценки модели на эффекты запоминания и рассуждения.

https://arxiv.org/pdf/2405.11880

4👍2⚡1

993 views15:35

Data Mining | Анализ данных🚀

В статье рассматриваются основы позиционного кодирования в трансформерах, объясняя, как синусоидальные функции вводят информацию о позициях токенов, что помогает моделям распознавать порядок элементов в последовательности.

Обсуждаются различные методы позиционного кодирования, включая обучаемые векторы и роторные кодировки, которые улучшают обработку длинных контекстов.

👍4

1.03K views15:14

Data Mining | Анализ данных🚀

Эта статья рассматривает популярное мнение о том, что увеличение размера языковых моделей (LLM) неизбежно приведёт к созданию искусственного общего интеллекта (AGI). Авторы оспаривают это мнение.

Авторы предлагают рассматривать развитие AI как "лестницу общности", где LLM — лишь очередная ступень. Они подчеркивают, что исторически AI-сообщество плохо предсказывало будущие прорывы и их последствия.

В целом, статья призывает к более скептическому и реалистичному взгляду на перспективы масштабирования языковых моделей и их потенциал в достижении AGI.

❤‍🔥5

1.12K views15:16

Data Mining | Анализ данных🚀

В статье рассматриваются проблемы крупных языковых моделей (галлюцинации, устаревшие данные, непрозрачные процессы рассуждения) и как Retrieval-Augmented Generation (RAG) решает эти проблемы, интегрируя внешние базы данных.

Описываются различные парадигмы RAG (Naive RAG, Advanced RAG, Modular RAG) и их ключевые компоненты (извлечение, генерация, дополнение).

https://arxiv.org/pdf/2312.10997

👍3❤‍🔥22

1.11K views15:29

Data Mining | Анализ данных🚀

Статья освещает основы векторного поиска, его компоненты (извлечение и ранжирование), и применение алгоритмов машинного обучения, таких как BM25, в современных поисковых системах, улучшенных за счет использования моделей глубокого обучения, включая BERT.

990 views15:15

Data Mining | Анализ данных🚀

В статье изучаются методы ускорения предобучения больших языковых моделей (LLM). Авторы предлагают оператор глубинного стэкинга Gstack, который ускоряет обучение, снижая потери и улучшая производительность на восьми стандартных NLP-бенчмарках. Gstack показывает высокую масштабируемость и эффективность, достигая тех же результатов, что и традиционные модели, но с меньшими затратами токенов. Авторы также формулируют рекомендации по применению Gstack, делая его практичным для предобучения LLM.

👍3

958 views15:16

Data Mining | Анализ данных🚀

Aвторы исследуют линейные характеристики трансформеров GPT, LLaMA, OPT, BLOOM и другие. Они обнаружили почти идеальную линейную связь между преобразованиями эмбеддингов между последовательными слоями.

Эксперименты показали, что удаление или линейная аппроксимация некоторых наиболее линейных блоков незначительно влияет на потерю или производительность модели. Введение регуляризации на основе косинусного сходства при предварительном обучении улучшило метрики производительности и уменьшило линейность моделей, что ставит под сомнение существующее понимание архитектур трансформеров.

https://arxiv.org/pdf/2405.12250

👍3❤‍🔥21

964 views15:23

Data Mining | Анализ данных🚀

Статья охватывает следующие темы: архитектура трансформеров с декодером и их важность для генеративных языковых моделей (LLM), механизм самовнимания (self-attention), включая скалированное точечное произведение внимания и многоголовое внимание (multi-head attention), а также реализация каскадного самовнимания на PyTorch с примерами кода.

👍3

988 views15:26

About

Blog

Apps

Platform