Data Mining | Анализ данных🚀 – Telegram
Data Mining | Анализ данных🚀
3.28K subscribers
1.73K photos
10 videos
5 files
1.7K links
• Купить рекламу: t.me/sahib_space
Админ: sahib_space
• Стоимость: https://www.notion.so/sahibspace/69ece414a4af49f2bdbdfe455e553e58?pvs=3&qid=
• Группа в ВК: vk.com/datamining.team
Download Telegram
Mеханистическое проектирование гибридных архитектур глубокого обучения через методику MAD, охватывающую синтетические задачи манипуляции токенами.

Мне приглянулось исследование того, как перплексия изменяется в зависимости от размера состояния. Под "размером состояния" понимается история KV для трансформеров или латентные переменные состояния для вариантов SSM/RNN. Мы получаем чистое степенное масштабирование в пределах данного класса архитектур, но нет общей границы Парето, на которой находились бы все варианты.

link
🔥4👍1🐳1
Статья рассматривает применение алгоритмов на графах для кластеризации товаров на сайте Ozon, что помогает улучшать поиск и сравнение предложений для пользователей. Особое внимание уделено методам выделения сообществ и анализу структуры сети товаров для оптимизации матчинга.
🔥6👍1
Статья объясняет процесс токенизации в больших языковых моделях (LLMs). Токены представляют собой дискретные компоненты, на которые разбивается последовательность для обучения модели. Особое внимание уделено субсловной токенизации, которая разбивает слова на подстроки, учитывая морфологические особенности языка. Обсуждаются преимущества такого подхода перед классическими методами токенизации слов или символов и его влияние на способность моделей понимать и генерировать текст.
👍4❤‍🔥21
Cтатья охватывает методы плотного поиска информации, используя модели с плотным представлением (на основе трансформеров).

Рассматривается использование bi-encoder для обучения моделей, минимизирующих расстояние между семантически близкими объектами. Также обсуждаются методы тройных потерь и использование техник псевдо-разметки и дистилляции знаний для улучшения результатов плотного поиска.

https://medium.com/@aikho/deep-learning-in-information-retrieval-part-ii-dense-retrieval-1f9fecb47de9
❤‍🔥5
стажеры такие:
❤‍🔥21😁3💯2
Освещены темы: векторные представления слов, их преобразование в предсказания, механизмы внимания и прямого распространения в нейронных сетях, процесс обучения языковых моделей

https://seantrott.substack.com/p/large-language-models-explained
❤‍🔥6💯11
Исследование изучает законы масштабирования в моделях плотного поиска, исследуя, как производительность моделей зависит от их размера и объема аннотированных данных.

Используя контрастную лог-правдоподобие (contrastive log-likelihood) в качестве метрики, авторы обнаружили, что производительность моделей следует закону мощности относительно числа параметров модели и объема аннотаций.

Исследование подчеркивает важность понимания эффектов масштабирования и предлагает рекомендации по оптимизации распределения ресурсов.

https://arxiv.org/pdf/2403.18684
7❤‍🔥1👍1
Исследование включает создание синтетических задач, адаптацию моделей к специализированным данным, и сравнение эффективности с другими методами самонастройки и обучения моделей.

https://arxiv.org/pdf/2402.18334
👍5❤‍🔥2
Geometric Algebra Transformer (GATr) - универсальная архитектура для работы с различными формами геометрических данных с учетом их симметрий, использующая проективную геометрическую алгебру для эффективного представления. GATr демонстрирует превосходство над другими базовыми моделями в задачах моделирования взаимодействия тел, оценки сдвига стенок артерий и планирования движений роботов, улучшая точность, эффективность работы с данными и масштабируемость.

https://arxiv.org/pdf/2305.18415
🔥5
В статье исследуют методы эффективного обучения больших языковых моделей, акцентируя внимание на Ask-LLM и сэмплирование по плотности.

Исследование показывает, что эти подходы позволяют достичь высокой точности модели при сокращении до 90% данных и ускорении сходимости до 70%.

https://arxiv.org/pdf/2402.09668
4👍1
В статье представлен новый оптимизатор Adam-mini, который значительно сокращает использование памяти за счет уменьшения числа скоростей обучения и превосходит AdamW, эффективно работая на моделях размером от 125M до 7B параметров для предварительного обучения, самонастройки и обучения с подкреплением.

https://arxiv.org/abs/2406.16793
❤‍🔥4👍2
Статья охватывает темы создания 3D модели солнечной системы на Python с использованием Matplotlib, включая представление точек и векторов в 3D, создание классoв, а также добавление визуализации и эффектов гравитации.
👍7
Фреймворк TextGrad обеспечивает автоматическое дифференцирование через обратное распространение на текстовой обратной связи, предоставляемой LLM.

Этот подход улучшает отдельные компоненты и помогает оптимизировать вычислительный граф с использованием естественного языка без настройки подсказок или компонентов.

TextGrad утверждает, что в сочетании с GPT4o достигает лучших результатов на задачах LeetCodeHard и демонстрирует SOTA-производительность на GPQA.

https://arxiv.org/abs/2406.07496v1
❤‍🔥3👍2
Aвторы представляют аксиоматическую систему для точного определения и количественной оценки эффектов запоминания и контекстного рассуждения в больших языковых моделях (LLM).

Они разделяют эффекты запоминания на базовые и хаотические, а эффекты контекстного рассуждения - на усиленные, устраненные и обращенные. Эта система позволяет точно разложить доверительные оценки модели на эффекты запоминания и рассуждения.

https://arxiv.org/pdf/2405.11880
4👍21
В статье рассматриваются основы позиционного кодирования в трансформерах, объясняя, как синусоидальные функции вводят информацию о позициях токенов, что помогает моделям распознавать порядок элементов в последовательности.

Обсуждаются различные методы позиционного кодирования, включая обучаемые векторы и роторные кодировки, которые улучшают обработку длинных контекстов.
👍4
Эта статья рассматривает популярное мнение о том, что увеличение размера языковых моделей (LLM) неизбежно приведёт к созданию искусственного общего интеллекта (AGI). Авторы оспаривают это мнение.

Авторы предлагают рассматривать развитие AI как "лестницу общности", где LLM — лишь очередная ступень. Они подчеркивают, что исторически AI-сообщество плохо предсказывало будущие прорывы и их последствия.

В целом, статья призывает к более скептическому и реалистичному взгляду на перспективы масштабирования языковых моделей и их потенциал в достижении AGI.
❤‍🔥5
В статье рассматриваются проблемы крупных языковых моделей (галлюцинации, устаревшие данные, непрозрачные процессы рассуждения) и как Retrieval-Augmented Generation (RAG) решает эти проблемы, интегрируя внешние базы данных.

Описываются различные парадигмы RAG (Naive RAG, Advanced RAG, Modular RAG) и их ключевые компоненты (извлечение, генерация, дополнение).

https://arxiv.org/pdf/2312.10997
👍3❤‍🔥22
Статья освещает основы векторного поиска, его компоненты (извлечение и ранжирование), и применение алгоритмов машинного обучения, таких как BM25, в современных поисковых системах, улучшенных за счет использования моделей глубокого обучения, включая BERT.
4
В статье изучаются методы ускорения предобучения больших языковых моделей (LLM). Авторы предлагают оператор глубинного стэкинга Gstack, который ускоряет обучение, снижая потери и улучшая производительность на восьми стандартных NLP-бенчмарках. Gstack показывает высокую масштабируемость и эффективность, достигая тех же результатов, что и традиционные модели, но с меньшими затратами токенов. Авторы также формулируют рекомендации по применению Gstack, делая его практичным для предобучения LLM.
👍3
Aвторы исследуют линейные характеристики трансформеров GPT, LLaMA, OPT, BLOOM и другие. Они обнаружили почти идеальную линейную связь между преобразованиями эмбеддингов между последовательными слоями.

Эксперименты показали, что удаление или линейная аппроксимация некоторых наиболее линейных блоков незначительно влияет на потерю или производительность модели. Введение регуляризации на основе косинусного сходства при предварительном обучении улучшило метрики производительности и уменьшило линейность моделей, что ставит под сомнение существующее понимание архитектур трансформеров.

https://arxiv.org/pdf/2405.12250
👍3❤‍🔥21
Статья охватывает следующие темы: архитектура трансформеров с декодером и их важность для генеративных языковых моделей (LLM), механизм самовнимания (self-attention), включая скалированное точечное произведение внимания и многоголовое внимание (multi-head attention), а также реализация каскадного самовнимания на PyTorch с примерами кода.
👍3