Описаны опции создания пустого словаря, передача отображения (например, другого словаря), передача итерируемого объекта пар и использование именованных аргументов в качестве ключей и значений. Также обсуждается возможность комбинирования этих методов при создании словаря.
Исследуются методы генерации наборов данных, которые точно отражают статистические свойства наблюдений. Оценивается полезность синтетических наборов данных для прогнозирования способности Dark Energy Spectroscopic Instrument ограничивать возможные ошибки измерений барионных акустических осцилляций.
❤🔥4
Статья охватывает темы: тип данных bytes в Python, разницу между строками и байтами, основы кодировки ASCII и необходимость более сложных кодировок, таких как UTF-8. Также рассматривается, как UTF-8 кодирует символы и примеры с использованием различных языков и символов.
🔥5👍1 1
Разработчик делится жизненными уроками за 35 лет работы с ПО. Сюда входит: делать вещи проще, выпускать обновления почаще, строить крепкие связи с коллегами, не бояться новых задач и помнить, что программы постоянно меняются, так что лучше делать полезные улучшения, а не стремиться к идеалу.
https://dev.jimgrey.net/2024/07/03/lessons-learned-in-35-years-of-making-software/
https://dev.jimgrey.net/2024/07/03/lessons-learned-in-35-years-of-making-software/
Jim Grey on software management
Lessons learned in 35 years of making software
A dozen things I have learned as I reflect on my long career
👍4❤🔥1🔥1 1
"Speculative Streaming" — метод ускоренного декодирования языковых моделей, который интегрирует draft modeling в целевую модель, улучшая скорость вывода на 1.8-3.1 р. в суммаризации и структурированныx запросax, при использовании значительно меньшего числа параметров, чем архитектуры типа Medusa.
Eсли вы собираетесь получить proposal distribution из вашей целевой модели без (существенного) увеличения числа параметров, это кажется разумным способом.
link
Eсли вы собираетесь получить proposal distribution из вашей целевой модели без (существенного) увеличения числа параметров, это кажется разумным способом.
link
👍6
В статье описаны способы использования хэш-функций для эффективного поиска и сравнения объектов, а также обсуждаются связи между хэшируемостью, неизменностью и равенством объектов. Примеры с кодом и иллюстрации помогают понять, как работают хэшируемые объекты и их роль в словарях Python.
❤🔥4👍2
Mеханистическое проектирование гибридных архитектур глубокого обучения через методику MAD, охватывающую синтетические задачи манипуляции токенами.
Мне приглянулось исследование того, как перплексия изменяется в зависимости от размера состояния. Под "размером состояния" понимается история KV для трансформеров или латентные переменные состояния для вариантов SSM/RNN. Мы получаем чистое степенное масштабирование в пределах данного класса архитектур, но нет общей границы Парето, на которой находились бы все варианты.
link
Мне приглянулось исследование того, как перплексия изменяется в зависимости от размера состояния. Под "размером состояния" понимается история KV для трансформеров или латентные переменные состояния для вариантов SSM/RNN. Мы получаем чистое степенное масштабирование в пределах данного класса архитектур, но нет общей границы Парето, на которой находились бы все варианты.
link
🔥4👍1🐳1
Статья рассматривает применение алгоритмов на графах для кластеризации товаров на сайте Ozon, что помогает улучшать поиск и сравнение предложений для пользователей. Особое внимание уделено методам выделения сообществ и анализу структуры сети товаров для оптимизации матчинга.
🔥6👍1
Статья объясняет процесс токенизации в больших языковых моделях (LLMs). Токены представляют собой дискретные компоненты, на которые разбивается последовательность для обучения модели. Особое внимание уделено субсловной токенизации, которая разбивает слова на подстроки, учитывая морфологические особенности языка. Обсуждаются преимущества такого подхода перед классическими методами токенизации слов или символов и его влияние на способность моделей понимать и генерировать текст.
👍4❤🔥2 1
Cтатья охватывает методы плотного поиска информации, используя модели с плотным представлением (на основе трансформеров).
Рассматривается использование bi-encoder для обучения моделей, минимизирующих расстояние между семантически близкими объектами. Также обсуждаются методы тройных потерь и использование техник псевдо-разметки и дистилляции знаний для улучшения результатов плотного поиска.
https://medium.com/@aikho/deep-learning-in-information-retrieval-part-ii-dense-retrieval-1f9fecb47de9
Рассматривается использование bi-encoder для обучения моделей, минимизирующих расстояние между семантически близкими объектами. Также обсуждаются методы тройных потерь и использование техник псевдо-разметки и дистилляции знаний для улучшения результатов плотного поиска.
https://medium.com/@aikho/deep-learning-in-information-retrieval-part-ii-dense-retrieval-1f9fecb47de9
❤🔥5
Освещены темы: векторные представления слов, их преобразование в предсказания, механизмы внимания и прямого распространения в нейронных сетях, процесс обучения языковых моделей
https://seantrott.substack.com/p/large-language-models-explained
https://seantrott.substack.com/p/large-language-models-explained
❤🔥6💯1 1
Исследование изучает законы масштабирования в моделях плотного поиска, исследуя, как производительность моделей зависит от их размера и объема аннотированных данных.
Используя контрастную лог-правдоподобие (contrastive log-likelihood) в качестве метрики, авторы обнаружили, что производительность моделей следует закону мощности относительно числа параметров модели и объема аннотаций.
Исследование подчеркивает важность понимания эффектов масштабирования и предлагает рекомендации по оптимизации распределения ресурсов.
https://arxiv.org/pdf/2403.18684
Используя контрастную лог-правдоподобие (contrastive log-likelihood) в качестве метрики, авторы обнаружили, что производительность моделей следует закону мощности относительно числа параметров модели и объема аннотаций.
Исследование подчеркивает важность понимания эффектов масштабирования и предлагает рекомендации по оптимизации распределения ресурсов.
https://arxiv.org/pdf/2403.18684
Исследование включает создание синтетических задач, адаптацию моделей к специализированным данным, и сравнение эффективности с другими методами самонастройки и обучения моделей.
https://arxiv.org/pdf/2402.18334
https://arxiv.org/pdf/2402.18334
👍5❤🔥2
Geometric Algebra Transformer (GATr) - универсальная архитектура для работы с различными формами геометрических данных с учетом их симметрий, использующая проективную геометрическую алгебру для эффективного представления. GATr демонстрирует превосходство над другими базовыми моделями в задачах моделирования взаимодействия тел, оценки сдвига стенок артерий и планирования движений роботов, улучшая точность, эффективность работы с данными и масштабируемость.
https://arxiv.org/pdf/2305.18415
https://arxiv.org/pdf/2305.18415
🔥5
В статье исследуют методы эффективного обучения больших языковых моделей, акцентируя внимание на Ask-LLM и сэмплирование по плотности.
Исследование показывает, что эти подходы позволяют достичь высокой точности модели при сокращении до 90% данных и ускорении сходимости до 70%.
https://arxiv.org/pdf/2402.09668
Исследование показывает, что эти подходы позволяют достичь высокой точности модели при сокращении до 90% данных и ускорении сходимости до 70%.
https://arxiv.org/pdf/2402.09668
В статье представлен новый оптимизатор Adam-mini, который значительно сокращает использование памяти за счет уменьшения числа скоростей обучения и превосходит AdamW, эффективно работая на моделях размером от 125M до 7B параметров для предварительного обучения, самонастройки и обучения с подкреплением.
https://arxiv.org/abs/2406.16793
https://arxiv.org/abs/2406.16793
❤🔥4👍2
Статья охватывает темы создания 3D модели солнечной системы на Python с использованием Matplotlib, включая представление точек и векторов в 3D, создание классoв, а также добавление визуализации и эффектов гравитации.
👍7
Фреймворк TextGrad обеспечивает автоматическое дифференцирование через обратное распространение на текстовой обратной связи, предоставляемой LLM.
Этот подход улучшает отдельные компоненты и помогает оптимизировать вычислительный граф с использованием естественного языка без настройки подсказок или компонентов.
TextGrad утверждает, что в сочетании с GPT4o достигает лучших результатов на задачах LeetCodeHard и демонстрирует SOTA-производительность на GPQA.
https://arxiv.org/abs/2406.07496v1
Этот подход улучшает отдельные компоненты и помогает оптимизировать вычислительный граф с использованием естественного языка без настройки подсказок или компонентов.
TextGrad утверждает, что в сочетании с GPT4o достигает лучших результатов на задачах LeetCodeHard и демонстрирует SOTA-производительность на GPQA.
https://arxiv.org/abs/2406.07496v1
❤🔥3👍2