NEW BOT Телеграм, страница

Data Mining | Анализ данных🚀

Обзор применения Dropout регуляризации для борьбы с переобучением в моделях машинного обучения.

В статье рассматривается понятие переобучения и его важность, а также объясняется, как работает Dropout в нейронных сетях и как его можно применить к моделям машинного обучения на примере MLP, включая выбор оптимального коэффициента Dropout.

👍6❤‍🔥3🔥2

917 views15:38

Data Mining | Анализ данных🚀

Исследуются методы визуализации скрытых состояний языковых моделей Transformer с целью понять, как модели генерируют текст. Статья демонстрирует визуализации ранжирования токенов, логитов и вероятностей softmax на разных слоях моделей, таких как GPT-2 XL. Цель этих визуализаций - раскрыть принципы принятия решений моделью и процесс её работы от входных данных к выходным токенам через каждый слой модели.

👍6❤‍🔥3🔥2

887 views15:39

Data Mining | Анализ данных🚀

Парни создали объединённое ядро CUDA, которое деквантовывает значения fp6 до fp16 перед выполнением обычного умножения матриц fp16 с накопителями fp32. Это аналогично существующим ядрам для низкобитового вывода 4 бит и 8 бит, но с новым сложным форматом.

FP6-LLM позволяет выполнять вывод моделей быстрее в режиме, ограниченном пропускной способностью памяти (малые размеры пакетов), используя меньшие веса.

link

❤‍🔥6

932 views15:39

Data Mining | Анализ данных🚀

Статья освещает методы оптимизации гиперпараметров для ML, начиная от ручного подбора и заканчивая байесовской модельно-основанной оптимизацией. Она подробно объясняет принципы построения вероятностной модели целевой функции и использования её для эффективного выбора оптимальных гиперпараметров, а также обсуждает преимущества этого подхода по сравнению с традиционными методами.

❤‍🔥6

981 views15:39

Data Mining | Анализ данных🚀

Статья касается различных аспектов развития языковых моделей, начиная от Transformer и BERT, до более новых моделей типа GPT и RETRO.

Обсуждаются методы предварительного обучения, контекстуализированные эмбеддинги, и использование баз данных для улучшения работы моделей при генерации текста.

👍5

1.01K views15:29

Data Mining | Анализ данных🚀

Pассматривается создание инструмента для извлечения, анализа и визуализации данных статистики статей на Medium, включая построение интерактивных графиков, применение ML методов для анализа зависимостей и прогнозирования будущих показателей.

Автор демонстрирует не только техническую реализацию инструмента, но и применяет его для получения интересных инсайтов из своих собственных данных статистики Medium.

👍4

1.04K views15:32

Data Mining | Анализ данных🚀

Статья обсуждает контроверсию вокруг фторирования воды, подчеркивая его эффективность и безопасность на основе мета-анализов и исследований. Автор рассматривает аргументы противников, подчеркивая необходимость осмысленного подхода к научным данных в общественном здравоохранении.

👍6❤‍🔥2🐳2

977 views15:29

Data Mining | Анализ данных🚀

😁10🔥4

1.02K views10:45

Data Mining | Анализ данных🚀

Статья рассматривает применение моделей глубокого обучения, включая архитектуры на основе трансформеров, для задачи ранжирования в системах информационного поиска. Обсуждаются модели типа MonoBERT и DuoBERT для переранжировки запросов, а также использование моделей типа T5 для ранжирования документов на основе последовательностей.

❤‍🔥6👍3

872 views15:34

Data Mining | Анализ данных🚀

Автор делится примером, когда нужно оставить только имена длиннее пяти букв, и примером, когда нужно заменить короткие имена на символ-заполнитель. Объясняется, почему порядок частей в этих включениях различается и как это соотносится с документацией Python. Статья также кратко рассматривает разницу между выражениями и операторами, помогая понять, почему тернарный оператор является выражением и как его использовать в списковых включениях.

❤‍🔥4👍3🔥1

864 views15:34

Data Mining | Анализ данных🚀

Йошуа Бенгио рассказывает о рисках работы с большими языковыми моделями, как, например, когда модель придумывает ответы, которые звучат правдоподобно, но на самом деле неверны. Он предлагает способ борьбы с этим — улучшать тексты и модели шаг за шагом, чтобы избежать таких ошибок. Подробнее👇

https://yoshuabengio.org/2024/07/09/reasoning-through-arguments-against-taking-ai-safety-seriously/

Please open Telegram to view this post

VIEW IN TELEGRAM

Yoshua Bengio

Reasoning through arguments against taking AI safety seriously - Yoshua Bengio

About a year ago, a few months after I publicly took a stand with many other peers to warn the public of the dangers related…

🔥6👍2❤‍🔥1

901 viewsedited 10:25

Data Mining | Анализ данных🚀

Исследование рассматривает метод самообучения ReSTEM для расширения возможностей языковых моделей за счёт использования обратной связи в задачах, где доступен числовой ответ, например, в математических задачах. Авторы демонстрируют, что ReSTEM значительно улучшает производительность моделей по сравнению с обычной настройкой на данных, созданных людьми, подчёркивая потенциал снижения зависимости от человеческих данных.

👍4

922 views15:29

Data Mining | Анализ данных🚀

Описаны опции создания пустого словаря, передача отображения (например, другого словаря), передача итерируемого объекта пар и использование именованных аргументов в качестве ключей и значений. Также обсуждается возможность комбинирования этих методов при создании словаря.

5❤‍🔥2

836 views15:31

Data Mining | Анализ данных🚀

Исследуются методы генерации наборов данных, которые точно отражают статистические свойства наблюдений. Оценивается полезность синтетических наборов данных для прогнозирования способности Dark Energy Spectroscopic Instrument ограничивать возможные ошибки измерений барионных акустических осцилляций.

❤‍🔥4

883 views15:33

Data Mining | Анализ данных🚀

Статья охватывает темы: тип данных bytes в Python, разницу между строками и байтами, основы кодировки ASCII и необходимость более сложных кодировок, таких как UTF-8. Также рассматривается, как UTF-8 кодирует символы и примеры с использованием различных языков и символов.

🔥5👍11

961 views15:34

Data Mining | Анализ данных🚀

каждый уважающий себя работяга как минимум 1 раз на новом месте:

🍓9👍31

985 views15:38

Data Mining | Анализ данных🚀

Разработчик делится жизненными уроками за 35 лет работы с ПО. Сюда входит: делать вещи проще, выпускать обновления почаще, строить крепкие связи с коллегами, не бояться новых задач и помнить, что программы постоянно меняются, так что лучше делать полезные улучшения, а не стремиться к идеалу.

https://dev.jimgrey.net/2024/07/03/lessons-learned-in-35-years-of-making-software/

Jim Grey on software management

Lessons learned in 35 years of making software

A dozen things I have learned as I reflect on my long career

👍4❤‍🔥1🔥11

928 views10:42

Data Mining | Анализ данных🚀

"Speculative Streaming" — метод ускоренного декодирования языковых моделей, который интегрирует draft modeling в целевую модель, улучшая скорость вывода на 1.8-3.1 р. в суммаризации и структурированныx запросax, при использовании значительно меньшего числа параметров, чем архитектуры типа Medusa.

Eсли вы собираетесь получить proposal distribution из вашей целевой модели без (существенного) увеличения числа параметров, это кажется разумным способом.

link

👍6

893 views15:31

Data Mining | Анализ данных🚀

В статье описаны способы использования хэш-функций для эффективного поиска и сравнения объектов, а также обсуждаются связи между хэшируемостью, неизменностью и равенством объектов. Примеры с кодом и иллюстрации помогают понять, как работают хэшируемые объекты и их роль в словарях Python.

❤‍🔥4👍2

1.08K views15:33

Data Mining | Анализ данных🚀

😁9💯2🍓1

931 views12:45

Data Mining | Анализ данных🚀

Mеханистическое проектирование гибридных архитектур глубокого обучения через методику MAD, охватывающую синтетические задачи манипуляции токенами.

Мне приглянулось исследование того, как перплексия изменяется в зависимости от размера состояния. Под "размером состояния" понимается история KV для трансформеров или латентные переменные состояния для вариантов SSM/RNN. Мы получаем чистое степенное масштабирование в пределах данного класса архитектур, но нет общей границы Парето, на которой находились бы все варианты.

link

🔥4👍1🐳1

1.01K views14:33

About

Blog

Apps

Platform