Data Mining | Анализ данных🚀 – Telegram
Data Mining | Анализ данных🚀
3.28K subscribers
1.73K photos
10 videos
5 files
1.7K links
• Купить рекламу: t.me/sahib_space
Админ: sahib_space
• Стоимость: https://www.notion.so/sahibspace/69ece414a4af49f2bdbdfe455e553e58?pvs=3&qid=
• Группа в ВК: vk.com/datamining.team
Download Telegram
Исследование анализирует, как внедрение синтетических данных влияет на масштабирование нейронных моделей.

Авторы разрабатывают теоретическую модель для предсказания возможного деградирования моделей при изменении масштабных законов, что подтверждается экспериментами с использованием трансформера и Llama2.
👍6
В статье рассматриваются ограничения векторного поиска для LLM и утверждается, что он не всегда является лучшим решением.

Приводятся примеры инфраструктурных стэков от известных венчурных компаний, критикуется доминирование векторного поиска и предлагаются альтернативные методы поиска.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6
В статье обсуждаются проблемы концептуального дрейфа, который возникает, когда изменяется распределение данных, на основе которых обучена модель.

Представлены методы мониторинга и предотвращения дрейфа, такие как онлайн-обучение, периодическое переобучение моделей, использование ансамблевых методов и отбрасывание признаков.

Также описаны лучшие практики, включающие сбор и предобработку данных, их разметку, обнаружение дрейфа и его устранение.
❤‍🔥6💯21
Статья охватывает основы Retrieval Augmented Generation, её применение для улучшения LLM, и решения проблем, связанных с генерацией некорректной информации.

Автор обсуждает, как интеграция методов извлечения информации может повысить точность и эффективность ИИ-ассистентов.
👍6❤‍🔥2
Исследование рассматривает MoE-основанные большие языковые модели и их оптимальную настройку для инференции.

Авторы изучают зависимость производительности модели от её размера, объёма данных и числа экспертов в MoE, предлагая улучшенные методы настройки для достижения эффективности на этапе инференции при сохранении высокой производительности.
👍63❤‍🔥2
Обзор применения Dropout регуляризации для борьбы с переобучением в моделях машинного обучения.

В статье рассматривается понятие переобучения и его важность, а также объясняется, как работает Dropout в нейронных сетях и как его можно применить к моделям машинного обучения на примере MLP, включая выбор оптимального коэффициента Dropout.
👍6❤‍🔥3🔥2
Исследуются методы визуализации скрытых состояний языковых моделей Transformer с целью понять, как модели генерируют текст. Статья демонстрирует визуализации ранжирования токенов, логитов и вероятностей softmax на разных слоях моделей, таких как GPT-2 XL. Цель этих визуализаций - раскрыть принципы принятия решений моделью и процесс её работы от входных данных к выходным токенам через каждый слой модели.
👍6❤‍🔥3🔥2
Парни создали объединённое ядро CUDA, которое деквантовывает значения fp6 до fp16 перед выполнением обычного умножения матриц fp16 с накопителями fp32. Это аналогично существующим ядрам для низкобитового вывода 4 бит и 8 бит, но с новым сложным форматом.

FP6-LLM позволяет выполнять вывод моделей быстрее в режиме, ограниченном пропускной способностью памяти (малые размеры пакетов), используя меньшие веса.

link
❤‍🔥6
Статья освещает методы оптимизации гиперпараметров для ML, начиная от ручного подбора и заканчивая байесовской модельно-основанной оптимизацией. Она подробно объясняет принципы построения вероятностной модели целевой функции и использования её для эффективного выбора оптимальных гиперпараметров, а также обсуждает преимущества этого подхода по сравнению с традиционными методами.
❤‍🔥6
Статья касается различных аспектов развития языковых моделей, начиная от Transformer и BERT, до более новых моделей типа GPT и RETRO.

Обсуждаются методы предварительного обучения, контекстуализированные эмбеддинги, и использование баз данных для улучшения работы моделей при генерации текста.
👍5
Pассматривается создание инструмента для извлечения, анализа и визуализации данных статистики статей на Medium, включая построение интерактивных графиков, применение ML методов для анализа зависимостей и прогнозирования будущих показателей.

Автор демонстрирует не только техническую реализацию инструмента, но и применяет его для получения интересных инсайтов из своих собственных данных статистики Medium.
👍4
Статья обсуждает контроверсию вокруг фторирования воды, подчеркивая его эффективность и безопасность на основе мета-анализов и исследований. Автор рассматривает аргументы противников, подчеркивая необходимость осмысленного подхода к научным данных в общественном здравоохранении.
👍6❤‍🔥2🐳2
Статья рассматривает применение моделей глубокого обучения, включая архитектуры на основе трансформеров, для задачи ранжирования в системах информационного поиска. Обсуждаются модели типа MonoBERT и DuoBERT для переранжировки запросов, а также использование моделей типа T5 для ранжирования документов на основе последовательностей.
❤‍🔥6👍3
Автор делится примером, когда нужно оставить только имена длиннее пяти букв, и примером, когда нужно заменить короткие имена на символ-заполнитель. Объясняется, почему порядок частей в этих включениях различается и как это соотносится с документацией Python. Статья также кратко рассматривает разницу между выражениями и операторами, помогая понять, почему тернарный оператор является выражением и как его использовать в списковых включениях.
❤‍🔥4👍3🔥1
Йошуа Бенгио рассказывает о рисках работы с большими языковыми моделями, как, например, когда модель придумывает ответы, которые звучат правдоподобно, но на самом деле неверны. Он предлагает способ борьбы с этим — улучшать тексты и модели шаг за шагом, чтобы избежать таких ошибок. Подробнее👇

https://yoshuabengio.org/2024/07/09/reasoning-through-arguments-against-taking-ai-safety-seriously/
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍2❤‍🔥1
Исследование рассматривает метод самообучения ReSTEM для расширения возможностей языковых моделей за счёт использования обратной связи в задачах, где доступен числовой ответ, например, в математических задачах. Авторы демонстрируют, что ReSTEM значительно улучшает производительность моделей по сравнению с обычной настройкой на данных, созданных людьми, подчёркивая потенциал снижения зависимости от человеческих данных.
👍4
Описаны опции создания пустого словаря, передача отображения (например, другого словаря), передача итерируемого объекта пар и использование именованных аргументов в качестве ключей и значений. Также обсуждается возможность комбинирования этих методов при создании словаря.
5❤‍🔥2
Исследуются методы генерации наборов данных, которые точно отражают статистические свойства наблюдений. Оценивается полезность синтетических наборов данных для прогнозирования способности Dark Energy Spectroscopic Instrument ограничивать возможные ошибки измерений барионных акустических осцилляций.
❤‍🔥4
Статья охватывает темы: тип данных bytes в Python, разницу между строками и байтами, основы кодировки ASCII и необходимость более сложных кодировок, таких как UTF-8. Также рассматривается, как UTF-8 кодирует символы и примеры с использованием различных языков и символов.
🔥5👍11
каждый уважающий себя работяга как минимум 1 раз на новом месте:
🍓9👍31