Data Mining | Анализ данных🚀 – Telegram
Data Mining | Анализ данных🚀
3.28K subscribers
1.73K photos
10 videos
5 files
1.7K links
• Купить рекламу: t.me/sahib_space
Админ: sahib_space
• Стоимость: https://www.notion.so/sahibspace/69ece414a4af49f2bdbdfe455e553e58?pvs=3&qid=
• Группа в ВК: vk.com/datamining.team
Download Telegram
Статья касается различных аспектов развития языковых моделей, начиная от Transformer и BERT, до более новых моделей типа GPT и RETRO.

Обсуждаются методы предварительного обучения, контекстуализированные эмбеддинги, и использование баз данных для улучшения работы моделей при генерации текста.
👍5
Pассматривается создание инструмента для извлечения, анализа и визуализации данных статистики статей на Medium, включая построение интерактивных графиков, применение ML методов для анализа зависимостей и прогнозирования будущих показателей.

Автор демонстрирует не только техническую реализацию инструмента, но и применяет его для получения интересных инсайтов из своих собственных данных статистики Medium.
👍4
Статья обсуждает контроверсию вокруг фторирования воды, подчеркивая его эффективность и безопасность на основе мета-анализов и исследований. Автор рассматривает аргументы противников, подчеркивая необходимость осмысленного подхода к научным данных в общественном здравоохранении.
👍6❤‍🔥2🐳2
Статья рассматривает применение моделей глубокого обучения, включая архитектуры на основе трансформеров, для задачи ранжирования в системах информационного поиска. Обсуждаются модели типа MonoBERT и DuoBERT для переранжировки запросов, а также использование моделей типа T5 для ранжирования документов на основе последовательностей.
❤‍🔥6👍3
Автор делится примером, когда нужно оставить только имена длиннее пяти букв, и примером, когда нужно заменить короткие имена на символ-заполнитель. Объясняется, почему порядок частей в этих включениях различается и как это соотносится с документацией Python. Статья также кратко рассматривает разницу между выражениями и операторами, помогая понять, почему тернарный оператор является выражением и как его использовать в списковых включениях.
❤‍🔥4👍3🔥1
Йошуа Бенгио рассказывает о рисках работы с большими языковыми моделями, как, например, когда модель придумывает ответы, которые звучат правдоподобно, но на самом деле неверны. Он предлагает способ борьбы с этим — улучшать тексты и модели шаг за шагом, чтобы избежать таких ошибок. Подробнее👇

https://yoshuabengio.org/2024/07/09/reasoning-through-arguments-against-taking-ai-safety-seriously/
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍2❤‍🔥1
Исследование рассматривает метод самообучения ReSTEM для расширения возможностей языковых моделей за счёт использования обратной связи в задачах, где доступен числовой ответ, например, в математических задачах. Авторы демонстрируют, что ReSTEM значительно улучшает производительность моделей по сравнению с обычной настройкой на данных, созданных людьми, подчёркивая потенциал снижения зависимости от человеческих данных.
👍4
Описаны опции создания пустого словаря, передача отображения (например, другого словаря), передача итерируемого объекта пар и использование именованных аргументов в качестве ключей и значений. Также обсуждается возможность комбинирования этих методов при создании словаря.
5❤‍🔥2
Исследуются методы генерации наборов данных, которые точно отражают статистические свойства наблюдений. Оценивается полезность синтетических наборов данных для прогнозирования способности Dark Energy Spectroscopic Instrument ограничивать возможные ошибки измерений барионных акустических осцилляций.
❤‍🔥4
Статья охватывает темы: тип данных bytes в Python, разницу между строками и байтами, основы кодировки ASCII и необходимость более сложных кодировок, таких как UTF-8. Также рассматривается, как UTF-8 кодирует символы и примеры с использованием различных языков и символов.
🔥5👍11
каждый уважающий себя работяга как минимум 1 раз на новом месте:
🍓9👍31
Разработчик делится жизненными уроками за 35 лет работы с ПО. Сюда входит: делать вещи проще, выпускать обновления почаще, строить крепкие связи с коллегами, не бояться новых задач и помнить, что программы постоянно меняются, так что лучше делать полезные улучшения, а не стремиться к идеалу.

https://dev.jimgrey.net/2024/07/03/lessons-learned-in-35-years-of-making-software/
👍4❤‍🔥1🔥11
"Speculative Streaming" — метод ускоренного декодирования языковых моделей, который интегрирует draft modeling в целевую модель, улучшая скорость вывода на 1.8-3.1 р. в суммаризации и структурированныx запросax, при использовании значительно меньшего числа параметров, чем архитектуры типа Medusa.

Eсли вы собираетесь получить proposal distribution из вашей целевой модели без (существенного) увеличения числа параметров, это кажется разумным способом.

link
👍6
В статье описаны способы использования хэш-функций для эффективного поиска и сравнения объектов, а также обсуждаются связи между хэшируемостью, неизменностью и равенством объектов. Примеры с кодом и иллюстрации помогают понять, как работают хэшируемые объекты и их роль в словарях Python.
❤‍🔥4👍2
Mеханистическое проектирование гибридных архитектур глубокого обучения через методику MAD, охватывающую синтетические задачи манипуляции токенами.

Мне приглянулось исследование того, как перплексия изменяется в зависимости от размера состояния. Под "размером состояния" понимается история KV для трансформеров или латентные переменные состояния для вариантов SSM/RNN. Мы получаем чистое степенное масштабирование в пределах данного класса архитектур, но нет общей границы Парето, на которой находились бы все варианты.

link
🔥4👍1🐳1
Статья рассматривает применение алгоритмов на графах для кластеризации товаров на сайте Ozon, что помогает улучшать поиск и сравнение предложений для пользователей. Особое внимание уделено методам выделения сообществ и анализу структуры сети товаров для оптимизации матчинга.
🔥6👍1
Статья объясняет процесс токенизации в больших языковых моделях (LLMs). Токены представляют собой дискретные компоненты, на которые разбивается последовательность для обучения модели. Особое внимание уделено субсловной токенизации, которая разбивает слова на подстроки, учитывая морфологические особенности языка. Обсуждаются преимущества такого подхода перед классическими методами токенизации слов или символов и его влияние на способность моделей понимать и генерировать текст.
👍4❤‍🔥21
Cтатья охватывает методы плотного поиска информации, используя модели с плотным представлением (на основе трансформеров).

Рассматривается использование bi-encoder для обучения моделей, минимизирующих расстояние между семантически близкими объектами. Также обсуждаются методы тройных потерь и использование техник псевдо-разметки и дистилляции знаний для улучшения результатов плотного поиска.

https://medium.com/@aikho/deep-learning-in-information-retrieval-part-ii-dense-retrieval-1f9fecb47de9
❤‍🔥5
стажеры такие:
❤‍🔥21😁3💯2