Data Mining | Анализ данных🚀 – Telegram
Data Mining | Анализ данных🚀
3.27K subscribers
1.73K photos
10 videos
5 files
1.7K links
• Купить рекламу: t.me/sahib_space
Админ: sahib_space
• Стоимость: https://www.notion.so/sahibspace/69ece414a4af49f2bdbdfe455e553e58?pvs=3&qid=
• Группа в ВК: vk.com/datamining.team
Download Telegram
Глазам приятно
38
Исчерпывающий гид, включающий в себя пошаговые инструкции по скрапингу, парсингу, восстановлению неполных данных, а также созданию репрезентативной выборки. Автор уделяет особое внимание визуализации, важности векторизации и параллельным вычислениям, делая процесс понятным на каждом этапе даже новичку.
13
Любопытная статья, где рассматривается проблема галлюцинаций в больших языковых моделях (LLM). Aвтор представляет широкий спектр стратегий для их устранения: oт разъяснения понятия 'галлюцинаций' и методов их измерения до разработки продуктов и выбора моделей. В статья предложен всесторонний подход к решению этой проблемы с сопутствующей визуализацией.
7
Крутой курс по книге Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow, где автор подробно разбирает по одной главе в каждом видео с сопутствующими практическими примерами.

Сама книга представляет собой идеальное руководство по supervised и unsupervised learning.

Одни из тем, разобранных в книге: виды регрессии и классификации, деревья решений, ансамбли, RNN, CNN, GAN и многое другое.
6
Любопытная статья DISCOVERING LATENT KNOWLEDGE IN LANGUAGE
MODELS WITHOUT SUPERVISION, в которой авторы предложили нестандартный подход: вероятности ответов на вопросы должны суммироваться в единицу для уверенности модели. Используя пары вопросов и ответов, они модифицировали активации модели, настроили лосс и создали вероятности. К статье приложен также код.
5
Исчерпывающий гайд o Support Vector Machine (SVM), начиная с его базовых принципов и математического обоснования, и до практической реализации в Python. Статья содержит информацию о разных типах алгоритмов SVM, работе с ядрами, выборе гиперпараметров и другом.

В дополнение можно пройтись по данной статье, где SVM рассматривается более визуально.
9
Конкурс для C++ программистов и их любимых багов.

Что для этого нужно сделать? Всё очень просто! Вспомните свой самый эпичный, мемный или глупый фейл при написании кода. Отправьте его через специальную форму на этой странице и ждите подведения итогов в январе. Авторы 10 самых прикольных, крутых или глупых фейлов получат уникальную книгу от Андрея Карпова "Вредные советы для C++ программистов" с подписью автора.

Конкурс длится до 30 декабря!
🔥61
Доклад о значимости последовательных методов Монте-Карло (SMC) для приближения апостериорных распределений динамических стохастических моделей общего равновесия. Исследуется возможность адаптивного выбора графика темперирования, эксплорируются преимущества варианта SMC, названного обобщенным темперированием, для "онлайн" оценки, и предоставляются примеры мультимодальных апостериорных распределений, хорошо уловленных методами SMC.

Авторы рассматривают меняется ли прогностическая способность DSGE-моделей при использовании более широких априорных распределений по сравнению с теми, которые обычно используются в литературе.
6
В статье автор продемонстрировал, как перевести сложную агентно-ориентированную модель в вероятностную графическую модель, чтобы получить обучаемую АОМ, подгоняемую к данным. Путем использования методов, таких как оценка максимального правдоподобия, автор оценивает латентные микростаты переменных агентов способом, согласующимся как с моделью, так и с наблюдаемыми данными.

Данный подход позволяет внедрить обученные переменные в АОМ, обеспечивая симуляцию микростатов, соответствующую предоставленным данным.
6
Курс по Advanced Data Visualization рассматривает как обычные, так и нестандартные типы графиков, грамматику графики и даже разбирает явление Симпсона.

Всего в курсе 5 глав. К каждому уроку есть конспект и детальный разбор на YouTube от автора.

Must-have для всех, кто стремится расширить навыки визуализации данных.
❤‍🔥12
Книга о математическом введении в глубокое обучение: методы, реализации и теория.

https://arxiv.org/abs/2310.20360
7
Статья о том, как научиться прогнозировать цены с помощью методов анализа данных и машинного обучения.

https://habr.com/ru/companies/rosatom/articles/771534/
🔥11
В статье вы можете изучить 10 математических концепций для программистов.
6
Python курс по анализу данных 2023 года.

Курс состоит из 10 уроков, каждый из которых подробно разобран. Полный плейлист для изучения.
🔥6
#top@datamining.team
ТОП 5 постов за Ноябрь

1. Статья о том, какую математику сегодня проверяют работодатели при найме Data Analysts & Scientists
https://vk.cc/csg0zF

2. 25 лучших книг для понимания машинного обучения 2022
https://vk.cc/csg1Li

3. Библиотека для временных рядов
https://vk.cc/csg1DW

4. Курс по анализу данных от Александра Дьяконова
https://vk.cc/csg1mP

5. Исчерпывающий туториал, включающий в себя пошаговые инструкции по скрапингу, парсингу, восстановлению неполных данных, а также созданию репрезентативной выборки.
https://habr.com/ru/articles/500162/
🔥8
В данной статье автор рассказал о том, как начать изучать темы глубокого и машинного обучения.

Здесь представлена подборка книг и курсов (бесплатных) для вашего быстрого и легкого старта как для опытных, так и для новичков.
🔥6
Систематический обзор нейронных сетей с глубокими графами: проблемы, классификация, архитектура, приложения и потенциальная полезность в биоинформатике.

Подробно можно изучить книгу на английском языке.
5
Новости компьютерного зрения за ноябрь 2023 г. с BEST OF ICCV.

Pdf-версия новостей Computer Vision и вдохновляющее интервью с Яном ЛеКуном.
4
Неплохая шпаргалка по RNN о различных аспектах нейронок, включая проблемы долгосрочных зависимостей, ворд эмбеддинги, языковые модели, пояснения гейтов в GRU и LSTM, а также примеры использования Word2Vec и методов оценки языковых моделей.
5
Статья, где авторы представляют подход к решению проблемы кластеризации с учетом выбросов, предлагая алгоритм с фиксированной параметрической сложностью (FPT). Они разрабатывают FPT-приближенные алгоритмы с оптимальными коэффициентами приближения для задач k-Median и k-Means с учетом выбросов в общей и евклидовой метриках. Кроме того, демонстрируется применение данного подхода к другим вариантам задачи с дополнительными ограничениями на кластеризацию, такими как fairness или matroid constraints.
5🔥1
В работе исследуется архитектура Transformer, сфокусированная на компоненте Feed Forward Network (FFN). Удаление слоев FFN в декодере и использование общего FFN в энкодере позволяют существенно сократить параметры, сохраняя при этом точность. Масштабирование архитектуры к исходному размеру приводит к заметному улучшению в точности и латентности по сравнению с оригинальным Transformer Big.
🔥3