Data Mining | Анализ данных🚀 – Telegram
Data Mining | Анализ данных🚀
3.27K subscribers
1.73K photos
10 videos
5 files
1.7K links
• Купить рекламу: t.me/sahib_space
Админ: sahib_space
• Стоимость: https://www.notion.so/sahibspace/69ece414a4af49f2bdbdfe455e553e58?pvs=3&qid=
• Группа в ВК: vk.com/datamining.team
Download Telegram
Канал Бориса Демешева из ВШЭ, посвященный анализу данных и эконометрике. Разбор множества тем (от линейной регрессии и прогнозирования временных рядов до случайных лесов и байесовской эконометрики), подробный вывод основных теоретических результатов, множество примеров в R.

Ссылка на канал: https://goo.gl/dT2t6N
14❤‍🔥5
Подборка классных библиотек для Питона. Можно найти что-то полезное для глубокого обучения, обработки текстов, удобной работы с командной строкой и многого другого.

Подборку за 2022 год можете сравнить с подборкой за 2017 год.
🔥6
Список AI and Machine Learning конференций по всему миру в 2023 и 2024 гг.

https://vk.cc/cr3qVX
4
Top 5 tips to make your pandas code absurdly fast

https://vk.cc/cr3qQH
15
Оригинальная статья про CUPED от 2013 года

https://vk.cc/csg2iO
6
Статья о том, какую математику сегодня проверяют работодатели при найме Data Analysts & Scientists

https://vk.cc/csg0zF
10
Курс по анализу данных от Александра Дьяконова

https://vk.cc/csg1mP
🔥9
Интересный пост о том, как погрузиться в DS

https://vk.cc/csg1v0
4🔥2
Библиотека для временных рядов

https://vk.cc/csg1DW
9
25 лучших книг для понимания машинного обучения 2022

https://vk.cc/csg1Li
Курс MITx: Введение в вычислительное мышление и науку о данных научит вас использовать вычисления для достижения различных целей и предоставит краткое введение в различные темы решения вычислительных задач.

Охватываемые темы включают в себя:
•Продвинутое программирование на Python 3
•Задача о рюкзаке, Графы и оптимизация графов
•Динамическое программирование
•Построение графиков с помощью пакета pylab
•Случайные прогулки
•Вероятность, Распределения
•Моделирование Монте-Карло
•Подгонка кривой
•Статистические ошибки

Курс длится до 21 декабря!
🔥7
Топ 3 статистических парадокса в Data Science

https://vk.cc/csg1Rp
3
🔥Любопытная статья предлагает решение проблемы overconfidence в последовательных рекомендательных моделях с помощью Generalised Binary Cross-Entropy Loss function. Она превосходит популярную модель BERT4Rec при этом требуя меньше времени для обучения.

Статья получила награду the Best Paper award at ACM RecSys 2023
7
Обширный обзор включает в себя краткие описания более чем 40 библиотек Python. Автор выделяет ключевые особенности каждой библиотеки, подчеркивая их уникальные характеристики и более подходящие сферы применения.

Идеальный ресурс в качестве 'шпаргалки'.
7🔥1
Крутая статья демонстрирующая оптимизацию нейронных сетей методом Левенберга-Марквардта (LM) с использованием TensorFlow. Статья предоставляет понятное объяснение самого метода и важных аспектов, связанных с выбором оптимальных значений его параметров. Каждый шаг сопровождается примерами кода, математической базой и наглядными визуализациями.

В дополнение можно глянуть эту статейку с реализацией того же LM на Python.
7
Глазам приятно
38
Исчерпывающий гид, включающий в себя пошаговые инструкции по скрапингу, парсингу, восстановлению неполных данных, а также созданию репрезентативной выборки. Автор уделяет особое внимание визуализации, важности векторизации и параллельным вычислениям, делая процесс понятным на каждом этапе даже новичку.
13
Любопытная статья, где рассматривается проблема галлюцинаций в больших языковых моделях (LLM). Aвтор представляет широкий спектр стратегий для их устранения: oт разъяснения понятия 'галлюцинаций' и методов их измерения до разработки продуктов и выбора моделей. В статья предложен всесторонний подход к решению этой проблемы с сопутствующей визуализацией.
7
Крутой курс по книге Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow, где автор подробно разбирает по одной главе в каждом видео с сопутствующими практическими примерами.

Сама книга представляет собой идеальное руководство по supervised и unsupervised learning.

Одни из тем, разобранных в книге: виды регрессии и классификации, деревья решений, ансамбли, RNN, CNN, GAN и многое другое.
6
Любопытная статья DISCOVERING LATENT KNOWLEDGE IN LANGUAGE
MODELS WITHOUT SUPERVISION, в которой авторы предложили нестандартный подход: вероятности ответов на вопросы должны суммироваться в единицу для уверенности модели. Используя пары вопросов и ответов, они модифицировали активации модели, настроили лосс и создали вероятности. К статье приложен также код.
5
Исчерпывающий гайд o Support Vector Machine (SVM), начиная с его базовых принципов и математического обоснования, и до практической реализации в Python. Статья содержит информацию о разных типах алгоритмов SVM, работе с ядрами, выборе гиперпараметров и другом.

В дополнение можно пройтись по данной статье, где SVM рассматривается более визуально.
9