Data Secrets – Telegram
Data Secrets
78.8K subscribers
6.44K photos
669 videos
20 files
2.71K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
= VS copy VS deep copy в pandas

Чем отличается простое присваиваение от создание копии датафрейма? А чем глубокая копия отличается от обычной? В чем кроется нерешенная проблема копирования в pandas? Обо всем этом – наш новый материал.

😻 #python
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍377
Data Secrets
Задача про ипотеку У нас уже стало традицией воскресное решение задач! В этот раз задачка совсем простая, нужно вспомнить всего одну теорему... В общем, все, как всегда: разбор завтра, ваши решения ждем в комментариях. 😻 #задачи
Разбор задачи про ипотеку

В этот раз нашлось много желающих попытать свои силы, и многие были очень близки к ответу. Верные решения можно посмотреть в чате (вступайте!) здесь и здесь. Разбираемся!

😻 #задачи
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍32🤯7
Ошибка выжившего – это что?

Когда-то во время Второй Мировой математик Абрахам Вальд столкнулся с задачей: нужно было решить, в каких местах укреплять бронь бомбардировщиков. У возвратившихся на базу самолётов пробоины были в основном на крыльях и хвосте, и коллеги Вальда утверждали, что укреплять нужно именно там. Но Вальд рассудил, что укреплять нужно кабину и топливный бак, ведь, как оказалось, бомбардировщики с попавшими туда снарядами не возвращаются.

Это и есть ошибка выжившего – искать общие черты среди «выживших», не уделяя должного внимания информации о «погибших». Именно поэтому человеку который хочет «добиться успеха» статистически выгоднее обращать внимание не на истории успеха, а на историю ошибок 🐺

В машинном обучении классический пример ошибки выжившего – это неправильная работа с несбалансированными классами. Например, мы прогнозируем наличие редкой болезни, и в наших данных 98% здоровых людей, а 2% больных. При неправильной работе с такой выборкой модель просто всегда начнет предсказывать «не болен», и исследование абсолютно потеряет смысл. А чтобы избежать такой ошибки выжившего, выбирайте правильные метрики и балансируйте данные.

А вы встречались с ошибкой выжившего на практике?

😻 #train
Please open Telegram to view this post
VIEW IN TELEGRAM
👍72🤯95🤓4🤨2🔥1😁1🤩1
На случай, если вы давно хотели начать делать крутые проекты, но не знали, с чего начать

Если вы – прямо как этот работяга из нашего комикса, то начните с этого. Это канал крутого датасайентиста и стартапера, который к тому же выкладывает все, что делает, в опенсурс, а в Телеграм транслирует гайды, новости и инсайты. Точно есть, чему поучиться.

Заглядывайте -> @lovesyuk
😁18👍9😐5🫡31🤯1🤪1
Как правильно грокать алгоритмы

Даже если вы очень крутой специалист, есть краеугольный камень, который может помешать вам занять хорошую должность в большой IT-компании – алгоритмы. Их спрашивают везде, и выучить их не так то просто. Вам в помощь мы даем рекомендации: с чего начать, какие книжки почитать, как правильно решать задачи и совмещать теорию с практикой.

Полезный сайт, про который рассказываем на пятой карточке: https://neetcode.io/practice. Здесь ссылки на задачи редиректят вас на тот же самый LeetCode, но все отсортировано по темам и в правильном порядке изучения.

Желаем удачи на собеседованиях!

😻 #задачи
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍38🔥6
Не понимаю, почему всегда выбирают его, а не меня…

😻 #memes
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥56😁37👍9😐3🕊21
Stable AI выкатили бетку нейросети StableCode для работы с кодом

Есть три варианта модели: базовая (для простых задач), модель для инструкций (для чего-то посложнее) и расширенная с контекстным окном до 16к токенов (для сравнения, в GPT-4 оно составляет 32к). Это означает, что это первая нейросеть для работы с кодом, которая сможет обработать кодовую базу среднего размера, понять ее и предложить новый код.

В основе, конечно, трансформер, но не с обычным Linear Biases вниманием (ALiBi), а с Rotary Position Embedding, идеи которого больше ориентированы именно на работу с кодом, а не с естественным языком. Обучали на наборе данных BigCode.

Бету уже можно попробовать на HuggingFace. С нетерпением ждем официальный релиз!

😻 #news
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯24👍74
Наглядно о том, как работает PCA

PCA – метод главных компонент – это один из самых известных алгоритмов понижения размерности. О том, зачем это нужно и как это работает, мы уже расскали на примере в карточках выше. Хотите, в следующий раз покажем реализацию на python?

😻 #train
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍60🤔71🤯1