Data Secrets – Telegram
Data Secrets
78.8K subscribers
6.44K photos
669 videos
20 files
2.71K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Ошибка выжившего – это что?

Когда-то во время Второй Мировой математик Абрахам Вальд столкнулся с задачей: нужно было решить, в каких местах укреплять бронь бомбардировщиков. У возвратившихся на базу самолётов пробоины были в основном на крыльях и хвосте, и коллеги Вальда утверждали, что укреплять нужно именно там. Но Вальд рассудил, что укреплять нужно кабину и топливный бак, ведь, как оказалось, бомбардировщики с попавшими туда снарядами не возвращаются.

Это и есть ошибка выжившего – искать общие черты среди «выживших», не уделяя должного внимания информации о «погибших». Именно поэтому человеку который хочет «добиться успеха» статистически выгоднее обращать внимание не на истории успеха, а на историю ошибок 🐺

В машинном обучении классический пример ошибки выжившего – это неправильная работа с несбалансированными классами. Например, мы прогнозируем наличие редкой болезни, и в наших данных 98% здоровых людей, а 2% больных. При неправильной работе с такой выборкой модель просто всегда начнет предсказывать «не болен», и исследование абсолютно потеряет смысл. А чтобы избежать такой ошибки выжившего, выбирайте правильные метрики и балансируйте данные.

А вы встречались с ошибкой выжившего на практике?

😻 #train
Please open Telegram to view this post
VIEW IN TELEGRAM
👍72🤯95🤓4🤨2🔥1😁1🤩1
На случай, если вы давно хотели начать делать крутые проекты, но не знали, с чего начать

Если вы – прямо как этот работяга из нашего комикса, то начните с этого. Это канал крутого датасайентиста и стартапера, который к тому же выкладывает все, что делает, в опенсурс, а в Телеграм транслирует гайды, новости и инсайты. Точно есть, чему поучиться.

Заглядывайте -> @lovesyuk
😁18👍9😐5🫡31🤯1🤪1
Как правильно грокать алгоритмы

Даже если вы очень крутой специалист, есть краеугольный камень, который может помешать вам занять хорошую должность в большой IT-компании – алгоритмы. Их спрашивают везде, и выучить их не так то просто. Вам в помощь мы даем рекомендации: с чего начать, какие книжки почитать, как правильно решать задачи и совмещать теорию с практикой.

Полезный сайт, про который рассказываем на пятой карточке: https://neetcode.io/practice. Здесь ссылки на задачи редиректят вас на тот же самый LeetCode, но все отсортировано по темам и в правильном порядке изучения.

Желаем удачи на собеседованиях!

😻 #задачи
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍38🔥6
Не понимаю, почему всегда выбирают его, а не меня…

😻 #memes
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥56😁37👍9😐3🕊21
Stable AI выкатили бетку нейросети StableCode для работы с кодом

Есть три варианта модели: базовая (для простых задач), модель для инструкций (для чего-то посложнее) и расширенная с контекстным окном до 16к токенов (для сравнения, в GPT-4 оно составляет 32к). Это означает, что это первая нейросеть для работы с кодом, которая сможет обработать кодовую базу среднего размера, понять ее и предложить новый код.

В основе, конечно, трансформер, но не с обычным Linear Biases вниманием (ALiBi), а с Rotary Position Embedding, идеи которого больше ориентированы именно на работу с кодом, а не с естественным языком. Обучали на наборе данных BigCode.

Бету уже можно попробовать на HuggingFace. С нетерпением ждем официальный релиз!

😻 #news
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯24👍74
Наглядно о том, как работает PCA

PCA – метод главных компонент – это один из самых известных алгоритмов понижения размерности. О том, зачем это нужно и как это работает, мы уже расскали на примере в карточках выше. Хотите, в следующий раз покажем реализацию на python?

😻 #train
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍60🤔71🤯1
Nvidia выпускает суперчип GH200

Спрос порождает предложение, и Nvidia выпускает еще один чип, который, по словам представителей, сможет обрабатывать самые сложные модели генеративного ИИ, LLM и рексисы. GH200 будет иметь тот же графический процессор, что и H100 (в настоящее время самое мощное и популярное, что есть у Nvidia), но в три раза больше памяти.

Обещают, что чип появится в продаже во втором квартале 2024 года. Цену пока не раскрыли – ориентируемся примерно на $50,000.

Ждем ответа от AMD. Или все-таки это монополия Nvidia?

😻 #news
Please open Telegram to view this post
VIEW IN TELEGRAM
👍217🌚3