NEW BOT Телеграм, страница

Data Secrets

Ошибка выжившего – это что?

Когда-то во время Второй Мировой математик Абрахам Вальд столкнулся с задачей: нужно было решить, в каких местах укреплять бронь бомбардировщиков. У возвратившихся на базу самолётов пробоины были в основном на крыльях и хвосте, и коллеги Вальда утверждали, что укреплять нужно именно там. Но Вальд рассудил, что укреплять нужно кабину и топливный бак, ведь, как оказалось, бомбардировщики с попавшими туда снарядами не возвращаются.

Это и есть ошибка выжившего – искать общие черты среди «выживших», не уделяя должного внимания информации о «погибших». Именно поэтому человеку который хочет «добиться успеха» статистически выгоднее обращать внимание не на истории успеха, а на историю ошибок 🐺

В машинном обучении классический пример ошибки выжившего – это неправильная работа с несбалансированными классами. Например, мы прогнозируем наличие редкой болезни, и в наших данных 98% здоровых людей, а 2% больных. При неправильной работе с такой выборкой модель просто всегда начнет предсказывать «не болен», и исследование абсолютно потеряет смысл. А чтобы избежать такой ошибки выжившего, выбирайте правильные метрики и балансируйте данные.

А вы встречались с ошибкой выжившего на практике?

😻

#train

Please open Telegram to view this post

VIEW IN TELEGRAM

👍72🤯9❤5🤓4🤨2🔥1😁1🤩1

5.28K views07:27

Data Secrets

На случай, если вы давно хотели начать делать крутые проекты, но не знали, с чего начать

Если вы – прямо как этот работяга из нашего комикса, то начните с этого. Это канал крутого датасайентиста и стартапера, который к тому же выкладывает все, что делает, в опенсурс, а в Телеграм транслирует гайды, новости и инсайты. Точно есть, чему поучиться.

Заглядывайте -> @lovesyuk

😁18👍9😐5🫡3❤1🤯1🤪1

4.73K views11:14

Data Secrets

Как правильно грокать алгоритмы

Даже если вы очень крутой специалист, есть краеугольный камень, который может помешать вам занять хорошую должность в большой IT-компании – алгоритмы. Их спрашивают везде, и выучить их не так то просто. Вам в помощь мы даем рекомендации: с чего начать, какие книжки почитать, как правильно решать задачи и совмещать теорию с практикой.

Полезный сайт, про который рассказываем на пятой карточке: https://neetcode.io/practice. Здесь ссылки на задачи редиректят вас на тот же самый LeetCode, но все отсортировано по темам и в правильном порядке изучения.

Желаем удачи на собеседованиях!

😻

#задачи

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍38🔥6

5.85K views16:03

Data Secrets

Не понимаю, почему всегда выбирают его, а не меня…

😻

#memes

Please open Telegram to view this post

VIEW IN TELEGRAM

❤‍🔥56😁37👍9😐3🕊2❤1

4.9K views07:34

Data Secrets

Stable AI выкатили бетку нейросети StableCode для работы с кодом

Есть три варианта модели: базовая (для простых задач), модель для инструкций (для чего-то посложнее) и расширенная с контекстным окном до 16к токенов (для сравнения, в GPT-4 оно составляет 32к). Это означает, что это первая нейросеть для работы с кодом, которая сможет обработать кодовую базу среднего размера, понять ее и предложить новый код.

В основе, конечно, трансформер, но не с обычным Linear Biases вниманием (ALiBi), а с Rotary Position Embedding, идеи которого больше ориентированы именно на работу с кодом, а не с естественным языком. Обучали на наборе данных BigCode.

Бету уже можно попробовать на HuggingFace. С нетерпением ждем официальный релиз!

😻

#news

Please open Telegram to view this post

VIEW IN TELEGRAM

🤯24👍7❤4

5.03K views11:13

Data Secrets

Наглядно о том, как работает PCA

PCA – метод главных компонент – это один из самых известных алгоритмов понижения размерности. О том, зачем это нужно и как это работает, мы уже расскали на примере в карточках выше. Хотите, в следующий раз покажем реализацию на python?

😻

#train

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍60🤔7❤1🤯1

4.99K views16:14

Data Secrets

Nvidia выпускает суперчип GH200

Спрос порождает предложение, и Nvidia выпускает еще один чип, который, по словам представителей, сможет обрабатывать самые сложные модели генеративного ИИ, LLM и рексисы. GH200 будет иметь тот же графический процессор, что и H100 (в настоящее время самое мощное и популярное, что есть у Nvidia), но в три раза больше памяти.

Обещают, что чип появится в продаже во втором квартале 2024 года. Цену пока не раскрыли – ориентируемся примерно на $50,000.

Ждем ответа от AMD. Или все-таки это монополия Nvidia?

😻

#news

Please open Telegram to view this post

VIEW IN TELEGRAM

👍21❤7🌚3

5.14K views06:47

About

Blog

Apps

Platform