NEW BOT Телеграм, страница - 902794331

DS & ML | YeaHub

@yeahub_data_science

463 subscribers

259 photos

67 videos

373 links

Теория, подготовка к интервью и курсы для Data Science специалистов

YeaHub — это платформа для IT-специалистов, объединяющая обучение, карьерный рост, развитие и сообщество единомышленников.

Платформа: https://yeahub.ru

Для связи: @ruslan_kuyanets

Download Telegram

About

Blog

Apps

Platform

DS & ML | YeaHub

463 subscribers

DS & ML | YeaHub

#новости

😊

Итак, GPT-4.5 вышла

Еще раз: в сравнении с o1 на математике и кодинге модель хуже (неудивительно, это другой подход). Но нельзя бесконечно скейлить только ризонинг, и, с другой стороны, это самая большая и самая накаченная знаниями о мире модель. Она поглотила МНОГО текста и лучше подходит для простых нетехнических задач, креатива, написания текстов, социального взаимодействия и просто разговоров. То есть, это лучшая модель для НЕайти обывателя.

Отдельно отмечают глубокий элаймент и то, что модель стала безопаснее и этичнее. Ее долго тюнили на предпочтения, и ответы получаются емкие и естественные. Кроме того, в GPT-4.5 сократили процент галлюцинаций.

Пока доступно только Pro, в течение следующей недели добавят в плюс и тим. В API завезут сегодня, цены пока ждем
Блог

👉

👉

Платформа

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

77 views15:01

DS & ML | YeaHub

#новости

🤯

Сегодня стартовала неделя опенсорса от DeepSeek

На прошлой неделе команда анонсировала, что с 24 по 28 февраля они выложат в открытый доступ пять репозиториев из своей внутренней экосистемы

Сегодня — первый релиз: FlashMLA

Это эффективный декодирующий кернел для MLA на GPU Hopper, оптимизированный для обработки последовательностей переменной длины.

👉

👉

Платформа

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

60 views08:03

DS & ML | YeaHub

#новости

🥺

Запуск ИИ-чата от Meta

По интернету пролетела новость о том, что в следующем квартале Meta планирует выпустить собственный ИИ-чат. Компания будет тестировать подписочную систему и добавлять в чат инструменты: все, как в популярных ChatGPT, Сlaude и тд.

👉

👉

Платформа

Please open Telegram to view this post

VIEW IN TELEGRAM

61 views15:00

DS & ML | YeaHub

🤔

Как обрабатывать пропущенные или поврежденные данные в наборе данных с использованием Scikit-Learn?

Scikit-Learn предоставляет класс SimpleImputer , который заменяет пропущенные значения в данных на среднее, медиану или наиболее часто встречающееся значение
в каждом столбце. Для поврежденных данных Scikit Learn не предлагает прямых методов, но можно использовать другие библиотеки, такие как Pandas, для обработки таких данных до подачи их в модель.

👉

👉

Платформа

Please open Telegram to view this post

VIEW IN TELEGRAM

57 views08:01

DS & ML | YeaHub

#новости

😊

Исследователь Юрген Шмидхубер заявил крестному отцу ИИ Джеффри Хинтону, что его надо лишить всех наград за плагиат

Шмидхубер уже стал мемом в ML-сообществе за свои бесконечные выпады о том, что у него украли какую-то выдающуюся идею, но все не останавливается. Из последних заявлений этой легенды:

🟠 Хопфилд и Хинтон получили Нобелевскую премию незаслуженно, потому что украли идею из статьи шестидесятых годов

🟠 Все, что сделали DeepSeek с R1, взято из статей Шмидхубера

🟠 GAN – тоже его идея, а авторы основополагающей статьи про эту архитектуру наглые копирайтеры

🟠 Ну и добивочка: трансформеры, естественно, придумал он, а не ребята из Google

Хинтон, кстати, заявление даже никак не прокомментировал.

Бесконечно можно смотреть на три вещи: как горит огонь, как течет вода, и как все воруют у Шмидхубера

👉

👉

Платформа

Please open Telegram to view this post

VIEW IN TELEGRAM

54 views15:01

DS & ML | YeaHub

This media is not supported in your browser

VIEW IN TELEGRAM

#новости

🤯

Google представил нового ИИ-ассистента для Data Science, позволяющего за считанные минуты создавать полноценные рабочие блокноты.

Теперь весь процесс – от загрузки датасета до итогового анализа – берёт на себя нейросеть.

Агент самостоятельно генерирует код на Python, создаёт блокноты, визуализирует данные и шаг за шагом предлагает оптимальное решение.

Достаточно загрузить набор данных объемом до 1 Гб, и ИИ выполнит всю работу.

В итоге вы получаете готовый проект с кодом и графиками, без утомительной рутины и постоянной отладки.
Попробовать можно здесь

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

57 views08:04

DS & ML | YeaHub

#новости

😐

Стали известны некоторые имена сотрудников компании Ильи Суцкевера

SSI была основала еще летом, но до сих пор дистанцируется от СМИ и остается скрытой. Это значит, что ее сотрудники не указывают в соцсетях место работы, и составы команд не афишируются.

Тем не менее, некоторые сведения иногда проскальзывают. Вот некоторые имена:

🟠 Доктор Яир Кармон, старший преподаватель факультета компьютерных наук Тель-Авивского университета с 2020 года. У него три ученых степени по физике, включая докторскую Стэнфорда. Он занимается алгоритмами и оптимизацией.

🟠 Ницан Тор, выпускник Technion и золотой призер трех международных математических олимпиад.

🟠 Шахар Папини, еще один выпускник Technion, олимпиадник и сооснователь блокчейн-компании.

А еще известный Ярон Бродский и около 10 других инженеров и ученых из Google Research (которых Ярон видимо привел). Интересный состав.

Занятно, что SSI вообще не публикуют вакансии, а об эйчарах и речи не идет. Всех нанимают только по личным рекомендациям и сарафанному радио. Кроме того, говорят, в компании нет иерархической структуры, тимлидов и деления на команды: все равны и работают над одним проектом.

К слову, сейчас SSI оценивается уже в 30 миллиардов. Это всего в 5 раз меньше OpenAI и в 2.5 раза меньше xAI.

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

46 views15:00

DS & ML | YeaHub

🤔

Как функциональность pipeline в Scikit-Learn полезна для проекта машинного обучения?

Pipeline в Scikit-Learn упрощает процесс создания моделей машинного обучения, объединяя несколько шагов, таких как предобработка данных и обучение модели, в один обьект. Это помогает улучшить читаемость кода, избежать ошибок при кросс- валидации и облегчить настройку гиперпараметров с помощью GridSearchCV или RandomizedSearchCV.

👉

👉

Платформа

Please open Telegram to view this post

VIEW IN TELEGRAM

41 views08:00

DS & ML | YeaHub

#новости

😵‍💫

OpenAI запускает программу NextGenAI.

OpenAI запускает NextGenAI — совместную программу с 15 НИИ, направленную на ускорение научных прорывов и трансформацию образования с использованием ИИ. OpenAI планирует выделить на финансирование исследований 50 млн. долларов.

Программа объединяет институты в США и за рубежом. Среди партнеров Калифорнийский технологический институт, Гарвардский университет и Массачусетский технологический институт, а также Бостонская детская больница и Бостонская публичная библиотека.

Цель NextGenAI — укрепить связи между академическими кругами и реальным сектором, гарантируя, что преимущества ИИ будут распространены на научные лаборатории и социально значимые проекты.
openai.com

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

Introducing NextGenAI: A consortium to advance research and education with AI

OpenAI commits $50M in funding and tools to leading institutions.

❤1

36 views15:00

DS & ML | YeaHub

#полезное

🤓

Генеративные vs. дискриминативные модели в ML

Генеративные модели
🟠Изучают распределение данных, чтобы генерировать новые образцы.
🟠Обладают дискриминативными свойствами — их можно использовать для классификации.

Дискриминативные модели не обладают генеративными свойствами

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

34 views08:04

DS & ML | YeaHub

#полезное

🥺

Почему RMSE и MAE могут давать разную оценку качества модели

RMSE (Root Mean Squared Error) и MAE (Mean Absolute Error) — это две популярные метрики регрессии, но они ведут себя по-разному при наличии выбросов.

🟠 MAE — это средняя абсолютная ошибка, измеряет среднее отклонение предсказаний от истинных значений. Она линейно реагирует на ошибки, то есть один большой выброс не окажет значительного влияния.
🟠 RMSE — это корень из среднеквадратичной ошибки, которая квадратично увеличивает вклад больших ошибок. Это значит, что RMSE сильнее наказывает за крупные выбросы, чем MAE.

Пример
Если у вас есть предсказания: [2, 3, 4, 5, 100] при истинных значениях [2, 3, 4, 5, 6],
то MAE ≈ 18, а RMSE ≈ 40. RMSE выросло сильнее из-за большого выброса в 100.

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

26 views15:01

DS & ML | YeaHub

🤔

Как реализована кросс-валидация в Scikit-Learn и почему это важная техника?

B Scikit-Learn кросс-валидация реализована через модуль model_selection, c функциями, такими как cross_val_score И cross_validate . Эти функции делят
данные на несколько "слоёв" (folds), обучают модель на k-1 из них и тестируют на оставшемся. Этот процесс повторяется к раз с каждым слоем в роли тестового. Кросс- валидация помогает снизить переобучение и даёт более объективную оценку работы модели.

👉

👉

Платформа

Please open Telegram to view this post

VIEW IN TELEGRAM

YeaHub — тренажер собеседований по IT

5000+ вопросов для подготовки к интервью. Фильтры, квизы, статистика!

33 views08:03

DS & ML | YeaHub

This media is not supported in your browser

VIEW IN TELEGRAM

#полезное

😊

Логистическая регрессия vs. Многослойный персептрон

На изображении сравниваются два метода классификации данных: логистическая регрессия (слева) и многослойный персептрон (MLP, справа) после 25 эпох обучения.

✅ Результаты показывают, что MLP лучше справляется с нелинейно разделимыми данными, в отличие от логистической регрессии, которая проводит лишь простую линейную границу.

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

31 views15:02

DS & ML | YeaHub

#полезное

🤓

DeepFace — инструмент для распознавания лиц в Python

DeepFace — это лёгкий фреймворк для анализа лиц и их характеристик (возраст, пол, эмоции, раса). Он объединяет передовые модели, такие как VGG-Face, FaceNet, OpenFace, DeepID, ArcFace и другие.
Гитхаб

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

37 views08:01

DS & ML | YeaHub

#полезное

🤯

Впечатляющая оптимизация скорости

Большие DataFrame в Pandas могут потреблять огромное количество памяти.

✅ Обработка данных небольшими частями помогает избежать переполнения памяти и ускоряет доступ к данным!

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

36 views15:02

DS & ML | YeaHub

🤔

Как оптимизировать гиперпараметры в модели Scikit-Learn?

Для оптимизации гиперпараметров в Scikit-Learn используют GridSearchCV или RandomizedSearchCV. GridSearchcv пробует все возможные комбинации
параметров, в то время как RandomizedSearchCV выбирает случайные комбинации, что ускоряет процесс. Оба метода возвращают наилучшие параметры для модели.

👉

👉

Платформа

Please open Telegram to view this post

VIEW IN TELEGRAM

36 views08:01

DS & ML | YeaHub

#полезное

👍

Замените describe на Skimpy

Если вы до сих пор используете метод describe в Pandas, есть отличная альтернатива, о которой стоит узнать! Skimpy — open-source инструмент, который дает гораздо более полное представление о ваших данных.

Skimpy не просто выводит статистику, но и показывает:
✅ форму данных;
✅ типы данных в колонках;
✅ распределение данных в графическом виде

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

35 views15:03

DS & ML | YeaHub

This media is not supported in your browser

VIEW IN TELEGRAM

#полезное

🤯

Умножение матриц

Без умножения матриц ИИ просто не смог бы существовать.

🟠 Нейронные сети: Фото, текст, звук — всё представляется в виде матриц. Их умножение позволяет ИИ понимать и распознавать образы.

🟠 Компьютерное зрение: Фильтры сканируют изображения, выделяя контуры, формы, объекты — так ИИ "видит" мир.

🟠 NLP (Обработка текста): В ChatGPT внимание распределяется с помощью матриц, определяя, какие слова важнее.

🟠 Рекомендации: Netflix анализирует, какие фильмы вы смотрите, умножая матрицы предпочтений. Именно так он предсказывает ваш следующий любимый сериал!

🟠 Обучение с подкреплением: Как ИИ обыгрывает чемпионов по шахматам? Он умножает матрицы состояний и действий, просчитывая лучший ход.

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

48 views08:04

DS & ML | YeaHub

#полезное

😇

Vaex — быстрая альтернатива Pandas для работы с большими данными

Vaex — это библиотека DataFrame, специально созданная для работы с огромными наборами данных (миллионы или даже миллиарды строк) без перегрузки памяти и падения производительности.

Импорт:

import vaex

df = vaex.open("big_data.csv")
print(df.shape)

Фильтрация данных:

filtered_df = df[df.age > 30]

Вычисление среднего значения:

mean_salary = df.salary.mean()
print(mean_salary)

Группировка данных:

df.groupby("job_noscript", agg=vaex.agg.mean("salary"))

Ссылка на библиотеку

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

44 views15:01