NEW BOT Телеграм, страница - 529816807

DS & ML | YeaHub

@yeahub_data_science

463 subscribers

259 photos

67 videos

373 links

Теория, подготовка к интервью и курсы для Data Science специалистов

YeaHub — это платформа для IT-специалистов, объединяющая обучение, карьерный рост, развитие и сообщество единомышленников.

Платформа: https://yeahub.ru

Для связи: @ruslan_kuyanets

Download Telegram

About

Blog

Apps

Platform

DS & ML | YeaHub

463 subscribers

DS & ML | YeaHub

This media is not supported in your browser

VIEW IN TELEGRAM

#новости

🤯

Кто-то только что объединил «OpenAI Operator» с «Replit agent», чтобы создать приложение!

Посмотрите, как два AI-агента объединяются, обмениваются данными и начинают тестирование.

Еще несколько месяцев, и полный цикл разработки можно будет делать с помощью агентов.

👉

👉

Платформа

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

59 views15:05

DS & ML | YeaHub

#полезное

😊

Leffa

Это унифицированная платформа для генерации изображений людей с возможностью точного управления их внешним видом (виртуальная примерка) и позой (перенос позы)!
Гитхаб

👉

👉

Платформа

Please open Telegram to view this post

VIEW IN TELEGRAM

67 views08:00

DS & ML | YeaHub

#новости

🫠

В Китае придумали, как соединить LLM с диффузией

На сегодняшний день все модели работают авторегрессионно, то есть предсказывают следующие токены один за одним на основе предыдущих. Это задача next token prediction. Но исследователи из Китая предложили другой подход к обучению и назвали его LLaDA.

Это похоже на то, как обучался BERT: берется исходная последовательность текста, затем токены в ней маскируются с определенной веростностью, а модель пытается их угадать (расшумляет, как в диффузии). Таким образом получается как бы двунапревленный аттеншен к контексту.

Интуитивно кажется: ну и что? Ведь во время инференса модель все равно начинает с полностью замаскированной последовательности. Но нет: дело в том, что LLaDA не просто предсказывает следующий токен, а постепенно реконструирует весь текст в том порядке, в котором ей "удобно".

Получается неплохая альтернатива, и масштабируется приемлемо. Например, LLaDA 8B превосходит LLaMA2 7B почти по всем стандартным задачам и в целом сопоставима с LLaMA3 8B. А в таких тестах, как написание стихов, превосходит даже GPT-4o. При этом ее также эффективно можно файнтюнить.
Пдф тык

👉

👉

Платформа

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

62 views15:02

DS & ML | YeaHub

🤔

Какие ключевые различия между алгоритмами с обучением с учителем и без учителя в Scikit- Learn?

Алгоритмы с обучением с учителем в Scikit-Learn требуют меток для данных, что позволяет им предсказывать результаты на основе известных связей между входными и выходными данными. Примеры таких алгоритмов - это регрессия и классификация. Алгоритмы без учителя не требуют меток и используются для поиска скрытых структур в данных, таких как кластеризация и снижение размерности. Примеры: К- средних и РСА.

👉

👉

Платформа

Please open Telegram to view this post

VIEW IN TELEGRAM

48 views08:00

DS & ML | YeaHub

#новости

😊

Итак, GPT-4.5 вышла

Еще раз: в сравнении с o1 на математике и кодинге модель хуже (неудивительно, это другой подход). Но нельзя бесконечно скейлить только ризонинг, и, с другой стороны, это самая большая и самая накаченная знаниями о мире модель. Она поглотила МНОГО текста и лучше подходит для простых нетехнических задач, креатива, написания текстов, социального взаимодействия и просто разговоров. То есть, это лучшая модель для НЕайти обывателя.

Отдельно отмечают глубокий элаймент и то, что модель стала безопаснее и этичнее. Ее долго тюнили на предпочтения, и ответы получаются емкие и естественные. Кроме того, в GPT-4.5 сократили процент галлюцинаций.

Пока доступно только Pro, в течение следующей недели добавят в плюс и тим. В API завезут сегодня, цены пока ждем
Блог

👉

👉

Платформа

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

77 views15:01

DS & ML | YeaHub

#новости

🤯

Сегодня стартовала неделя опенсорса от DeepSeek

На прошлой неделе команда анонсировала, что с 24 по 28 февраля они выложат в открытый доступ пять репозиториев из своей внутренней экосистемы

Сегодня — первый релиз: FlashMLA

Это эффективный декодирующий кернел для MLA на GPU Hopper, оптимизированный для обработки последовательностей переменной длины.

👉

👉

Платформа

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

60 views08:03

DS & ML | YeaHub

#новости

🥺

Запуск ИИ-чата от Meta

По интернету пролетела новость о том, что в следующем квартале Meta планирует выпустить собственный ИИ-чат. Компания будет тестировать подписочную систему и добавлять в чат инструменты: все, как в популярных ChatGPT, Сlaude и тд.

👉

👉

Платформа

Please open Telegram to view this post

VIEW IN TELEGRAM

61 views15:00

DS & ML | YeaHub

🤔

Как обрабатывать пропущенные или поврежденные данные в наборе данных с использованием Scikit-Learn?

Scikit-Learn предоставляет класс SimpleImputer , который заменяет пропущенные значения в данных на среднее, медиану или наиболее часто встречающееся значение
в каждом столбце. Для поврежденных данных Scikit Learn не предлагает прямых методов, но можно использовать другие библиотеки, такие как Pandas, для обработки таких данных до подачи их в модель.

👉

👉

Платформа

Please open Telegram to view this post

VIEW IN TELEGRAM

57 views08:01

DS & ML | YeaHub

#новости

😊

Исследователь Юрген Шмидхубер заявил крестному отцу ИИ Джеффри Хинтону, что его надо лишить всех наград за плагиат

Шмидхубер уже стал мемом в ML-сообществе за свои бесконечные выпады о том, что у него украли какую-то выдающуюся идею, но все не останавливается. Из последних заявлений этой легенды:

🟠 Хопфилд и Хинтон получили Нобелевскую премию незаслуженно, потому что украли идею из статьи шестидесятых годов

🟠 Все, что сделали DeepSeek с R1, взято из статей Шмидхубера

🟠 GAN – тоже его идея, а авторы основополагающей статьи про эту архитектуру наглые копирайтеры

🟠 Ну и добивочка: трансформеры, естественно, придумал он, а не ребята из Google

Хинтон, кстати, заявление даже никак не прокомментировал.

Бесконечно можно смотреть на три вещи: как горит огонь, как течет вода, и как все воруют у Шмидхубера

👉

👉

Платформа

Please open Telegram to view this post

VIEW IN TELEGRAM

54 views15:01

DS & ML | YeaHub

This media is not supported in your browser

VIEW IN TELEGRAM

#новости

🤯

Google представил нового ИИ-ассистента для Data Science, позволяющего за считанные минуты создавать полноценные рабочие блокноты.

Теперь весь процесс – от загрузки датасета до итогового анализа – берёт на себя нейросеть.

Агент самостоятельно генерирует код на Python, создаёт блокноты, визуализирует данные и шаг за шагом предлагает оптимальное решение.

Достаточно загрузить набор данных объемом до 1 Гб, и ИИ выполнит всю работу.

В итоге вы получаете готовый проект с кодом и графиками, без утомительной рутины и постоянной отладки.
Попробовать можно здесь

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

57 views08:04

DS & ML | YeaHub

#новости

😐

Стали известны некоторые имена сотрудников компании Ильи Суцкевера

SSI была основала еще летом, но до сих пор дистанцируется от СМИ и остается скрытой. Это значит, что ее сотрудники не указывают в соцсетях место работы, и составы команд не афишируются.

Тем не менее, некоторые сведения иногда проскальзывают. Вот некоторые имена:

🟠 Доктор Яир Кармон, старший преподаватель факультета компьютерных наук Тель-Авивского университета с 2020 года. У него три ученых степени по физике, включая докторскую Стэнфорда. Он занимается алгоритмами и оптимизацией.

🟠 Ницан Тор, выпускник Technion и золотой призер трех международных математических олимпиад.

🟠 Шахар Папини, еще один выпускник Technion, олимпиадник и сооснователь блокчейн-компании.

А еще известный Ярон Бродский и около 10 других инженеров и ученых из Google Research (которых Ярон видимо привел). Интересный состав.

Занятно, что SSI вообще не публикуют вакансии, а об эйчарах и речи не идет. Всех нанимают только по личным рекомендациям и сарафанному радио. Кроме того, говорят, в компании нет иерархической структуры, тимлидов и деления на команды: все равны и работают над одним проектом.

К слову, сейчас SSI оценивается уже в 30 миллиардов. Это всего в 5 раз меньше OpenAI и в 2.5 раза меньше xAI.

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

46 views15:00

DS & ML | YeaHub

🤔

Как функциональность pipeline в Scikit-Learn полезна для проекта машинного обучения?

Pipeline в Scikit-Learn упрощает процесс создания моделей машинного обучения, объединяя несколько шагов, таких как предобработка данных и обучение модели, в один обьект. Это помогает улучшить читаемость кода, избежать ошибок при кросс- валидации и облегчить настройку гиперпараметров с помощью GridSearchCV или RandomizedSearchCV.

👉

👉

Платформа

Please open Telegram to view this post

VIEW IN TELEGRAM

41 views08:00

DS & ML | YeaHub

#новости

😵‍💫

OpenAI запускает программу NextGenAI.

OpenAI запускает NextGenAI — совместную программу с 15 НИИ, направленную на ускорение научных прорывов и трансформацию образования с использованием ИИ. OpenAI планирует выделить на финансирование исследований 50 млн. долларов.

Программа объединяет институты в США и за рубежом. Среди партнеров Калифорнийский технологический институт, Гарвардский университет и Массачусетский технологический институт, а также Бостонская детская больница и Бостонская публичная библиотека.

Цель NextGenAI — укрепить связи между академическими кругами и реальным сектором, гарантируя, что преимущества ИИ будут распространены на научные лаборатории и социально значимые проекты.
openai.com

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

Introducing NextGenAI: A consortium to advance research and education with AI

OpenAI commits $50M in funding and tools to leading institutions.

❤1

36 views15:00

DS & ML | YeaHub

#полезное

🤓

Генеративные vs. дискриминативные модели в ML

Генеративные модели
🟠Изучают распределение данных, чтобы генерировать новые образцы.
🟠Обладают дискриминативными свойствами — их можно использовать для классификации.

Дискриминативные модели не обладают генеративными свойствами

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

34 views08:04

DS & ML | YeaHub

#полезное

🥺

Почему RMSE и MAE могут давать разную оценку качества модели

RMSE (Root Mean Squared Error) и MAE (Mean Absolute Error) — это две популярные метрики регрессии, но они ведут себя по-разному при наличии выбросов.

🟠 MAE — это средняя абсолютная ошибка, измеряет среднее отклонение предсказаний от истинных значений. Она линейно реагирует на ошибки, то есть один большой выброс не окажет значительного влияния.
🟠 RMSE — это корень из среднеквадратичной ошибки, которая квадратично увеличивает вклад больших ошибок. Это значит, что RMSE сильнее наказывает за крупные выбросы, чем MAE.

Пример
Если у вас есть предсказания: [2, 3, 4, 5, 100] при истинных значениях [2, 3, 4, 5, 6],
то MAE ≈ 18, а RMSE ≈ 40. RMSE выросло сильнее из-за большого выброса в 100.

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

26 views15:01

DS & ML | YeaHub

🤔

Как реализована кросс-валидация в Scikit-Learn и почему это важная техника?

B Scikit-Learn кросс-валидация реализована через модуль model_selection, c функциями, такими как cross_val_score И cross_validate . Эти функции делят
данные на несколько "слоёв" (folds), обучают модель на k-1 из них и тестируют на оставшемся. Этот процесс повторяется к раз с каждым слоем в роли тестового. Кросс- валидация помогает снизить переобучение и даёт более объективную оценку работы модели.

👉

👉

Платформа

Please open Telegram to view this post

VIEW IN TELEGRAM

YeaHub — тренажер собеседований по IT

5000+ вопросов для подготовки к интервью. Фильтры, квизы, статистика!

33 views08:03

DS & ML | YeaHub

This media is not supported in your browser

VIEW IN TELEGRAM

#полезное

😊

Логистическая регрессия vs. Многослойный персептрон

На изображении сравниваются два метода классификации данных: логистическая регрессия (слева) и многослойный персептрон (MLP, справа) после 25 эпох обучения.

✅ Результаты показывают, что MLP лучше справляется с нелинейно разделимыми данными, в отличие от логистической регрессии, которая проводит лишь простую линейную границу.

👉

Новости

👉

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

31 views15:02