Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20.1K subscribers
631 photos
39 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
👩‍💻 Постройте логистическую регрессию вручную

Напишите простую реализацию логистической регрессии с нуля (без sklearn) для бинарной классификации. Это поможет лучше понять, как работает один из самых базовых алгоритмов в машинном обучении.

Решение задачи🔽

import numpy as np

# Сигмоида
def sigmoid(z):
return 1 / (1 + np.exp(-z))

# Функция логистической регрессии
def logistic_regression(X, y, lr=0.1, epochs=1000):
m, n = X.shape
X = np.c_[np.ones(m), X] # добавляем bias
theta = np.zeros(n + 1)

for _ in range(epochs):
z =
np.dot(X, theta)
h = sigmoid(z)
gradient =
np.dot(X.T, (h - y)) / m
theta -= lr * gradient

return theta

# Предсказание
def predict(X, theta):
X = np.c_[np.ones(X.shape[0]), X]
return sigmoid(
np.dot(X, theta)) >= 0.5

# Пример
X = np.array([[1], [2], [3], [4]])
y = np.array([0, 0, 1, 1])

theta = logistic_regression(X, y)
print(predict(X, theta)) # [False False True True]
Please open Telegram to view this post
VIEW IN TELEGRAM
4🔥1
🖥 Про разработку LLM: какие ещё есть справочники и кукбуки

В статье — разбор, почему собирать платформу инференса LLM с нуля не всегда разумно, и как MWS GPT помогает запускать большие языковые модели проще, быстрее и без лишнего сумасшествия.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳21🔥1
⚙️ Неувядающая классика или «чёрный ящик»: кто кого в битве за прогноз. Глава вторая. Продолжение

Статья продолжает разбор моделирования температурного временного ряда с двойной сезонностью. Основное внимание уделено подбору оптимальных параметров сезонной модели САРПСС для точного описания данных.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31🔥1
🔎 Подборка вакансий для сеньоров

​Ведущий Python разработчик
🟢Python, Django, Pydantic, SQL, NoSQL, AWS, Docker, Kubernetes, asyncio, aiohttp, RabbitMQ, Kafka
🟢Уровень дохода не указан | 3–6 лет​

Ведущий менеджер AI (Data Scientist)
🟢Python, машинное обучение, SQL, A/B тесты, NLP, deep learning, RNN, трансформеры, MLOps, DVC, MLflow, Airflow, Hadoop, Spark, LangChain, LangGraph, LLM
🟢Уровень дохода не указан | 3–6 лет

​Senior Data Analyst
🟢SQL, Python, Excel, BI tools (Tableau, PowerBI, Metabase)
🟢Уровень дохода не указан | 3–6 лет
Please open Telegram to view this post
VIEW IN TELEGRAM
1
Алоха товарищи. Тут подкаст вышел интересный. Спикер - Антон Полднев — специалист по рекламным технологиям Яндекса с опытом свыше 10 лет.

В подкасте он рассказывает о своем пути от стажера, который писал на Perl, до руководителя и делится инсайтами разработки высоконагруженных систем.
Он объясняет, как работает рекомендательная система рекламы, как ML помогает предсказывать поведение пользователей и вероятность конверсии для бизнеса. ⠀

Ключевые моменты:

👉 Ответственность за рекламные технологии.
👉 Переход на C++ для повышения производительности.
👉 Внедрение нейросетей и машинного обучения.
👉 Важность командной работы и четкого распределения задач.
👉 Эксперименты и A/B-тесты для оптимизации решений.

Также Антон рассказал про Perforator — opensource-инструмент, который помогает анализировать работу приложений на сервере в реальном времени. С помощью этого инструмента разработчики могут увидеть, как распределяются ресурсы серверов и какие программы расходуют их больше всего.

Ссылки на подкаст

👉 YouTube
👉 VK
👉 Rutube
3👍3🔥1
Этичные хакеры будут искать уязвимости в нейросетках Яндекса

Яндекс давно привлекает этичных хакеров для повышения безопасности сервисов. Теперь им предлагают найти ошибки в семействах моделей YandexGPT, YandexART и сопутствующей инфраструктуре в рамках нового конкурса багбаунти-программы «Охота за ошибками». Вознаграждение — до миллиона рублей, в зависимости от критичности проблемы.

Искать нужно будет технические уязвимости, которые могут влиять на результат работы нейросетевых моделей. Неточные ответы Алисы не в счет.
6👍3👎3🔥2🐳1
⚙️ RAG: борьба с низким качеством ответов в условия экономии памяти на GPU

В статье показали, как делали ИИ-помощника на RAG для юристов внутри компании: с какими проблемами столкнулись, как прокачивали точность ответов и экономили память на видеокартах.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
5🔥1
⚙️ Что такое StandardScaler в Data Science и зачем он используется?

StandardScaler из библиотеки scikit-learn — это инструмент для нормализации данных. Он приводит признаки (столбцы данных) к одному масштабу со средним значением 0 и стандартным отклонением 1.

Это важно для алгоритмов машинного обучения, чувствительных к масштабу данных — например, линейной регрессии, SVM или KMeans.

➡️ Пример:

from sklearn.preprocessing import StandardScaler
import numpy as np

X = np.array([[10, 200],
[20, 300],
[30, 400]])

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

print(X_scaled)


🗣️ В этом примере значения всех признаков преобразуются так, что каждый столбец имеет среднее значение 0 и одинаковый масштаб. Это ускоряет обучение и повышает качество модели.


🖥 Подробнее тут
Please open Telegram to view this post
VIEW IN TELEGRAM
4
🔎 Подборка вакансий для лидов

​Team Lead Data Scientist
🟢Python, RecSys, Uplift modeling, Churn prediction, LTV prediction, Forecasting, MLOps (Experiment Tracking, Model Registry, Feature Store, auto-retraining, Online serving, Models monitoring), CI/CD
🟢от 5 000 до 7 250 $ | 3–6 лет​

Lead Data Engineer
🟢Python, Apache Spark, Airflow, PostgreSQL, ClickHouse, SQL, CI/CD, Linux, k8s
🟢от 450 000 ₽ | более 6 лет​

Lead Data Engineer
🟢Hadoop, Spark (batch/streaming), Scala, SQL, Parquet, Hive, Kafka, HBase, ClickHouse, PostgreSQL, Airflow, Zeppelin, Jupyter
🟢Уровень дохода не указан | 3–6 лет
Please open Telegram to view this post
VIEW IN TELEGRAM
1
⚙️ Конфиденциальность мертва: Яндекс и ВК обучают ИИ на ваших личных данных?

В статье проверяют, как Yandex GPT в голосовом ассистенте ведёт себя с персональными данными. Узнают, что он сливает номер телефона и личную инфу, а потом делает вид, что ничего не знает.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥61👍1
🎮 Погружайся в чужие проекты как в игру

Попал на новый проект и боишься "чужого" кода? Сложно и страшно?

👉 Совет: относись к чужому проекту как к исследовательской игре. Ваша миссия — понять карту, найти скрытые механики, собрать артефакты знаний. Геймификация процесса сильно снижает стресс и делает погружение гораздо приятнее.
Please open Telegram to view this post
VIEW IN TELEGRAM
5🔥1
🔎 Подборка зарубежных вакансий

​Python-разработчик
🟢Python, Django, Docker, PostgreSQL, Kafka, FastAPI, Kubernetes, Keycloak
🟢от 200 000 ₽ | 1–3 года​

AI Engineer
🟢Python, FastAPI, MongoDB, GitLab CI/CD, Kubernetes, AWS, Azure, GCP
🟢Уровень дохода не указан | 1–3 года​

DBA | Senior Database Administrator
🟢PostgreSQL, MongoDB, Redis, MySQL, ClickHouse, Ansible, Bash, Python, Grafana, Prometheus, ELK
🟢Уровень дохода не указан | 3–6 лет
Please open Telegram to view this post
VIEW IN TELEGRAM
1
👩‍💻 Разрабатываем первое AI приложение

Статья анализирует роль языка и цифровизации в накоплении и передаче знаний. Обсуждаются вызовы структурирования данных, которые, несмотря на успехи машинного обучения и реляционных баз, всё ещё затрудняют полное понимание накопленной информации.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥2
👩‍💻 Задачка по Python

Напишите функцию, которая принимает DataFrame и возвращает имена двух столбцов с наибольшей положительной корреляцией.

➡️ Пример:

data = pd.DataFrame({
'A': [1, 2, 3, 4],
'B': [2, 4, 6, 8],
'C': [1, 0, 1, 0],
'D': [10, 20, 30, 40]
})

print(find_highest_correlation(data))
# Ожидаемый результат: ('B', 'D')


Решение задачи ⬇️

def find_highest_correlation(df):
corr_matrix = df.corr()
max_corr = 0
columns = (None, None)

for col1 in corr_matrix.columns:
for col2 in corr_matrix.columns:
if col1 != col2 and corr_matrix[col1][col2] > max_corr:
max_corr = corr_matrix[col1][col2]
columns = (col1, col2)

return columns

# Пример использования:
import pandas as pd

data = pd.DataFrame({
'A': [1, 2, 3, 4],
'B': [2, 4, 6, 8],
'C': [1, 0, 1, 0],
'D': [10, 20, 30, 40]
})

print(find_highest_correlation(data)) # Ожидаемый результат: ('B', 'D')
Please open Telegram to view this post
VIEW IN TELEGRAM
3🐳1
⚙️ Когда обучение не идет. Loss is NaN. Причины и решения

В статье разберут, почему при обучении нейросети loss внезапно становится NaN и модель ломается. Расскажут, какие бывают причины этого трэша и как спасти обучение без лишней боли.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
2
👩‍💻 Напишите функцию для расчёта Accuracy вручную

В машинном обучении Accuracy — это метрика качества классификации. Показывает, сколько предсказаний модель сделала правильно.

Решение задачи🔽

def accuracy_score(y_true, y_pred):
correct = 0
for true, pred in zip(y_true, y_pred):
if true == pred:
correct += 1
return correct / len(y_true)

# Пример использования:
y_true = [1, 0, 1, 1, 0, 1]
y_pred = [1, 0, 0, 1, 0, 1]

print(accuracy_score(y_true, y_pred)) # 0.833...
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍2
🔎 Подборка вакансий для джунов

​Data Engineer (Junior)
🟢Scala или Python, SQL, Apache Spark, Hadoop, NiFi
🟢Уровень дохода не указан | 1–3 года​

Junior/Middle Data Engineer (Финансовый блок)
🟢Scala, Python, Java, SQL, Apache Spark, Hadoop, Apache Airflow
🟢Уровень дохода не указан | 1–3 года​

Data Analyst (Junior)
🟢SQL, Python, A/B тесты, BI, ML Base, EDA, продуктовая аналитика
🟢от 70 000 ₽ | Без опыта
Please open Telegram to view this post
VIEW IN TELEGRAM
1
⚙️ Организация ML-проекта с примерами

Организация - это важно. То же относится к ML-проектам. Из каких компонент он должен состоять? Как оформить проект, чтобы всего хватало и было удобно это масштабировать? Рассмотрим организацию по шаблону CookieCutter с примерами.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥1🐳1
⚙️ Что такое One-Hot Encoding в Data Science и зачем он используется?

One-Hot Encoding — это способ преобразования категориальных признаков (текста) в числовой формат для обучения моделей машинного обучения.

Каждое уникальное значение категории превращается в отдельную колонку с 0 или 1.

➡️ Пример:

import pandas as pd

data = pd.DataFrame({
'Color': ['Red', 'Green', 'Blue', 'Red']
})

# Применяем One-Hot Encoding
encoded = pd.get_dummies(data)

print(encoded)

Color_Blue Color_Green Color_Red
0 0 0 1
1 0 1 0
2 1 0 0
3 0 0 1


🗣️ В этом примере категориальный столбец Color преобразован в три колонки с бинарными значениями. Такой формат данных необходим для многих моделей, например, линейной регрессии и деревьев решений.


🖥 Подробнее тут
Please open Telegram to view this post
VIEW IN TELEGRAM
2