NEW BOT Телеграм, страница - 416322024

Data Science | Machinelearning [ru]

20.1K subscribers

683 photos

42 videos

29 files

3.56K links

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD

Download Telegram

About

Blog

Apps

Platform

Data Science | Machinelearning [ru]

20.1K subscribers

Data Science | Machinelearning [ru]

➡️

Секреты Spark в Arenadata Hadoop: как мы ускорили построение витрин для задач ML

Покажем, как связали нашу платформу ИИ и Озеро данных, чтобы модели удобно работали с витринами через Spark. Немного архитектуры, немного боли, немного магии.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3🔥1

2.28K views10:07

Data Science | Machinelearning [ru]

⚙️

Что такое data leakage в машинном обучении и почему это опасно?

Data leakage (утечка данных) — это ситуация, когда модель случайно получает информацию о будущем (о целевой переменной), которая недоступна на момент предсказания. Это приводит к переоценке качества модели во время обучения и к плохой работе на реальных данных.

➡️

Пример:

import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

# Пример: диагностические данные пациента
df = pd.DataFrame({
    'age': [25, 40, 60, 35],
    'blood_pressure': [120, 130, 150, 110],
    'has_disease': [0, 1, 1, 0],
    'diagnosis_code': [0, 1, 1, 0]  # случайно совпадает с целевой переменной
})

X = df.drop('has_disease', axis=1)
y = df['has_disease']

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

model = LogisticRegression()
model.fit(X_train, y_train)
print("Train accuracy:", model.score(X_train, y_train))

🗣️ В этом примере diagnosis_code напрямую связан с целевой переменной has_disease. Модель «угадывает» ответы на тренировке, но это не работает в реальности. Такое скрытое совпадение — типичный пример data leakage

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

2.28K views14:07

Data Science | Machinelearning [ru]

VI российский саммит и Премия CDO/CDTO Summit & Awards 2025 собрали лидеров цифровой трансформации из различных отраслей.

Это событие стало площадкой для обсуждения актуальных вопросов цифровизации, развития инфраструктуры на основе российского ПО и технологий, а также обмена опытом между представителями бизнеса и органов власти.

Сразу две награды получила МТС Web Services:

🟢 Платформа MWS Octapi получила Гран-при в номинации «Digital-платформа года». Octapi позволяет бесшовно интегрировать сервисы в экосистему, обеспечивая их эффективное взаимодействие и повышая надежность.

🟢

Павел Воронин генеральный директор МТС Web Services стал лауреатом премии CDO/CDTO, войдя в тройку лучших СЕО 2025 года в номинации «СЕО года цифровой компании».

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

2.34K views15:10

Data Science | Machinelearning [ru]

📝

Подборка вакансий для лидов

Data Architect
• Apache Hadoop, Apache Airflow, Greenplum, Apache NiFi, DWH, Apache Spark
• Уровень дохода не указан | Без опыта

Team Lead Data Platform
• Python, SQL, Git, Apache Hadoop, Apache Spark, Apache Airflow, Apache Kafka
• Уровень дохода не указан | Без опыта

Data Science Tech Lead/Product owner
• Python, SQL, Hadoop, Spark, Airflow
• Уровень дохода не указан | Без опыта

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

2.34K views18:07

Data Science | Machinelearning [ru]

🤡

Endless Fun Machine: бесконечный генератор смешных картинок

Расскажу про проект Endless Fun Machine: как я собрал генератор, где ИИ сам придумывает шутки и рисует их в мемы. И заодно покажу, как это можно адаптировать для синтетических данных

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👎1🔥1

2.44K views10:07

Data Science | Machinelearning [ru]

🔎

Подборка зарубежных вакансий

Data Scientist рекомендательные системы (full time office)
🟢Python, pandas, sklearn, scipy, matplotlib, catboost, SQL, Git, Docker
🟢Уровень дохода не указан | 3–6 лет

Senior Data Scientist (Recommender Systems)
🟢Python, PyTorch, PySpark, ClickHouse, Jenkins, Airflow, ONNX
🟢от 5 000 до 6 500 € | 3–6 лет

Data Scientist (Кипр)
🟢Python, SQL, pandas, numpy, seaborn, ML, Big Data, Deep Learning
🟢от 4 000 € | 1–3 года

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1🔥1

2.57K views14:07

Data Science | Machinelearning [ru]

🧹

Заводи «технический долг» как отдельную задачу

Фраза «потом починим» без тикета = «никогда не починим».

👉 Совет: всё, что требует доработки, выноси в явные задачи или хотя бы в отдельный трекер. Технический долг нужно видеть, чтобы его гасить. Складывать его «в голове» — значит накапливать долги втайне до катастрофы.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤10🐳1

2.76K views18:07

Data Science | Machinelearning [ru]

🤔

Размер имеет значение: как исторические данные помогают на этапе дизайна A/B-теста

Статья изучает применение метода CUPED в A/B-тестах для повышения чувствительности и сокращения выборок. Рассматривается его использование на этапе дизайна эксперимента без потери статистической мощности.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👎1

2.73K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Проверка, являются ли две строки анаграммами

Напишите функцию, которая принимает две строки и проверяет, являются ли они анаграммами. Анаграммы — это слова, которые содержат одинаковые буквы в одинаковом количестве, но в разном порядке. Игнорируйте регистр и пробелы.

Пример:

result1 = are_anagrams("listen", "silent")
print(result1)  # Ожидаемый результат: True

result2 = are_anagrams("hello", "world")
print(result2)  # Ожидаемый результат: False

Решение задачи🔽

def are_anagrams(str1, str2):
# Удаляем пробелы и приводим к одному регистру
str1 = ''.join(str1.lower().split())
str2 = ''.join(str2.lower().split())

# Проверяем, равны ли отсортированные символы
return sorted(str1) == sorted(str2)

# Пример использования:
result1 = are_anagrams("listen", "silent")
print(result1) # Ожидаемый результат: True

result2 = are_anagrams("hello", "world")
print(result2) # Ожидаемый результат: False

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5👎2

2.63K views14:07

Data Science | Machinelearning [ru]

🔥

Самые интересные статьи за последние дни:

• Что читали на Хабре в 2024 году: анализ статей с Node.js, Google Sheets и каплей ChatGPT

• Поднимаем в облаке расшифровку речи в текст с помощью нейросетей. VPS на пределе возможностей

• Стоит ли ChatGPT о1 Pro своих денег? Небольшой тест-драйв модели

• Возможности LLM и RAG на примере реализации бота для поддержки клиентов

• Гетерогенные вычисления: проектирование и разработка вычислительной системы для нейросетей

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2🔥1

2.67K views18:07

Data Science | Machinelearning [ru]

⚙️

Пишем свою Diffusion модель с нуля

Статья предлагает разобраться в устройстве Diffusion моделей, их математике и принципах работы. Автор делится простыми объяснениями, примерами кода и результатами генерации изображений на собственной модели.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤1

2.66K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Поиск самого часто встречающегося элемента в списке

Напишите функцию, которая принимает список и возвращает элемент, который встречается чаще всего. Если таких элементов несколько, вернуть любой из них.

Пример:

numbers = [1, 3, 2, 3, 4, 1, 3, 2, 1]
result = most_frequent(numbers)
print(result)  
# Ожидаемый результат: 3 (или 1, если в списке оба встречаются одинаково часто)

Решение задачи🔽

from collections import Counter

def most_frequent(lst):
count = Counter(lst)
return max(count, key=count.get)

# Пример использования:
numbers = [1, 3, 2, 3, 4, 1, 3, 2, 1]
result = most_frequent(numbers)
print(result) # Ожидаемый результат: 3

Please open Telegram to view this post

VIEW IN TELEGRAM

🐳3❤1

2.58K views14:07

Data Science | Machinelearning [ru]

🔎

Подборка вакансий для джунов

Junior Data Engineer
🟢Python, C#, SQL, Spark, Kafka, Airflow, DeltaLake, Kubernetes
🟢до 200 000 ₽ | 1–3 года

Data Analyst (Junior) | Аналитик Данных (Младший)
🟢Python, SQL, Power BI, Grafana, PostgreSQL, ClickHouse, Docker
🟢Уровень дохода не указан | 1–3 года

Data инженер DWH Junior (Hadoop)
🟢Hadoop, Hive, Spark, SQL, Java, Airflow, Git, Jira, Confluence
🟢Уровень дохода не указан | 1–3 года

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3

2.88K views18:07

Data Science | Machinelearning [ru]

⚙️

Рейтинг 6 нейросетей для сокращения текста, ч. 1: промты рвут контент на части

В статье собрали 25 промтов для сжатия текста и сравнили, как разные нейросети вроде ChatGPT-4o и Gemini-2.5 превращают километры букв в понятные и короткие саммари.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1👍1

2.67K views10:07

Data Science | Machinelearning [ru]

⚙️

Что такое Feature Scaling в ML и зачем он нужен?

Feature Scaling (масштабирование признаков) — это приведение всех признаков к одному масштабу, чтобы модель обучалась корректно.

Некоторые алгоритмы (например, k-NN, SVM, градиентный спуск) чувствительны к разнице в диапазонах данных

➡️

Пример:

from sklearn.preprocessing import StandardScaler
import numpy as np

X = np.array([[1, 100], [2, 300], [3, 500]])

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

print(X_scaled)

🗣️ В этом примере признаки приводятся к виду с нулевым средним и единичным стандартным отклонением.

Без масштабирования одна "большая" переменная может полностью доминировать над другими..

🖥

Подробнее тут

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍1

2.81K views14:07

Data Science | Machinelearning [ru]

🔎

Подборка вакансий для мидлов

Data Scientist в области языковых моделей (Middle)
🟢Python, pandas, numpy, matplotlib, Hugging Face, transformers, машинное обучение, LLM
🟢от 351 000 ₽ | 3–6 лет

Middle Data Engineer
🟢SQL, Python, PostgreSQL, MongoDB, ClickHouse, Airflow, dbt, Docker, Kubernetes, Kafka
🟢от 4 000 € | 3–6 лет

Data Scientist
🟢Python, PySpark, Pandas, PyTorch, Scikit-learn, RecBole, Airflow, MLFlow
🟢Уровень дохода не указан | 3–6 лет

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

2.75K views20:07

Data Science | Machinelearning [ru]

🧠

Обучаем ИИ-агентов играть в видеоигры: новый подход с LLM и рефлексией

В статье разбирают новый подход к ИИ для 3D-игр от Tencent: вместо долгого обучения — LLM и язык поведения, чтобы быстро рождать умных агентов без танцев с бубном.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤3🔥3

2.82K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Обучение модели классификации цветов по RGB

Напишите код на Python, который:

• Генерирует случайные RGB-цвета
• Классифицирует цвета как "Светлый" или "Тёмный"
• Обучает простую модель машинного обучения для этой задачи

Условие классификации:
Если сумма R + G + B > 382, считаем цвет светлым, иначе — тёмным.

Решение задачи🔽

import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Генерация данных
np.random.seed(42)
X = np.random.randint(0, 256, size=(1000, 3)) # 1000 цветов RGB
y = (X.sum(axis=1) > 382).astype(int) # 1 - светлый, 0 - тёмный

# Разделение на обучение и тест
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Обучение модели
model = LogisticRegression()
model.fit(X_train, y_train)

# Проверка качества
y_pred = model.predict(X_test)
print("Точность модели:", accuracy_score(y_test, y_pred))

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

2.61K views14:07

Data Science | Machinelearning [ru]

MTС Web Services — №1 в рейтинге GPU-облаков. Что внутри?

В рейтинге GPU Cloud 2025 от CNews MTS Web Services оказался на вершине.
Почему:
Поддержка MLOps, ML-библиотек и платформы для работы с LLM-моделями - MWS GPT
15 конфигураций: A100, A40, V100, T4 и др.
CPU Intel Xeon Gold (6248R, 6154, 5318Y)
Надёжность: Tier III ЦОДы, DRaaS, балансировка
Гибкость: Fix, flexible, выделенные сегменты

Выбор тех, кто ищет мощность, стабильность и экономию на наиболее выгодных для себя условиях.

❤1👎1

2.56K views14:08

Data Science | Machinelearning [ru]

🔥

Самые интересные статьи за последние дни:

• о3 теснит программистов? Как OpenAI снова всех удивила

• AI, который всё за нас решит

• Второе пришествие мейнфреймов. Всё больше компаний хотят запускать ИИ у себя в офисе

• Обзор на разнообразные интерфейсы Stable Diffusion. Automatic1111 — не одинок

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2🔥1

2.53K views18:07

Data Science | Machinelearning [ru]

➡️

Будущее LLM в XS, S, M и других размерах

В статье обсуждаются подходы к обучению ИИ оптимально использовать свои ресурсы: от минимальной мощности для простых задач до максимума для сложных. Разбираем концепции «я не знаю» и запросов помощи.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3🔥1

2.44K views10:07