NEW BOT Телеграм, страница - 963793337

Data Science | Machinelearning [ru]

20.1K subscribers

684 photos

42 videos

29 files

3.56K links

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD

Download Telegram

About

Blog

Apps

Platform

Data Science | Machinelearning [ru]

20.1K subscribers

Data Science | Machinelearning [ru]

🤔

Размер имеет значение: как исторические данные помогают на этапе дизайна A/B-теста

Статья изучает применение метода CUPED в A/B-тестах для повышения чувствительности и сокращения выборок. Рассматривается его использование на этапе дизайна эксперимента без потери статистической мощности.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👎1

2.73K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Проверка, являются ли две строки анаграммами

Напишите функцию, которая принимает две строки и проверяет, являются ли они анаграммами. Анаграммы — это слова, которые содержат одинаковые буквы в одинаковом количестве, но в разном порядке. Игнорируйте регистр и пробелы.

Пример:

result1 = are_anagrams("listen", "silent")
print(result1)  # Ожидаемый результат: True

result2 = are_anagrams("hello", "world")
print(result2)  # Ожидаемый результат: False

Решение задачи🔽

def are_anagrams(str1, str2):
# Удаляем пробелы и приводим к одному регистру
str1 = ''.join(str1.lower().split())
str2 = ''.join(str2.lower().split())

# Проверяем, равны ли отсортированные символы
return sorted(str1) == sorted(str2)

# Пример использования:
result1 = are_anagrams("listen", "silent")
print(result1) # Ожидаемый результат: True

result2 = are_anagrams("hello", "world")
print(result2) # Ожидаемый результат: False

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5👎2

2.63K views14:07

Data Science | Machinelearning [ru]

🔥

Самые интересные статьи за последние дни:

• Что читали на Хабре в 2024 году: анализ статей с Node.js, Google Sheets и каплей ChatGPT

• Поднимаем в облаке расшифровку речи в текст с помощью нейросетей. VPS на пределе возможностей

• Стоит ли ChatGPT о1 Pro своих денег? Небольшой тест-драйв модели

• Возможности LLM и RAG на примере реализации бота для поддержки клиентов

• Гетерогенные вычисления: проектирование и разработка вычислительной системы для нейросетей

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2🔥1

2.67K views18:07

Data Science | Machinelearning [ru]

⚙️

Пишем свою Diffusion модель с нуля

Статья предлагает разобраться в устройстве Diffusion моделей, их математике и принципах работы. Автор делится простыми объяснениями, примерами кода и результатами генерации изображений на собственной модели.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤1

2.66K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Поиск самого часто встречающегося элемента в списке

Напишите функцию, которая принимает список и возвращает элемент, который встречается чаще всего. Если таких элементов несколько, вернуть любой из них.

Пример:

numbers = [1, 3, 2, 3, 4, 1, 3, 2, 1]
result = most_frequent(numbers)
print(result)  
# Ожидаемый результат: 3 (или 1, если в списке оба встречаются одинаково часто)

Решение задачи🔽

from collections import Counter

def most_frequent(lst):
count = Counter(lst)
return max(count, key=count.get)

# Пример использования:
numbers = [1, 3, 2, 3, 4, 1, 3, 2, 1]
result = most_frequent(numbers)
print(result) # Ожидаемый результат: 3

Please open Telegram to view this post

VIEW IN TELEGRAM

🐳3❤1

2.58K views14:07

Data Science | Machinelearning [ru]

🔎

Подборка вакансий для джунов

Junior Data Engineer
🟢Python, C#, SQL, Spark, Kafka, Airflow, DeltaLake, Kubernetes
🟢до 200 000 ₽ | 1–3 года

Data Analyst (Junior) | Аналитик Данных (Младший)
🟢Python, SQL, Power BI, Grafana, PostgreSQL, ClickHouse, Docker
🟢Уровень дохода не указан | 1–3 года

Data инженер DWH Junior (Hadoop)
🟢Hadoop, Hive, Spark, SQL, Java, Airflow, Git, Jira, Confluence
🟢Уровень дохода не указан | 1–3 года

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3

2.88K views18:07

Data Science | Machinelearning [ru]

⚙️

Рейтинг 6 нейросетей для сокращения текста, ч. 1: промты рвут контент на части

В статье собрали 25 промтов для сжатия текста и сравнили, как разные нейросети вроде ChatGPT-4o и Gemini-2.5 превращают километры букв в понятные и короткие саммари.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1👍1

2.67K views10:07

Data Science | Machinelearning [ru]

⚙️

Что такое Feature Scaling в ML и зачем он нужен?

Feature Scaling (масштабирование признаков) — это приведение всех признаков к одному масштабу, чтобы модель обучалась корректно.

Некоторые алгоритмы (например, k-NN, SVM, градиентный спуск) чувствительны к разнице в диапазонах данных

➡️

Пример:

from sklearn.preprocessing import StandardScaler
import numpy as np

X = np.array([[1, 100], [2, 300], [3, 500]])

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

print(X_scaled)

🗣️ В этом примере признаки приводятся к виду с нулевым средним и единичным стандартным отклонением.

Без масштабирования одна "большая" переменная может полностью доминировать над другими..

🖥

Подробнее тут

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍1

2.81K views14:07

Data Science | Machinelearning [ru]

🔎

Подборка вакансий для мидлов

Data Scientist в области языковых моделей (Middle)
🟢Python, pandas, numpy, matplotlib, Hugging Face, transformers, машинное обучение, LLM
🟢от 351 000 ₽ | 3–6 лет

Middle Data Engineer
🟢SQL, Python, PostgreSQL, MongoDB, ClickHouse, Airflow, dbt, Docker, Kubernetes, Kafka
🟢от 4 000 € | 3–6 лет

Data Scientist
🟢Python, PySpark, Pandas, PyTorch, Scikit-learn, RecBole, Airflow, MLFlow
🟢Уровень дохода не указан | 3–6 лет

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

2.75K views20:07

Data Science | Machinelearning [ru]

🧠

Обучаем ИИ-агентов играть в видеоигры: новый подход с LLM и рефлексией

В статье разбирают новый подход к ИИ для 3D-игр от Tencent: вместо долгого обучения — LLM и язык поведения, чтобы быстро рождать умных агентов без танцев с бубном.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤3🔥3

2.82K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Обучение модели классификации цветов по RGB

Напишите код на Python, который:

• Генерирует случайные RGB-цвета
• Классифицирует цвета как "Светлый" или "Тёмный"
• Обучает простую модель машинного обучения для этой задачи

Условие классификации:
Если сумма R + G + B > 382, считаем цвет светлым, иначе — тёмным.

Решение задачи🔽

import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Генерация данных
np.random.seed(42)
X = np.random.randint(0, 256, size=(1000, 3)) # 1000 цветов RGB
y = (X.sum(axis=1) > 382).astype(int) # 1 - светлый, 0 - тёмный

# Разделение на обучение и тест
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Обучение модели
model = LogisticRegression()
model.fit(X_train, y_train)

# Проверка качества
y_pred = model.predict(X_test)
print("Точность модели:", accuracy_score(y_test, y_pred))

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

2.61K views14:07

Data Science | Machinelearning [ru]

MTС Web Services — №1 в рейтинге GPU-облаков. Что внутри?

В рейтинге GPU Cloud 2025 от CNews MTS Web Services оказался на вершине.
Почему:
Поддержка MLOps, ML-библиотек и платформы для работы с LLM-моделями - MWS GPT
15 конфигураций: A100, A40, V100, T4 и др.
CPU Intel Xeon Gold (6248R, 6154, 5318Y)
Надёжность: Tier III ЦОДы, DRaaS, балансировка
Гибкость: Fix, flexible, выделенные сегменты

Выбор тех, кто ищет мощность, стабильность и экономию на наиболее выгодных для себя условиях.

❤1👎1

2.56K views14:08

Data Science | Machinelearning [ru]

🔥

Самые интересные статьи за последние дни:

• о3 теснит программистов? Как OpenAI снова всех удивила

• AI, который всё за нас решит

• Второе пришествие мейнфреймов. Всё больше компаний хотят запускать ИИ у себя в офисе

• Обзор на разнообразные интерфейсы Stable Diffusion. Automatic1111 — не одинок

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2🔥1

2.53K views18:07

Data Science | Machinelearning [ru]

➡️

Будущее LLM в XS, S, M и других размерах

В статье обсуждаются подходы к обучению ИИ оптимально использовать свои ресурсы: от минимальной мощности для простых задач до максимума для сложных. Разбираем концепции «я не знаю» и запросов помощи.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3🔥1

2.44K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Генератор случайных паролей с настройками

Напишите функцию, которая генерирует случайный пароль заданной длины. Пароль должен быть сформирован на основе пользовательских требований:

• Использовать ли цифры.
• Использовать ли буквы верхнего и/или нижнего регистра.
• Использовать ли специальные символы.

➡️ Пример:

password = generate_password(length=12, use_digits=True, use_uppercase=True, use_lowercase=True, use_specials=False)
print(password)
# Пример вывода: A1b2C3d4E5f6

Решение задачи🔽

import random
import string

def generate_password(length, use_digits=True, use_uppercase=True, use_lowercase=True, use_specials=True):
if length < 1:
raise ValueError("Длина пароля должна быть больше 0")

# Формируем набор символов
character_pool = ""
if use_digits:
character_pool += string.digits
if use_uppercase:
character_pool += string.ascii_uppercase
if use_lowercase:
character_pool += string.ascii_lowercase
if use_specials:
character_pool += "!@#$%^&*()-_=+[]{}|;:,.<>?/"

if not character_pool:
raise ValueError("Нужно выбрать хотя бы один тип символов")

# Генерация пароля
return ''.join(random.choice(character_pool) for _ in range(length))

# Пример использования
password = generate_password(length=12, use_digits=True, use_uppercase=True, use_lowercase=True, use_specials=True)
print(password)

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

2.48K views14:07

Data Science | Machinelearning [ru]

📈

Подборка статей для вашей карьеры

• Вся правда о еженедельных созвонах, или Зачем переливать из пустого в порожнее?

• Тяжела и неказиста жизнь простого RnD. Часть первая: как работают с новыми технологиями в крупных компаниях

• Прийти на внедренный проект на этапе развития системы: как аналитику быстро погрузиться в процессы

• Как гуманитарию подойти к IT: из переводчика в технические писатели

• Поздравляем, вы DevOps-инженер. Как найти себя в необъятном мире ИТ

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

2.56K views18:07

Data Science | Machinelearning [ru]

❓

Кто такой разметчик данных и сколько он зарабатывает? Все, что вам нужно знать о профессии

Как нейросети распознают лица и управляют авто? Всё это благодаря разметчикам данных, которые учат ИИ видеть и понимать мир. Узнайте, сколько они зарабатывают и какие навыки нужны для работы.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3🔥1

2.61K views10:07

Data Science | Machinelearning [ru]

❓

Как работает кросс-валидация в ML?

Кросс-валидация — это техника оценки модели, которая помогает избежать переобучения и лучше оценить её обобщающую способность. В классической k-блочной кросс-валидации данные разбиваются на k равных частей, и модель обучается k раз, каждый раз используя одну часть для тестирования и остальные для обучения.

➡️ Пример применения кросс-валидации с использованием библиотеки scikit-learn:

from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris

data = load_iris()
X, y = data.data, data.target
clf = RandomForestClassifier()

scores = cross_val_score(clf, X, y, cv=5)
print(f'Средняя точность: {scores.mean()}')

Здесь модель обучается 5 раз (5-fold) на разных частях данных, и вычисляется средняя точность.

🗣️ Кросс-валидация помогает лучше понять, как модель будет работать на новых данных, улучшая её обобщение.

🖥

Подробнее тут

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍2😁1

2.75K views14:07

Data Science | Machinelearning [ru]

🤔

Машинное обучение и криптография: знакомимся с CipherGAN

В этой статье мы рассмотрим генеративно‑состязательную сеть CipherGAN, используемую для определения базового шифровального отображения по банкам непарного зашифрованного текста и открытого текста.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5🔥1

2.7K views18:07

Data Science | Machinelearning [ru]

🌞

Как мы учили Алису видеть мир с помощью мультимодальной нейросети Яндекса

В статье рассказывают, как в Яндексе развивали мультимодальную нейросеть для Алисы: от первых шагов в поиске по картинкам до живого распознавания объектов через камеру

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤1🐳1

3.14K views10:07

Data Science | Machinelearning [ru]

🧩 Строй собственную «библиотеку решений»

Каждый раз искать, как настроить nginx или написать paginated API — это трата энергии.

👉 Совет: собирай свои удачные решения в одном месте: фрагменты кода, полезные настройки, готовые сниппеты. Через пару месяцев ты получишь личную базу готовых решений, которая будет экономить тебе часы работы на каждом проекте.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤12🔥1

2.65K views14:07