Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20.1K subscribers
630 photos
39 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
👩‍💻 Заполнение пропущенных значений медианой в числовых столбцах

Напишите функцию, которая принимает pandas.DataFrame и возвращает новый DataFrame, где все пропущенные значения (NaN) в числовых столбцах заменены на медиану соответствующего столбца.

Пример:

import pandas as pd

data = pd.DataFrame({
'age': [25, 30, None, 45, 50],
'salary': [50000, 60000, 55000, None, 65000],
'city': ['NY', 'LA', 'NY', 'SF', 'LA']
})

cleaned_data = fill_missing_with_median(data)
print(cleaned_data)


     age    salary city
0 25.0 50000.0 NY
1 30.0 60000.0 LA
2 37.5 55000.0 NY
3 45.0 57500.0 SF
4 50.0 65000.0 LA


Решение задачи🔽

import pandas as pd

def fill_missing_with_median(df):
df_filled = df.copy()
for col in df_filled.select_dtypes(include='number').columns:
median = df_filled[col].median()
df_filled[col].fillna(median, inplace=True)
return df_filled

# Пример использования:
data = pd.DataFrame({
'age': [25, 30, None, 45, 50],
'salary': [50000, 60000, 55000, None, 65000],
'city': ['NY', 'LA', 'NY', 'SF', 'LA']
})

cleaned_data = fill_missing_with_median(data)
print(cleaned_data)
Please open Telegram to view this post
VIEW IN TELEGRAM
🔎 Подборка вакансий для джунов

Data Scientist в области языковых моделей (Junior)
🟢Python, pandas, numpy, matplotlib, обработка текстовых данных, машинное обучение, языковые модели (LLM), библиотека Hugging Face
🟢от 190 000 ₽ до вычета налогов | 1–3 года

Data-аналитик в области временных рядов (Junior)
🟢Python, pandas, numpy, scipy, matplotlib, seaborn, анализ временных рядов, SQL
🟢от 190 000 ₽ до вычета налогов | 1–3 года

Junior Data Engineer
🟢SQL, MS Excel, Access, ETL, OLAP, английский язык
🟢Уровень дохода не указан | 1–3 года

Junior Data Analyst
🟢SQL, MS SQL Server, PostgreSQL, Python, Git, статистический анализ, A/B тестирование, машинное обучение
🟢Уровень дохода не указан | 1–3 года
Please open Telegram to view this post
VIEW IN TELEGRAM
⚙️ Машинное обучение: Логистическая регрессия. Теория и реализация. С нуля

В этой статье я привел базовые сведения о логистической регрессии и показал как сделать модель с нуля на чистом Python. Логистическая функция, обучение, метрики качества для модели классификации, реализация и небольшой разбор обучения весов.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
⚙️ Что такое модуль shutil в Python и зачем он используется?

Модуль shutil предоставляет функции для работы с файлами и директориями, такие как копирование, перемещение и удаление. Он полезен для автоматизации задач управления файлами.

➡️ Пример:

import shutil

# Копирование файла
shutil.copy('source.txt', 'destination.txt')

# Перемещение файла
shutil.move('destination.txt', 'folder/destination.txt')


🗣️ В этом примере shutil.copy копирует файл, а shutil.move перемещает его в другую директорию. Это облегчает выполнение операций с файлами и папками.


🖥 Подробнее тут
Please open Telegram to view this post
VIEW IN TELEGRAM
📝 Подборка вакансий для мидлов

Data-аналитик
🟢SQL, базы данных, аналитика данных
🟢от 200 000 до 300 000 ₽ | от 2 лет

Data Analyst (Middle)
🟢SQL, MySQL, Python, базы данных, алгоритмы и структуры данных, Tableau, анализ данных, PowerBI, визуализация
🟢от 200 000 до 250 000 ₽ | от 3 лет

Data Scientist (Скоринг/моделирование)
🟢Python, SQL, Hadoop, машинное обучение
🟢Уровень дохода не указан | от 1 года

Data Scientist (модели PD)
🟢SQL, Python, машинное обучение
🟢Уровень дохода не указан | от 1 года
Please open Telegram to view this post
VIEW IN TELEGRAM
👀 Sora от OpenAI: принцип работы, примеры видео и сравнение с Runway

Компания OpenAI представила свою ИИ-модель для генерации видео — Sora. В статье обсуждаются ожидания, доступность и сравнительный анализ с конкурентами, такими как Kling AI и Runway Gen-3.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
👩‍💻 Поиск наиболее часто встречающегося слова в тексте

Напишите функцию, которая принимает текстовую строку и возвращает наиболее часто встречающееся слово и количество его вхождений. Игнорируйте регистр и знаки препинания.

Пример:

text = "Python is great, and Python is fun! Learning Python is rewarding."
result = most_common_word(text)
print(result)
# Ожидаемый результат: ('python', 3)


Решение задачи🔽

import re
from collections import Counter

def most_common_word(text):
words = re.findall(r'\b\w+\b', text.lower())
counter = Counter(words)
return counter.most_common(1)[0]

# Пример использования:
text = "Python is great, and Python is fun! Learning Python is rewarding."
result = most_common_word(text)
print(result)
Please open Telegram to view this post
VIEW IN TELEGRAM
⚙️ ML в промышленности: как построить систему управления процессом окомкования железорудных окатышей

Статья расскажет, как машинное обучение помогает улучшить процесс производства железорудных окатышей, снизив зависимость от человеческого фактора, и о примерах, когда технологии сталкиваются с реальными проблемами.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
🎁 Динамическая адаптация награды с помощью Pydantic

Статья рассказывает, как Pydantic помогает бизнесу гибко управлять наградами для пользователей. Описаны преимущества Pydantic в валидации и преобразовании данных по сравнению с dataclass.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
📝 Подборка вакансий для сеньоров

Data Engineer (Golang)
Golang, ClickHouse, MySQL, MongoDB, Kubernetes, HTTP/gRPC API, Apache Kafka, Redis
Уровень дохода не указан | от 3 лет

Data Scientist NLP (портал gosuslugi.ru)
Python 3, numpy, pandas, scipy, sklearn, PyTorch, NLTK, transformers, FastAPI, Docker, Spark/Hadoop
Уровень дохода не указан | от 1 года

Senior Data Engineer
Apache Hadoop, Spark (batch/streaming), Scala, SQL, Parquet, Hive, Kafka, HBase, ClickHouse, PostgreSQL, Airflow, Zeppelin, Jupyter, S3 MinIO
Уровень дохода не указан | от 5 лет

Senior Python Dev (AI, Big Data, LLM)
Python, PostgreSQL, Big Data, AI, ML, ClickHouse, Time Series, Go
от 3 000 $ | от 5 лет
Please open Telegram to view this post
VIEW IN TELEGRAM
⚙️ Что такое functools.lru_cache в Python и зачем он используется?

functools.lru_cache — это декоратор, который позволяет кэшировать результаты функции для повышения производительности. Он запоминает результаты вызовов функции с определёнными аргументами и возвращает их из кэша при повторных вызовах.

➡️ Пример:

from functools import lru_cache
import time

@lru_cache(maxsize=3)
def slow_function(n):
time.sleep(2)
return n * 2

print(slow_function(5)) # Выполняется медленно (2 секунды)
print(slow_function(5)) # Возвращает результат мгновенно из кэша


🗣️ В этом примере функция slow_function кэширует результаты для трёх последних аргументов. Повторный вызов с теми же аргументами возвращает результат мгновенно, ускоряя выполнение.


🖥 Подробнее тут
Please open Telegram to view this post
VIEW IN TELEGRAM
🔎 Подборка вакансий для лидов

Lead Data Engineer
🟢Scala, SQL, Python, Apache Spark, Airflow, ClickHouse, AWS S3, Kubernetes, PostgreSQL, MySQL, DataHub, Deequ, GitLab CI, Vault, Tableau
🟢Уровень дохода не указан | более 5 лет

Senior/Lead Data Engineer
🟢Python, Java, SQL, Apache Airflow, HBase, YTsaurus, ClickHouse, PostgreSQL, Apache Spark, Apache Flink, Apache Beam, Docker, Kubernetes, GitLab, BI-системы (Apache Superset, Jasperserver)
🟢Уровень дохода не указан | более 2 лет

Team Lead (Python)
🟢Python, FastAPI, SQLAlchemy, PostgreSQL, Kafka, Alembic, GitLab CI, Docker, Kubernetes, GraphQL
🟢Уровень дохода не указан | 3–6 лет
Please open Telegram to view this post
VIEW IN TELEGRAM
🥽 Инфраструктура для Data-Engineer виртуальные окружения

Статья объясняет, как управлять зависимостями и изолировать проекты в Python. Рассматриваются виртуальные окружения, работа с разными версиями Python, примеры из практики и лучшие подходы для разработки.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
🔗 Технический долг? Закрывай его по «принципу кафе»

Технический долг копится, как грязная посуда в раковине. Кажется, что решишь его «когда-нибудь», но это «когда-нибудь» не наступает.

👉 Совет: применяй «принцип кафе» — каждый раз, когда работаешь с файлом или модулем, оставь его в лучшем состоянии, чем нашёл. Понемногу рефакторь, добавляй комментарии или улучшай структуру. В итоге долг будет сокращаться без больших затрат времени.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔎 Подборка зарубежных вакансий

Data Analyst
🟢Excel, Google Sheets, Power BI, Python, SQL, API
🟢от 1 400 до 1 600 $ до вычета налогов | 1–3 года

Head of Data Insight and Partnership (Game Dev)
🟢Research, Insights, Media Relations, Английский C1
🟢до 6 000 $ до вычета налогов | Более 6 лет

Senior Machine Learning Engineer
🟢Python, C++, R, TensorFlow, NumPy, SciPy, Pandas, MongoDB, Elastic, Hadoop, ClickHouse, Ansible, Shell Scripting, Chef
🟢от 5 500 до 7 000 € до вычета налогов | Более 6 лет

DevOps Engineer/Infrastructure Engineer
🟢Linux, Python, Docker, Kubernetes, Bash, CI/CD, Zabbix, C++, MacOS, OSI
🟢от 4 500 до 5 700 $ на руки | 3–6 лет
Please open Telegram to view this post
VIEW IN TELEGRAM
⚙️ Запускаем 8B LLM в браузере: AQLM.rs

Как запустить Llama 3.1 8B в браузере без GPU? В статье рассказывается о проекте AQLM.rs: инференс на WebAssembly, сжатие модели и запуск на обычном ПК или мобильном устройстве.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
👩‍💻 Классификация данных с использованием k-Nearest Neighbors (kNN)

Напишите функцию на Python, которая принимает обучающий набор данных, тестовый набор данных и значение 𝑘, а затем использует алгоритм k-ближайших соседей (kNN) для классификации тестовых данных. Функция должна возвращать предсказанные метки для тестового набора данных.

Пример:

import numpy as np

X_train = np.array([[1, 2], [2, 3], [3, 4], [5, 5]])
y_train = np.array([0, 0, 1, 1])
X_test = np.array([[2, 2], [4, 4]])

predictions = knn_classification(X_train, y_train, X_test, k=3)
print(predictions) # Ожидаемый результат: [0, 1]


Решение задачи🔽

from sklearn.neighbors import KNeighborsClassifier

def knn_classification(X_train, y_train, X_test, k=3):
model = KNeighborsClassifier(n_neighbors=k)
model.fit(X_train, y_train)
return model.predict(X_test)

# Пример использования:
import numpy as np

X_train = np.array([[1, 2], [2, 3], [3, 4], [5, 5]])
y_train = np.array([0, 0, 1, 1])
X_test = np.array([[2, 2], [4, 4]])

predictions = knn_classification(X_train, y_train, X_test, k=3)
print(predictions) # Ожидаемый результат: [0, 1]
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔 Правда ли, что развитие ИИ замедлилось?

Масштабирование ИИ-систем долго считалось ключом к их развитию. Однако последние отчёты ставят это под сомнение: ROI от увеличения мощности снижается, а гипотеза «чем больше, тем лучше» теряет актуальность.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
👩‍💻 Поиск подстроки в строках файла

Напишите функцию, которая принимает путь к текстовому файлу и строку для поиска, а затем выводит все строки файла, содержащие эту строку (игнорируя регистр). Если совпадений нет, функция должна вывести сообщение об отсутствии результатов.

Пример:

search_in_file('example.txt', 'python')

Если в example.txt есть строки, содержащие слово "python" (в любом регистре), они будут напечатаны.

Решение задачи🔽

def search_in_file(file_path, query):
query_lower = query.lower()
found = False

with open(file_path, 'r', encoding='utf-8') as f:
for line in f:
if query_lower in line.lower():
print(line.strip())
found = True

if not found:
print("Ничего не найдено.")

# Пример использования
# search_in_file('example.txt', 'python')
Please open Telegram to view this post
VIEW IN TELEGRAM