NEW BOT Телеграм, страница - 284404078

Data Science | Machinelearning [ru]

20.2K subscribers

673 photos

41 videos

29 files

3.56K links

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD

Download Telegram

About

Blog

Apps

Platform

Data Science | Machinelearning [ru]

20.2K subscribers

Data Science | Machinelearning [ru]

👩‍💻

Заполнение пропущенных значений медианой в числовых столбцах

Напишите функцию, которая принимает pandas.DataFrame и возвращает новый DataFrame, где все пропущенные значения (NaN) в числовых столбцах заменены на медиану соответствующего столбца.

Пример:

import pandas as pd

data = pd.DataFrame({
    'age': [25, 30, None, 45, 50],
    'salary': [50000, 60000, 55000, None, 65000],
    'city': ['NY', 'LA', 'NY', 'SF', 'LA']
})

cleaned_data = fill_missing_with_median(data)
print(cleaned_data)

     age    salary city
0   25.0  50000.0   NY
1   30.0  60000.0   LA
2   37.5  55000.0   NY
3   45.0  57500.0   SF
4   50.0  65000.0   LA

Решение задачи🔽

import pandas as pd

def fill_missing_with_median(df):
df_filled = df.copy()
for col in df_filled.select_dtypes(include='number').columns:
median = df_filled[col].median()
df_filled[col].fillna(median, inplace=True)
return df_filled

# Пример использования:
data = pd.DataFrame({
'age': [25, 30, None, 45, 50],
'salary': [50000, 60000, 55000, None, 65000],
'city': ['NY', 'LA', 'NY', 'SF', 'LA']
})

cleaned_data = fill_missing_with_median(data)
print(cleaned_data)

Please open Telegram to view this post

VIEW IN TELEGRAM

3.4K views14:07

Data Science | Machinelearning [ru]

🔎

Подборка вакансий для джунов

Data Scientist в области языковых моделей (Junior)
🟢Python, pandas, numpy, matplotlib, обработка текстовых данных, машинное обучение, языковые модели (LLM), библиотека Hugging Face
🟢от 190 000 ₽ до вычета налогов | 1–3 года

Data-аналитик в области временных рядов (Junior)
🟢Python, pandas, numpy, scipy, matplotlib, seaborn, анализ временных рядов, SQL
🟢от 190 000 ₽ до вычета налогов | 1–3 года

Junior Data Engineer
🟢SQL, MS Excel, Access, ETL, OLAP, английский язык
🟢Уровень дохода не указан | 1–3 года

Junior Data Analyst
🟢SQL, MS SQL Server, PostgreSQL, Python, Git, статистический анализ, A/B тестирование, машинное обучение
🟢Уровень дохода не указан | 1–3 года

Please open Telegram to view this post

VIEW IN TELEGRAM

3.3K views18:07

Data Science | Machinelearning [ru]

⚙️

Машинное обучение: Логистическая регрессия. Теория и реализация. С нуля

В этой статье я привел базовые сведения о логистической регрессии и показал как сделать модель с нуля на чистом Python. Логистическая функция, обучение, метрики качества для модели классификации, реализация и небольшой разбор обучения весов.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

3.75K views10:07

Data Science | Machinelearning [ru]

⚙️

Что такое модуль shutil в Python и зачем он используется?

Модуль shutil предоставляет функции для работы с файлами и директориями, такие как копирование, перемещение и удаление. Он полезен для автоматизации задач управления файлами.

➡️

Пример:

import shutil

# Копирование файла
shutil.copy('source.txt', 'destination.txt')

# Перемещение файла
shutil.move('destination.txt', 'folder/destination.txt')

🗣️ В этом примере shutil.copy копирует файл, а shutil.move перемещает его в другую директорию. Это облегчает выполнение операций с файлами и папками.

🖥

Подробнее тут

Please open Telegram to view this post

VIEW IN TELEGRAM

3.47K views14:07

Data Science | Machinelearning [ru]

📝

Подборка вакансий для мидлов

Data-аналитик
🟢SQL, базы данных, аналитика данных
🟢от 200 000 до 300 000 ₽ | от 2 лет

Data Analyst (Middle)
🟢SQL, MySQL, Python, базы данных, алгоритмы и структуры данных, Tableau, анализ данных, PowerBI, визуализация
🟢от 200 000 до 250 000 ₽ | от 3 лет

Data Scientist (Скоринг/моделирование)
🟢Python, SQL, Hadoop, машинное обучение
🟢Уровень дохода не указан | от 1 года

Data Scientist (модели PD)
🟢SQL, Python, машинное обучение
🟢Уровень дохода не указан | от 1 года

Please open Telegram to view this post

VIEW IN TELEGRAM

3.48K views18:07

Data Science | Machinelearning [ru]

👀

Sora от OpenAI: принцип работы, примеры видео и сравнение с Runway

Компания OpenAI представила свою ИИ-модель для генерации видео — Sora. В статье обсуждаются ожидания, доступность и сравнительный анализ с конкурентами, такими как Kling AI и Runway Gen-3.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

3.34K views11:37

Data Science | Machinelearning [ru]

👩‍💻

Поиск наиболее часто встречающегося слова в тексте

Напишите функцию, которая принимает текстовую строку и возвращает наиболее часто встречающееся слово и количество его вхождений. Игнорируйте регистр и знаки препинания.

Пример:

text = "Python is great, and Python is fun! Learning Python is rewarding."
result = most_common_word(text)
print(result)
# Ожидаемый результат: ('python', 3)

Решение задачи🔽

import re
from collections import Counter

def most_common_word(text):
words = re.findall(r'\b\w+\b', text.lower())
counter = Counter(words)
return counter.most_common(1)[0]

# Пример использования:
text = "Python is great, and Python is fun! Learning Python is rewarding."
result = most_common_word(text)
print(result)

Please open Telegram to view this post

VIEW IN TELEGRAM

3.35K views14:07

Data Science | Machinelearning [ru]

⚙️ ML в промышленности: как построить систему управления процессом окомкования железорудных окатышей

Статья расскажет, как машинное обучение помогает улучшить процесс производства железорудных окатышей, снизив зависимость от человеческого фактора, и о примерах, когда технологии сталкиваются с реальными проблемами.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

3.33K views18:07

Data Science | Machinelearning [ru]

🎁

Динамическая адаптация награды с помощью Pydantic

Статья рассказывает, как Pydantic помогает бизнесу гибко управлять наградами для пользователей. Описаны преимущества Pydantic в валидации и преобразовании данных по сравнению с dataclass.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

3.33K views10:07

Data Science | Machinelearning [ru]

📝

Подборка вакансий для сеньоров

Data Engineer (Golang)
• Golang, ClickHouse, MySQL, MongoDB, Kubernetes, HTTP/gRPC API, Apache Kafka, Redis
• Уровень дохода не указан | от 3 лет

Data Scientist NLP (портал gosuslugi.ru)
• Python 3, numpy, pandas, scipy, sklearn, PyTorch, NLTK, transformers, FastAPI, Docker, Spark/Hadoop
• Уровень дохода не указан | от 1 года

Senior Data Engineer
• Apache Hadoop, Spark (batch/streaming), Scala, SQL, Parquet, Hive, Kafka, HBase, ClickHouse, PostgreSQL, Airflow, Zeppelin, Jupyter, S3 MinIO
• Уровень дохода не указан | от 5 лет

Senior Python Dev (AI, Big Data, LLM)
• Python, PostgreSQL, Big Data, AI, ML, ClickHouse, Time Series, Go
• от 3 000 $ | от 5 лет

Please open Telegram to view this post

VIEW IN TELEGRAM

3.25K views14:07

Data Science | Machinelearning [ru]

📈

Подборка статей для вашей карьеры

• Эволюция архитектур нейросетей в компьютерном зрении: сегментация изображений

• Заяц не вырастет в акулу. Или секреты гибкой инженерной культуры от Александра Бындю

• Все, пора увольняться: что я поняла после работы в токсичных командах

• Базовое программирование, или Почему джуны не могут пройти к нам собеседование

• Я стал аналитиком, потому что не смог быть программистом

Please open Telegram to view this post

VIEW IN TELEGRAM

3.55K views18:07

Data Science | Machinelearning [ru]

⚙️

Что такое functools.lru_cache в Python и зачем он используется?

functools.lru_cache — это декоратор, который позволяет кэшировать результаты функции для повышения производительности. Он запоминает результаты вызовов функции с определёнными аргументами и возвращает их из кэша при повторных вызовах.

➡️

Пример:

from functools import lru_cache
import time

@lru_cache(maxsize=3)
def slow_function(n):
    time.sleep(2)
    return n * 2

print(slow_function(5))  # Выполняется медленно (2 секунды)
print(slow_function(5))  # Возвращает результат мгновенно из кэша

🗣️ В этом примере функция slow_function кэширует результаты для трёх последних аргументов. Повторный вызов с теми же аргументами возвращает результат мгновенно, ускоряя выполнение.

🖥

Подробнее тут

Please open Telegram to view this post

VIEW IN TELEGRAM

3.43K views14:07

Data Science | Machinelearning [ru]

🔎

Подборка вакансий для лидов

Lead Data Engineer
🟢Scala, SQL, Python, Apache Spark, Airflow, ClickHouse, AWS S3, Kubernetes, PostgreSQL, MySQL, DataHub, Deequ, GitLab CI, Vault, Tableau
🟢Уровень дохода не указан | более 5 лет

Senior/Lead Data Engineer
🟢Python, Java, SQL, Apache Airflow, HBase, YTsaurus, ClickHouse, PostgreSQL, Apache Spark, Apache Flink, Apache Beam, Docker, Kubernetes, GitLab, BI-системы (Apache Superset, Jasperserver)
🟢Уровень дохода не указан | более 2 лет

Team Lead (Python)
🟢Python, FastAPI, SQLAlchemy, PostgreSQL, Kafka, Alembic, GitLab CI, Docker, Kubernetes, GraphQL
🟢Уровень дохода не указан | 3–6 лет

Please open Telegram to view this post

VIEW IN TELEGRAM

3.25K views18:07

Data Science | Machinelearning [ru]

🥽

Инфраструктура для Data-Engineer виртуальные окружения

Статья объясняет, как управлять зависимостями и изолировать проекты в Python. Рассматриваются виртуальные окружения, работа с разными версиями Python, примеры из практики и лучшие подходы для разработки.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

3.4K views10:07

Data Science | Machinelearning [ru]

🔗

Технический долг? Закрывай его по «принципу кафе»

Технический долг копится, как грязная посуда в раковине. Кажется, что решишь его «когда-нибудь», но это «когда-нибудь» не наступает.

👉 Совет: применяй «принцип кафе» — каждый раз, когда работаешь с файлом или модулем, оставь его в лучшем состоянии, чем нашёл. Понемногу рефакторь, добавляй комментарии или улучшай структуру. В итоге долг будет сокращаться без больших затрат времени.

Please open Telegram to view this post

VIEW IN TELEGRAM

3.28K views14:07

Data Science | Machinelearning [ru]

🔎

Подборка зарубежных вакансий

Data Analyst
🟢Excel, Google Sheets, Power BI, Python, SQL, API
🟢от 1 400 до 1 600 $ до вычета налогов | 1–3 года

Head of Data Insight and Partnership (Game Dev)
🟢Research, Insights, Media Relations, Английский C1
🟢до 6 000 $ до вычета налогов | Более 6 лет

Senior Machine Learning Engineer
🟢Python, C++, R, TensorFlow, NumPy, SciPy, Pandas, MongoDB, Elastic, Hadoop, ClickHouse, Ansible, Shell Scripting, Chef
🟢от 5 500 до 7 000 € до вычета налогов | Более 6 лет

DevOps Engineer/Infrastructure Engineer
🟢Linux, Python, Docker, Kubernetes, Bash, CI/CD, Zabbix, C++, MacOS, OSI
🟢от 4 500 до 5 700 $ на руки | 3–6 лет

Please open Telegram to view this post

VIEW IN TELEGRAM

3.48K views18:07

Data Science | Machinelearning [ru]

⚙️

Запускаем 8B LLM в браузере: AQLM.rs

Как запустить Llama 3.1 8B в браузере без GPU? В статье рассказывается о проекте AQLM.rs: инференс на WebAssembly, сжатие модели и запуск на обычном ПК или мобильном устройстве.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

3.29K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Классификация данных с использованием k-Nearest Neighbors (kNN)

Напишите функцию на Python, которая принимает обучающий набор данных, тестовый набор данных и значение 𝑘, а затем использует алгоритм k-ближайших соседей (kNN) для классификации тестовых данных. Функция должна возвращать предсказанные метки для тестового набора данных.

Пример:

import numpy as np

X_train = np.array([[1, 2], [2, 3], [3, 4], [5, 5]])
y_train = np.array([0, 0, 1, 1])
X_test = np.array([[2, 2], [4, 4]])

predictions = knn_classification(X_train, y_train, X_test, k=3)
print(predictions)  # Ожидаемый результат: [0, 1]

Решение задачи🔽

from sklearn.neighbors import KNeighborsClassifier

def knn_classification(X_train, y_train, X_test, k=3):
model = KNeighborsClassifier(n_neighbors=k)
model.fit(X_train, y_train)
return model.predict(X_test)

# Пример использования:
import numpy as np

X_train = np.array([[1, 2], [2, 3], [3, 4], [5, 5]])
y_train = np.array([0, 0, 1, 1])
X_test = np.array([[2, 2], [4, 4]])

predictions = knn_classification(X_train, y_train, X_test, k=3)
print(predictions) # Ожидаемый результат: [0, 1]

Please open Telegram to view this post

VIEW IN TELEGRAM

3.32K views14:07

Data Science | Machinelearning [ru]

🔥

Самые интересные статьи за последние дни:

• Смарт-функции в Алисе: как LLM помогает понять, чего хочет пользователь

• Сбер выкладывает GigaChat Lite в открытый доступ

• История YOLO – самой известной архитектуры компьютерного зрения

• Магия простоты: как мы улучшили отображение общественного транспорта на карте

• Обучение и fine-tuning моделей простым языком: зачем, как, где

Please open Telegram to view this post

VIEW IN TELEGRAM

3.29K views18:07

Data Science | Machinelearning [ru]

🤔

Правда ли, что развитие ИИ замедлилось?

Масштабирование ИИ-систем долго считалось ключом к их развитию. Однако последние отчёты ставят это под сомнение: ROI от увеличения мощности снижается, а гипотеза «чем больше, тем лучше» теряет актуальность.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

3.21K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Поиск подстроки в строках файла

Напишите функцию, которая принимает путь к текстовому файлу и строку для поиска, а затем выводит все строки файла, содержащие эту строку (игнорируя регистр). Если совпадений нет, функция должна вывести сообщение об отсутствии результатов.

Пример:

search_in_file('example.txt', 'python')

• Если в example.txt есть строки, содержащие слово "python" (в любом регистре), они будут напечатаны.

Решение задачи🔽

def search_in_file(file_path, query):
query_lower = query.lower()
found = False

with open(file_path, 'r', encoding='utf-8') as f:
for line in f:
if query_lower in line.lower():
print(line.strip())
found = True

if not found:
print("Ничего не найдено.")

# Пример использования
# search_in_file('example.txt', 'python')

Please open Telegram to view this post

VIEW IN TELEGRAM

3.29K views14:08