NEW BOT Телеграм, страница - 739862386

Data Science | Machinelearning [ru]

20.2K subscribers

673 photos

41 videos

29 files

3.56K links

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD

Download Telegram

About

Blog

Apps

Platform

Data Science | Machinelearning [ru]

20.2K subscribers

Data Science | Machinelearning [ru]

👩‍💻

Задачка по Python

Напишите функцию, которая принимает DataFrame и заменяет отсутствующие значения (NaN) в каждом числовом столбце на среднее значение этого столбца. Если столбец содержит только NaN, оставьте его без изменений.

➡️ Пример:

   feature1  feature2  feature3
0       1.0      10.0       NaN
1       2.0       NaN       NaN
2       NaN      30.0       NaN
3       4.0      40.0       NaN

   feature1  feature2  feature3
0      1.00      10.0       NaN
1      2.00      26.7       NaN
2      2.33      30.0       NaN
3      4.00      40.0       NaN

Решение задачи ⬇️

import pandas as pd

def fill_missing_with_mean(df):
numeric_columns = df.select_dtypes(include=['float', 'int'])
for column in numeric_columns:
if df[column].notna().any(): # Проверяем, есть ли значения не NaN
df[column] = df[column].fillna(df[column].mean())
return df

# Пример использования:
data = pd.DataFrame({
'feature1': [1.0, 2.0, None, 4.0],
'feature2': [10.0, None, 30.0, 40.0],
'feature3': [None, None, None, None]
})

result = fill_missing_with_mean(data)
print(result)

Please open Telegram to view this post

VIEW IN TELEGRAM

2.53K views14:07

Data Science | Machinelearning [ru]

🔎

Подборка вакансий для джунов

Backend-тестировщик-программист (Python)
🟢Python, Swagger, REST API, JMeter, Postman, TMS, Git, Linux, Docker, CI/CD
🟢Уровень дохода не указан | Опыт 1–3 года

Аналитик данных / Data analyst (junior)
🟢SQL, Python, DataLens, Tableau, Power BI, Jupyter Notebook
🟢до 120 000 ₽ | Опыт 1–3 года

Junior Data Engineer
🟢SQL, Python, PySpark, Airflow, PostgreSQL, Git, Yandex Cloud
🟢до 120 000 ₽ | Опыт 1–3 года

AI-разработчик junior
🟢Python, Keras, TensorFlow, PyTorch, Git, Linux
🟢от 30 000 до 40 000 ₽ | Без опыта

Junior Python Backend Developer
🟢Python, ROS, Docker, GitLab, Jira, Confluence, Ubuntu
🟢Уровень дохода не указан | Опыт 1–3 года

Please open Telegram to view this post

VIEW IN TELEGRAM

2.75K views18:07

Data Science | Machinelearning [ru]

⚙️

Умножение троичных матриц для нейросетей

Статья исследует использование троичных значений (-1, 0, 1) в нейросетевых матрицах. Рассматриваются методы хранения тритов с использованием 32-битной арифметики и подходы к их быстрому умножению через оптимизацию памяти.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

2.56K views10:07

Data Science | Machinelearning [ru]

❓

Что такое Overfitting и как его избежать в моделях машинного обучения?

Overfitting (переобучение) возникает, когда модель слишком хорошо запоминает обучающие данные, включая шум, и теряет способность обобщать информацию на новых данных. Это приводит к высокому качеству на обучающем наборе, но плохим результатам на тестовых данных.

➡️

Основные способы предотвращения Overfitting:

1. Регуляризация:
• L1 и L2-регуляризация добавляют штраф к сложным моделям.
• Уменьшают коэффициенты модели, предотвращая избыточное подстраивание.

2. Dropout (для нейронных сетей):
• Исключение случайных нейронов на этапе обучения.

3. Снижение сложности модели:
• Использование меньшего числа признаков или более простых алгоритмов.

4. Увеличение данных:
• Генерация новых данных или увеличение объёма обучающей выборки.

➡️

Пример:

from sklearn.linear_model import Ridge
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_diabetes

# Загружаем данные
data = load_diabetes()
X_train, X_test, y_train, y_test = train_test_split(data.data, data.target, test_size=0.2, random_state=42)

# Создаём модель с регуляризацией (Ridge)
ridge = Ridge(alpha=1.0)
ridge.fit(X_train, y_train)

# Оцениваем качество
train_score = ridge.score(X_train, y_train)
test_score = ridge.score(X_test, y_test)
print(f"Train Score: {train_score}, Test Score: {test_score}")

🗣️ В этом примере Ridge-регрессия с параметром регуляризации alpha=1.0 помогает предотвратить переобучение, улучшая обобщающую способность модели.

🖥

Подробнее тут

Please open Telegram to view this post

VIEW IN TELEGRAM

2.64K viewsedited 14:07

Data Science | Machinelearning [ru]

🔎

Подборка вакансий для мидлов

ML-инженер в IT-Хаб
🟢Python, PyTorch, Jax, TensorFlow, Linux, Git, Bash, Docker
🟢Уровень дохода не указан | 1–3 года

ML-инженер/engineer в финтех гигант
🟢Python, PyTorch, Jax, TensorFlow, Linux, Git, Bash, Docker
🟢Уровень дохода не указан | 1–3 года

Python-разработчик
🟢Python, REST API, gRPC, GraphQL, PostgreSQL, MongoDB, Linux, Docker, CI/CD
🟢Уровень дохода не указан | 3–6 лет

Middle Data Scientist MLE
🟢Python (numpy, scipy, pandas, sklearn, catboost, pytorch), SQL (Clickhouse, PostgreSQL)
🟢от 200 000 до 350 000 ₽ | 1–3 года

Middle Data инженер
🟢Python, SQL, PostgreSQL, ClickHouse, Apache Airflow, dbt, Docker, Git
🟢Уровень дохода не указан | от 1 года

Please open Telegram to view this post

VIEW IN TELEGRAM

2.59K views18:07

Data Science | Machinelearning [ru]

🤖

Как развернуть LLM с помощью vLLM и TorchServe

Хочешь запустить большую языковую модель в продакшене, но не знаешь, как совместить простоту развертывания с промышленной надежностью? Комбинация vLLM и TorchServe решает эту задачу. Она обеспечивает как простой запуск, так и продвинутые возможности для масштабирования.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

2.62K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Задачка по Python

Напишите скрипт, который удаляет дублирующиеся строки из CSV-файла на основе указанного столбца и сохраняет результат в новый файл.

➡️ Пример:

python remove_duplicates.py input.csv output.csv column_name
id,name,age
1,John,30
2,Jane,25
4,Bob,35

Решение задачи ⬇️

import pandas as pd
import sys

if len(sys.argv) < 4:
print("Использование: python remove_duplicates.py <input_file> <output_file> <column_name>")
sys.exit(1)

input_file = sys.argv[1]
output_file = sys.argv[2]
column_name = sys.argv[3]

try:
df = pd.read_csv(input_file)
df = df.drop_duplicates(subset=[column_name])
df.to_csv(output_file, index=False)
print(f"Дубликаты удалены. Результат сохранён в {output_file}")
except Exception as e:
print(f"Ошибка: {e}")

Please open Telegram to view this post

VIEW IN TELEGRAM

2.71K views14:07

Data Science | Machinelearning [ru]

🔥

Самые интересные статьи за последние дни:

• Не бойтесь потоков в Python, они не кусаются

• Рубрика: VPS на пределе возможностей. LLM на CPU с 12Gb RAM

• Предвзятость русскоязычных LLM: кого машина считает «обычным человеком»?

• Семантический веб: краткий обзор технологий и инструментов

• Инструмент обеспечения качества данных: от теории к практике

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

2.6K views18:07

Data Science | Machinelearning [ru]

✔️

Как нейросети меняют работу дизайнеров

Статья раскрывает, как дизайнеры студии используют ИИ для усиления креативности в проектах. Обсуждаются инструменты и подходы, которые помогают сохранить индивидуальность и создать продуманный дизайн с помощью нейросетей.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

2.56K views10:07

Data Science | Machinelearning [ru]

🔎

Подборка вакансий для сеньоров

Data Scientist / Дата сайентист
🟢Python, SQL, Git, Docker, Airflow
🟢от 250 000 до 300 000 ₽ на руки | 3–6 лет

Middle/Senior Python Developer
🟢Python, Django, FastAPI, Flask, PostgreSQL, MongoDB, Redis, AWS, Google Cloud, Microsoft Azure, Kafka, RabbitMQ
🟢Уровень дохода не указан | 1–3 года

Senior ML Engineer (NLP, TTS)
🟢Deep Learning, NLP, TTS, CV, Python
🟢до 15 000 $ на руки | более 6 лет

ML Engineer / Senior Data Scientist
🟢Python, PyTorch, TensorFlow, Airflow, PySpark, ONNX, NumPy, SQL, Docker
🟢Уровень дохода не указан | 3–6 лет

Data Analyst (Antifraud)
🟢Python, Pandas, NumPy, SciPy, ClickHouse, PostgreSQL, MySQL, Redash, Superset
🟢Уровень дохода не указан | 3–6 лет

Please open Telegram to view this post

VIEW IN TELEGRAM

2.65K views18:07

Data Science | Machinelearning [ru]

✔️

30k аудиозаписей: наводим порядок

Статья рассказывает, как организовать и обработать огромный архив аудиозаписей дневников, созданных задолго до эпохи современных speech-to-text технологий. Рассматриваются инструменты и подходы для упорядочивания данных.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

2.65K views10:07

Data Science | Machinelearning [ru]

🕵️‍♂️ Когда твоя работа зависит от Василия

Задача вроде простая, но всё стопорится, потому что «это знает только Василий, он тут со времён динозавров». Никакой документации, только магия в его голове. В итоге — пока он не ответит, ты зависаешь, а проект буксует. Звучит знакомо?

⚙️

Если так, пора разорвать этот порочный круг. Вместо бесконечных вопросов начни собирать всё в одну базу знаний — хоть в Notion, хоть на салфетках. Предложи команде попробовать парное программирование: пока Василий творит чудеса, ты уже разбираешься, как эти фокусы повторить.

Please open Telegram to view this post

VIEW IN TELEGRAM

2.58K views14:07

Data Science | Machinelearning [ru]

🔎

Подборка вакансий для лидов

Python Lead
🟢Python 3, FastAPI, Django, Streamlit, Pandas, Numpy, SciPy, PostgreSQL, Apache Kafka
🟢Уровень дохода не указан | 3–6 лет

Lead Python Developer
🟢Python, FastAPI
🟢Уровень дохода не указан | 3–6 лет

Data Analyst Team Lead
🟢SQL (PostgreSQL, Clickhouse), Python, Tableau
🟢Уровень дохода не указан | более 6 лет

Lead Data Engineer
🟢Scala, Python, SQL, ClickHouse, PostgreSQL, MySQL, Apache Spark, Apache Airflow, AWS S3, Kubernetes, Docker, GitLab CI, Tableau
🟢Уровень дохода не указан | более 6 лет

Python Backend Developer (AI)
🟢Python, Flask, SQL, Docker, AWS, Azure, GCP, Yandex.Cloud
🟢от 250 000 ₽ на руки | 3–6 лет

Please open Telegram to view this post

VIEW IN TELEGRAM

2.73K views18:07

Data Science | Machinelearning [ru]

🤔

Прогнозирование продаж с использованием библиотеки Prophet

Статья посвящена прогнозированию продаж FTTB-FMC для ежедневной отчетности. Рассматриваются подходы к анализу данных, ключевые KPI и методы, используемые для прогнозирования продаж в сегменте ШПД и конвергентных продуктов.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

2.7K views10:07

Data Science | Machinelearning [ru]

⚙️

Что такое декораторы в Python и как они работают?

Декораторы — это функции в Python, которые принимают другую функцию в качестве аргумента и возвращают новую функцию с добавленным поведением. Это удобный способ модификации или расширения функциональности без изменения исходного кода функции.

➡️

Пример:

# Декоратор для логирования вызовов функции
def log_call(func):
    def wrapper(*args, **kwargs):
        print(f"Вызов функции {func.__name__} с аргументами: {args}, {kwargs}")
        result = func(*args, **kwargs)
        print(f"Результат: {result}")
        return result
    return wrapper

# Применение декоратора
@log_call
def add(a, b):
    return a + b

add(3, 5)

🗣️ В этом примере декоратор log_call добавляет логирование вызовов и результатов функции add. Декораторы позволяют делать код более модульным и удобным для повторного использования.

🖥

Подробнее тут

Please open Telegram to view this post

VIEW IN TELEGRAM

2.81K views14:07

Data Science | Machinelearning [ru]

🔎

Подборка зарубежных вакансий

Продакт Разработчик Python AI (удаленно)
🟢Python, Node.js, React, PostgreSQL, JavaScript, TypeScript, Django Framework, Redux
🟢от 1 900 до 2 700 $ до вычета налогов | 3–6 лет

QA automation team lead (Python)
🟢Python, QA, BDD, Selenium
🟢до 4 000 $ до вычета налогов | 3–6 лет

Founding NLP/LLM/AI Engineer
🟢Python, LLM, NLP, AI, RAG, NER
🟢от 4 000 до 7 000 $ до вычета налогов | 3–6 лет

Senior Python Developer
🟢Python, Flask, REST, API, JavaScript, MySQL, GitHub, Celery, Django, Linux, PHP, Java, Django Framework, Bash, Redis, Frontend, Backend, REST API, PostgreSQL, Unit Testing, jQuery, Ansible, Clickhouse, Gitlab, FastAPI, RestAPI, SQL, Git
🟢Уровень дохода не указан | 3–6 лет

Senior DevOps Engineer
🟢Docker, Bash, Git, Английский язык, AWS, Kubernetes, Terraform, Jenkins, Gitlab, Grafana, ELK, Linux, Python
🟢от 6 000 до 7 000 $ на руки | более 6 лет

Please open Telegram to view this post

VIEW IN TELEGRAM

3.06K views18:07

Data Science | Machinelearning [ru]

⚙️

Инфраструктура для Data-Engineer BI-tools

В этой статье я хотел бы показать куда уходят данные и что с ними происходит, когда пайплайны дата-инженеров заканчивают работу.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

3.02K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Задачка по Python

Напишите функцию, которая принимает строку и возвращает новую строку, из которой удалены все гласные буквы (a, e, i, o, u в любом регистре).

➡️ Пример:

print(remove_vowels("Hello World"))  # Ожидаемый результат: "Hll Wrld"
print(remove_vowels("Python is great"))  # Ожидаемый результат: "Pythn s grt"

Решение задачи ⬇️

def remove_vowels(s):
vowels = "aeiouAEIOU"
return ''.join(char for char in s if char not in vowels)

# Пример использования:
print(remove_vowels("Hello World")) # Ожидаемый результат: "Hll Wrld"
print(remove_vowels("Python is great")) # Ожидаемый результат: "Pythn s grt"

Please open Telegram to view this post

VIEW IN TELEGRAM

3.12K views14:07

Data Science | Machinelearning [ru]

✔️

Big Data мертвы, да здравствуют Smart Data

Давайте рассмотрим концепцию Smart Data и выясним, действительно ли Big Data превращаются во что-то более интеллектуальное.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

3.19K views18:07

Data Science | Machinelearning [ru]

🔥

Дообучаем языковую модель GPT2 с помощью Torch

Статья углубляется в дообучение языковых моделей, используя DistilGPT2 на данных QuyenAnhDE/Diseases_Symptoms. Рассматривается процесс настройки модели для генерации симптомов на основе заболеваний, с возможностью расширения логики.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

3.39K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Задачка по Python

Напишите функцию, которая принимает текст и возвращает наиболее часто встречающееся слово. Игнорируйте регистр и знаки препинания.

➡️ Пример:

text = "Data science is fun. Science makes data fun, and data makes science better."
print(most_frequent_word(text))  
# Ожидаемый результат: "data"

Решение задачи ⬇️

import re
from collections import Counter

def most_frequent_word(text):
# Убираем знаки препинания и приводим текст к нижнему регистру
words = re.findall(r'\b\w+\b', text.lower())
# Подсчитываем частоту слов
word_counts = Counter(words)
# Возвращаем слово с максимальной частотой
return word_counts.most_common(1)[0][0]

# Пример использования:
text = "Data science is fun. Science makes data fun, and data makes science better."
print(most_frequent_word(text))

Please open Telegram to view this post

VIEW IN TELEGRAM

3.44K views14:07