Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20.1K subscribers
630 photos
39 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
🔎 Подборка вакансий для лидов

Team Lead Python
🟢Python, Django, Flask, RabbitMQ, Redis, nginx, uwsgi, haproxy, GitLab CI/CD, AWS Thinkbox Deadline
🟢от 350 000 ₽ | 3–6 лет

Team Lead (Python)
🟢Python, FastAPI, SQLAlchemy, PostgreSQL, MongoDB, MeiliSearch, TypeSense, Docker Swarm, Kubernetes, pytest, unittest, Sentry, CI/CD
🟢Уровень дохода не указан | более 6 лет

Tech lead Senior Python developer, релокация в Дубай
🟢Python, PostgreSQL, MySQL
🟢от 6 000 до 8 000 $ | более 6 лет

Tech Lead Python Developer (Внешние интеграции)
🟢Python, FastAPI, Sanic, PostgreSQL, asyncpg, RabbitMQ, aio_pika, Redis
🟢Уровень дохода не указан | 3–6 лет

Lead ML Engineer (Python)
🟢Python, TensorFlow, PyTorch, spaCy, NLTK, Docker, Kubernetes, GitLab, Jenkins
🟢Уровень дохода не указан | 3–6 лет
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔 Практика: мой опыт интеграции более 50 нейронных сетей в один проект

Статья основана на полутора годах работы по внедрению нейронных сетей в веб-приложение с открытым исходным кодом. В ней собраны практические лайфхаки для решения реальных задач и преодоления сложностей, с которыми сталкиваются разработчики.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
😱 Страх ошибки — худший тормоз для роста.

Сколько раз ты избегал нового только потому, что боялся облажаться? Ошибка кажется концом света, но на деле это просто этап обучения. Сидя в зоне уверенности, ты никогда не узнаешь, насколько можешь быть сильнее, умнее, опытнее.

🎯 Что делать: начни с маленьких рисков. Возьми задачу, в которой пока не уверен, или предложи идею на митинге, даже если есть сомнения. Фейлы — это не клеймо, а возможность показать, как ты умеешь справляться и двигаться дальше. Чем раньше примешь это, тем быстрее начнёшь расти.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔎 Подборка валютных вакансий

Middle/Senior Python Developer
🟢Python 3, Django, SQL, NoSQL, Git, Agile
🟢От 2 000 до 3 000 $ | Требуемый опыт: 3–6 лет

Python Developer (Senior/Middle)
🟢Python, Django, VueJS, PostgreSQL, Git, Linux, JavaScript
🟢От 1 200 $ | Требуемый опыт: 3–6 лет

Senior Backend Developer - Python
🟢Python, PostgreSQL, Redis, FastAPI, Flask, Pyramid, SQLAlchemy, Celery, AWS
🟢От 4 000 $ | Требуемый опыт: более 6 лет

Программист Python (нейросети)
🟢Python, искусственный интеллект
🟢От 500 Br | Требуемый опыт: 1–3 года

ML-инженер для разработки переводчика
🟢Python, PyTorch, Scikit-learn, Numpy, FastAPI, NLP, трансформеры (BERT, GPT, Claude), Git
🟢От 1 000 $ | Требуемый опыт: 1–3 года
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️ Путь разметки данных для NER: от Open Source до Prodigy

Статья посвящена созданию обучающей выборки для NER. Описан опыт разметки данных с использованием Open Source инструментов и Prodigy, профессионального решения для ускорения процесса создания наборов данных.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
👩‍💻 Задачка по Python

Напишите Python-скрипт, который принимает путь к большому CSV-файлу и подсчитывает количество строк (записей) в файле без загрузки его целиком в память. Скрипт должен быть оптимизирован для работы с большими файлами.

➡️ Пример:

python count_rows.py large_file.csv
Количество строк: 3


Решение задачи ⬇️

import csv
import sys

def count_rows(file_path):
with open(file_path, 'r', encoding='utf-8') as file:
reader = csv.reader(file)
# Используем enumerate для подсчёта строк, исключая заголовок
row_count = sum(1 for _ in reader) - 1 # Минус 1 для исключения заголовка
return row_count

if __name__ == "__main__":
if len(sys.argv) < 2:
print("Использование: python count_rows.py <file_path>")
sys.exit(1)

file_path = sys.argv[1]
try:
result = count_rows(file_path)
print(f"Количество строк: {result}")
except Exception as e:
print(f"Ошибка: {e}")
Please open Telegram to view this post
VIEW IN TELEGRAM
🖥 Руководство по созданию приложения для поиска данных на основе агента GraphRAG

Статья описывает приложение, объединяющее GraphRAG и AutoGen-агентов с локальными LLM от Ollama для автономного встраивания и вывода. Рассмотрены ключевые аспекты: интеграция знаний, настройка LLM, вызов функций и интерактивный интерфейс.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
👩‍💻 Задачка по Python

Напишите функцию, которая принимает DataFrame и заменяет отсутствующие значения (NaN) в каждом числовом столбце на среднее значение этого столбца. Если столбец содержит только NaN, оставьте его без изменений.

➡️ Пример:

   feature1  feature2  feature3
0 1.0 10.0 NaN
1 2.0 NaN NaN
2 NaN 30.0 NaN
3 4.0 40.0 NaN

feature1 feature2 feature3
0 1.00 10.0 NaN
1 2.00 26.7 NaN
2 2.33 30.0 NaN
3 4.00 40.0 NaN


Решение задачи ⬇️

import pandas as pd

def fill_missing_with_mean(df):
numeric_columns = df.select_dtypes(include=['float', 'int'])
for column in numeric_columns:
if df[column].notna().any(): # Проверяем, есть ли значения не NaN
df[column] = df[column].fillna(df[column].mean())
return df

# Пример использования:
data = pd.DataFrame({
'feature1': [1.0, 2.0, None, 4.0],
'feature2': [10.0, None, 30.0, 40.0],
'feature3': [None, None, None, None]
})

result = fill_missing_with_mean(data)
print(result)
Please open Telegram to view this post
VIEW IN TELEGRAM
🔎 Подборка вакансий для джунов

Backend-тестировщик-программист (Python)
🟢Python, Swagger, REST API, JMeter, Postman, TMS, Git, Linux, Docker, CI/CD
🟢Уровень дохода не указан | Опыт 1–3 года

Аналитик данных / Data analyst (junior)
🟢SQL, Python, DataLens, Tableau, Power BI, Jupyter Notebook
🟢до 120 000 ₽ | Опыт 1–3 года

Junior Data Engineer
🟢SQL, Python, PySpark, Airflow, PostgreSQL, Git, Yandex Cloud
🟢до 120 000 ₽ | Опыт 1–3 года

AI-разработчик junior
🟢Python, Keras, TensorFlow, PyTorch, Git, Linux
🟢от 30 000 до 40 000 ₽ | Без опыта

Junior Python Backend Developer
🟢Python, ROS, Docker, GitLab, Jira, Confluence, Ubuntu
🟢Уровень дохода не указан | Опыт 1–3 года
Please open Telegram to view this post
VIEW IN TELEGRAM
⚙️ Умножение троичных матриц для нейросетей

Статья исследует использование троичных значений (-1, 0, 1) в нейросетевых матрицах. Рассматриваются методы хранения тритов с использованием 32-битной арифметики и подходы к их быстрому умножению через оптимизацию памяти.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
Что такое Overfitting и как его избежать в моделях машинного обучения?

Overfitting (переобучение) возникает, когда модель слишком хорошо запоминает обучающие данные, включая шум, и теряет способность обобщать информацию на новых данных. Это приводит к высокому качеству на обучающем наборе, но плохим результатам на тестовых данных.

➡️ Основные способы предотвращения Overfitting:

1. Регуляризация:
• L1 и L2-регуляризация добавляют штраф к сложным моделям.
• Уменьшают коэффициенты модели, предотвращая избыточное подстраивание.

2. Dropout (для нейронных сетей):
• Исключение случайных нейронов на этапе обучения.

3. Снижение сложности модели:
• Использование меньшего числа признаков или более простых алгоритмов.

4. Увеличение данных:
• Генерация новых данных или увеличение объёма обучающей выборки.


➡️ Пример:

from sklearn.linear_model import Ridge
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_diabetes

# Загружаем данные
data = load_diabetes()
X_train, X_test, y_train, y_test = train_test_split(data.data, data.target, test_size=0.2, random_state=42)

# Создаём модель с регуляризацией (Ridge)
ridge = Ridge(alpha=1.0)
ridge.fit(X_train, y_train)

# Оцениваем качество
train_score = ridge.score(X_train, y_train)
test_score = ridge.score(X_test, y_test)
print(f"Train Score: {train_score}, Test Score: {test_score}")


🗣️ В этом примере Ridge-регрессия с параметром регуляризации alpha=1.0 помогает предотвратить переобучение, улучшая обобщающую способность модели.

🖥 Подробнее тут
Please open Telegram to view this post
VIEW IN TELEGRAM
🔎 Подборка вакансий для мидлов

ML-инженер в IT-Хаб
🟢Python, PyTorch, Jax, TensorFlow, Linux, Git, Bash, Docker
🟢Уровень дохода не указан | 1–3 года

ML-инженер/engineer в финтех гигант
🟢Python, PyTorch, Jax, TensorFlow, Linux, Git, Bash, Docker
🟢Уровень дохода не указан | 1–3 года

Python-разработчик
🟢Python, REST API, gRPC, GraphQL, PostgreSQL, MongoDB, Linux, Docker, CI/CD
🟢Уровень дохода не указан | 3–6 лет

Middle Data Scientist MLE
🟢Python (numpy, scipy, pandas, sklearn, catboost, pytorch), SQL (Clickhouse, PostgreSQL)
🟢от 200 000 до 350 000 ₽ | 1–3 года

Middle Data инженер
🟢Python, SQL, PostgreSQL, ClickHouse, Apache Airflow, dbt, Docker, Git
🟢Уровень дохода не указан | от 1 года
Please open Telegram to view this post
VIEW IN TELEGRAM
🤖 Как развернуть LLM с помощью vLLM и TorchServe

Хочешь запустить большую языковую модель в продакшене, но не знаешь, как совместить простоту развертывания с промышленной надежностью? Комбинация vLLM и TorchServe решает эту задачу. Она обеспечивает как простой запуск, так и продвинутые возможности для масштабирования.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
👩‍💻 Задачка по Python

Напишите скрипт, который удаляет дублирующиеся строки из CSV-файла на основе указанного столбца и сохраняет результат в новый файл.

➡️ Пример:

python remove_duplicates.py input.csv output.csv column_name
id,name,age
1,John,30
2,Jane,25
4,Bob,35


Решение задачи ⬇️

import pandas as pd
import sys

if len(sys.argv) < 4:
print("Использование: python remove_duplicates.py <input_file> <output_file> <column_name>")
sys.exit(1)

input_file = sys.argv[1]
output_file = sys.argv[2]
column_name = sys.argv[3]

try:
df = pd.read_csv(input_file)
df = df.drop_duplicates(subset=[column_name])
df.to_csv(output_file, index=False)
print(f"Дубликаты удалены. Результат сохранён в {output_file}")
except Exception as e:
print(f"Ошибка: {e}")
Please open Telegram to view this post
VIEW IN TELEGRAM
✔️ Как нейросети меняют работу дизайнеров

Статья раскрывает, как дизайнеры студии используют ИИ для усиления креативности в проектах. Обсуждаются инструменты и подходы, которые помогают сохранить индивидуальность и создать продуманный дизайн с помощью нейросетей.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
🔎 Подборка вакансий для сеньоров

Data Scientist / Дата сайентист
🟢Python, SQL, Git, Docker, Airflow
🟢от 250 000 до 300 000 ₽ на руки | 3–6 лет

Middle/Senior Python Developer
🟢Python, Django, FastAPI, Flask, PostgreSQL, MongoDB, Redis, AWS, Google Cloud, Microsoft Azure, Kafka, RabbitMQ
🟢Уровень дохода не указан | 1–3 года

Senior ML Engineer (NLP, TTS)
🟢Deep Learning, NLP, TTS, CV, Python
🟢до 15 000 $ на руки | более 6 лет

ML Engineer / Senior Data Scientist
🟢Python, PyTorch, TensorFlow, Airflow, PySpark, ONNX, NumPy, SQL, Docker
🟢Уровень дохода не указан | 3–6 лет

Data Analyst (Antifraud)
🟢Python, Pandas, NumPy, SciPy, ClickHouse, PostgreSQL, MySQL, Redash, Superset
🟢Уровень дохода не указан | 3–6 лет
Please open Telegram to view this post
VIEW IN TELEGRAM
✔️ 30k аудиозаписей: наводим порядок

Статья рассказывает, как организовать и обработать огромный архив аудиозаписей дневников, созданных задолго до эпохи современных speech-to-text технологий. Рассматриваются инструменты и подходы для упорядочивания данных.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
🕵️‍♂️ Когда твоя работа зависит от Василия

Задача вроде простая, но всё стопорится, потому что «это знает только Василий, он тут со времён динозавров». Никакой документации, только магия в его голове. В итоге — пока он не ответит, ты зависаешь, а проект буксует. Звучит знакомо?

⚙️ Если так, пора разорвать этот порочный круг. Вместо бесконечных вопросов начни собирать всё в одну базу знаний — хоть в Notion, хоть на салфетках. Предложи команде попробовать парное программирование: пока Василий творит чудеса, ты уже разбираешься, как эти фокусы повторить.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔎 Подборка вакансий для лидов

Python Lead
🟢Python 3, FastAPI, Django, Streamlit, Pandas, Numpy, SciPy, PostgreSQL, Apache Kafka
🟢Уровень дохода не указан | 3–6 лет

Lead Python Developer
🟢Python, FastAPI
🟢Уровень дохода не указан | 3–6 лет

Data Analyst Team Lead
🟢SQL (PostgreSQL, Clickhouse), Python, Tableau
🟢Уровень дохода не указан | более 6 лет

Lead Data Engineer
🟢Scala, Python, SQL, ClickHouse, PostgreSQL, MySQL, Apache Spark, Apache Airflow, AWS S3, Kubernetes, Docker, GitLab CI, Tableau
🟢Уровень дохода не указан | более 6 лет

Python Backend Developer (AI)
🟢Python, Flask, SQL, Docker, AWS, Azure, GCP, Yandex.Cloud
🟢от 250 000 ₽ на руки | 3–6 лет
Please open Telegram to view this post
VIEW IN TELEGRAM