Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20.1K subscribers
630 photos
39 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
🔎 Подборка вакансий для сеньоров

Senior backend developer - Python
🟢Python, PostgreSQL, Redis, FastAPI, Flask, Pyramid, SQLAlchemy, Celery, pydantic
🟢от 4 000 $ | 3–6 лет

Backend Python Developer (FastAPI, Highload)
🟢Python 3.10-3.12, FastAPI, PostgreSQL, Redis, Docker, GraphQL, Kafka, Airflow, Elasticsearch
🟢до 390 000 ₽ | 3–6 лет

Разработчик Python (Django, DRF)
🟢Python, Django, DRF, PostgreSQL, SQL, CSS, Git, RabbitMQ
🟢150 000 – 220 000 ₽ | 3–6 лет

Data Scientist (middle/senior)
🟢Python, Spark, SQL, Machine Learning, pandas, PySpark, Hadoop, Hive, Big Data
🟢до 450 000 ₽ | 3–6 лет

Senior Data Engineer
🟢Python, SQL, Apache Kafka, DWH, OLAP, Greenplum, Clickhouse, Airflow
🟢350 000 – 450 000 ₽ | от 4 лет
Please open Telegram to view this post
VIEW IN TELEGRAM
👩‍💻 Разрабатываем первое AI приложение

Статья анализирует роль языка и цифровизации в накоплении и передаче знаний. Обсуждаются вызовы структурирования данных, которые, несмотря на успехи машинного обучения и реляционных баз, всё ещё затрудняют полное понимание накопленной информации.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
👩‍💻 Как работает модуль os в Python для работы с файловой системой?

Модуль os в Python предоставляет инструменты для взаимодействия с операционной системой. С его помощью можно управлять файлами и директориями, получать информацию о системе и переменных окружения, а также выполнять системные команды. Этот модуль особенно полезен для кроссплатформенных сценариев.

➡️ Пример:

import os

# Получение текущей директории
current_dir = os.getcwd()
print('Текущая директория:', current_dir)

# Создание новой директории
os.mkdir('new_folder')
print('Создана директория new_folder')


🗣 os позволяет удобно и кроссплатформенно работать с файловой системой, выполнять команды и настраивать окружение.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔎 Подборка вакансий для лидов

Team Lead Python
🟢Python, Django, Flask, RabbitMQ, Redis, nginx, uwsgi, haproxy, GitLab CI/CD, AWS Thinkbox Deadline
🟢от 350 000 ₽ | 3–6 лет

Team Lead (Python)
🟢Python, FastAPI, SQLAlchemy, PostgreSQL, MongoDB, MeiliSearch, TypeSense, Docker Swarm, Kubernetes, pytest, unittest, Sentry, CI/CD
🟢Уровень дохода не указан | более 6 лет

Tech lead Senior Python developer, релокация в Дубай
🟢Python, PostgreSQL, MySQL
🟢от 6 000 до 8 000 $ | более 6 лет

Tech Lead Python Developer (Внешние интеграции)
🟢Python, FastAPI, Sanic, PostgreSQL, asyncpg, RabbitMQ, aio_pika, Redis
🟢Уровень дохода не указан | 3–6 лет

Lead ML Engineer (Python)
🟢Python, TensorFlow, PyTorch, spaCy, NLTK, Docker, Kubernetes, GitLab, Jenkins
🟢Уровень дохода не указан | 3–6 лет
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔 Практика: мой опыт интеграции более 50 нейронных сетей в один проект

Статья основана на полутора годах работы по внедрению нейронных сетей в веб-приложение с открытым исходным кодом. В ней собраны практические лайфхаки для решения реальных задач и преодоления сложностей, с которыми сталкиваются разработчики.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
😱 Страх ошибки — худший тормоз для роста.

Сколько раз ты избегал нового только потому, что боялся облажаться? Ошибка кажется концом света, но на деле это просто этап обучения. Сидя в зоне уверенности, ты никогда не узнаешь, насколько можешь быть сильнее, умнее, опытнее.

🎯 Что делать: начни с маленьких рисков. Возьми задачу, в которой пока не уверен, или предложи идею на митинге, даже если есть сомнения. Фейлы — это не клеймо, а возможность показать, как ты умеешь справляться и двигаться дальше. Чем раньше примешь это, тем быстрее начнёшь расти.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔎 Подборка валютных вакансий

Middle/Senior Python Developer
🟢Python 3, Django, SQL, NoSQL, Git, Agile
🟢От 2 000 до 3 000 $ | Требуемый опыт: 3–6 лет

Python Developer (Senior/Middle)
🟢Python, Django, VueJS, PostgreSQL, Git, Linux, JavaScript
🟢От 1 200 $ | Требуемый опыт: 3–6 лет

Senior Backend Developer - Python
🟢Python, PostgreSQL, Redis, FastAPI, Flask, Pyramid, SQLAlchemy, Celery, AWS
🟢От 4 000 $ | Требуемый опыт: более 6 лет

Программист Python (нейросети)
🟢Python, искусственный интеллект
🟢От 500 Br | Требуемый опыт: 1–3 года

ML-инженер для разработки переводчика
🟢Python, PyTorch, Scikit-learn, Numpy, FastAPI, NLP, трансформеры (BERT, GPT, Claude), Git
🟢От 1 000 $ | Требуемый опыт: 1–3 года
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️ Путь разметки данных для NER: от Open Source до Prodigy

Статья посвящена созданию обучающей выборки для NER. Описан опыт разметки данных с использованием Open Source инструментов и Prodigy, профессионального решения для ускорения процесса создания наборов данных.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
👩‍💻 Задачка по Python

Напишите Python-скрипт, который принимает путь к большому CSV-файлу и подсчитывает количество строк (записей) в файле без загрузки его целиком в память. Скрипт должен быть оптимизирован для работы с большими файлами.

➡️ Пример:

python count_rows.py large_file.csv
Количество строк: 3


Решение задачи ⬇️

import csv
import sys

def count_rows(file_path):
with open(file_path, 'r', encoding='utf-8') as file:
reader = csv.reader(file)
# Используем enumerate для подсчёта строк, исключая заголовок
row_count = sum(1 for _ in reader) - 1 # Минус 1 для исключения заголовка
return row_count

if __name__ == "__main__":
if len(sys.argv) < 2:
print("Использование: python count_rows.py <file_path>")
sys.exit(1)

file_path = sys.argv[1]
try:
result = count_rows(file_path)
print(f"Количество строк: {result}")
except Exception as e:
print(f"Ошибка: {e}")
Please open Telegram to view this post
VIEW IN TELEGRAM
🖥 Руководство по созданию приложения для поиска данных на основе агента GraphRAG

Статья описывает приложение, объединяющее GraphRAG и AutoGen-агентов с локальными LLM от Ollama для автономного встраивания и вывода. Рассмотрены ключевые аспекты: интеграция знаний, настройка LLM, вызов функций и интерактивный интерфейс.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
👩‍💻 Задачка по Python

Напишите функцию, которая принимает DataFrame и заменяет отсутствующие значения (NaN) в каждом числовом столбце на среднее значение этого столбца. Если столбец содержит только NaN, оставьте его без изменений.

➡️ Пример:

   feature1  feature2  feature3
0 1.0 10.0 NaN
1 2.0 NaN NaN
2 NaN 30.0 NaN
3 4.0 40.0 NaN

feature1 feature2 feature3
0 1.00 10.0 NaN
1 2.00 26.7 NaN
2 2.33 30.0 NaN
3 4.00 40.0 NaN


Решение задачи ⬇️

import pandas as pd

def fill_missing_with_mean(df):
numeric_columns = df.select_dtypes(include=['float', 'int'])
for column in numeric_columns:
if df[column].notna().any(): # Проверяем, есть ли значения не NaN
df[column] = df[column].fillna(df[column].mean())
return df

# Пример использования:
data = pd.DataFrame({
'feature1': [1.0, 2.0, None, 4.0],
'feature2': [10.0, None, 30.0, 40.0],
'feature3': [None, None, None, None]
})

result = fill_missing_with_mean(data)
print(result)
Please open Telegram to view this post
VIEW IN TELEGRAM
🔎 Подборка вакансий для джунов

Backend-тестировщик-программист (Python)
🟢Python, Swagger, REST API, JMeter, Postman, TMS, Git, Linux, Docker, CI/CD
🟢Уровень дохода не указан | Опыт 1–3 года

Аналитик данных / Data analyst (junior)
🟢SQL, Python, DataLens, Tableau, Power BI, Jupyter Notebook
🟢до 120 000 ₽ | Опыт 1–3 года

Junior Data Engineer
🟢SQL, Python, PySpark, Airflow, PostgreSQL, Git, Yandex Cloud
🟢до 120 000 ₽ | Опыт 1–3 года

AI-разработчик junior
🟢Python, Keras, TensorFlow, PyTorch, Git, Linux
🟢от 30 000 до 40 000 ₽ | Без опыта

Junior Python Backend Developer
🟢Python, ROS, Docker, GitLab, Jira, Confluence, Ubuntu
🟢Уровень дохода не указан | Опыт 1–3 года
Please open Telegram to view this post
VIEW IN TELEGRAM
⚙️ Умножение троичных матриц для нейросетей

Статья исследует использование троичных значений (-1, 0, 1) в нейросетевых матрицах. Рассматриваются методы хранения тритов с использованием 32-битной арифметики и подходы к их быстрому умножению через оптимизацию памяти.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
Что такое Overfitting и как его избежать в моделях машинного обучения?

Overfitting (переобучение) возникает, когда модель слишком хорошо запоминает обучающие данные, включая шум, и теряет способность обобщать информацию на новых данных. Это приводит к высокому качеству на обучающем наборе, но плохим результатам на тестовых данных.

➡️ Основные способы предотвращения Overfitting:

1. Регуляризация:
• L1 и L2-регуляризация добавляют штраф к сложным моделям.
• Уменьшают коэффициенты модели, предотвращая избыточное подстраивание.

2. Dropout (для нейронных сетей):
• Исключение случайных нейронов на этапе обучения.

3. Снижение сложности модели:
• Использование меньшего числа признаков или более простых алгоритмов.

4. Увеличение данных:
• Генерация новых данных или увеличение объёма обучающей выборки.


➡️ Пример:

from sklearn.linear_model import Ridge
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_diabetes

# Загружаем данные
data = load_diabetes()
X_train, X_test, y_train, y_test = train_test_split(data.data, data.target, test_size=0.2, random_state=42)

# Создаём модель с регуляризацией (Ridge)
ridge = Ridge(alpha=1.0)
ridge.fit(X_train, y_train)

# Оцениваем качество
train_score = ridge.score(X_train, y_train)
test_score = ridge.score(X_test, y_test)
print(f"Train Score: {train_score}, Test Score: {test_score}")


🗣️ В этом примере Ridge-регрессия с параметром регуляризации alpha=1.0 помогает предотвратить переобучение, улучшая обобщающую способность модели.

🖥 Подробнее тут
Please open Telegram to view this post
VIEW IN TELEGRAM
🔎 Подборка вакансий для мидлов

ML-инженер в IT-Хаб
🟢Python, PyTorch, Jax, TensorFlow, Linux, Git, Bash, Docker
🟢Уровень дохода не указан | 1–3 года

ML-инженер/engineer в финтех гигант
🟢Python, PyTorch, Jax, TensorFlow, Linux, Git, Bash, Docker
🟢Уровень дохода не указан | 1–3 года

Python-разработчик
🟢Python, REST API, gRPC, GraphQL, PostgreSQL, MongoDB, Linux, Docker, CI/CD
🟢Уровень дохода не указан | 3–6 лет

Middle Data Scientist MLE
🟢Python (numpy, scipy, pandas, sklearn, catboost, pytorch), SQL (Clickhouse, PostgreSQL)
🟢от 200 000 до 350 000 ₽ | 1–3 года

Middle Data инженер
🟢Python, SQL, PostgreSQL, ClickHouse, Apache Airflow, dbt, Docker, Git
🟢Уровень дохода не указан | от 1 года
Please open Telegram to view this post
VIEW IN TELEGRAM
🤖 Как развернуть LLM с помощью vLLM и TorchServe

Хочешь запустить большую языковую модель в продакшене, но не знаешь, как совместить простоту развертывания с промышленной надежностью? Комбинация vLLM и TorchServe решает эту задачу. Она обеспечивает как простой запуск, так и продвинутые возможности для масштабирования.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
👩‍💻 Задачка по Python

Напишите скрипт, который удаляет дублирующиеся строки из CSV-файла на основе указанного столбца и сохраняет результат в новый файл.

➡️ Пример:

python remove_duplicates.py input.csv output.csv column_name
id,name,age
1,John,30
2,Jane,25
4,Bob,35


Решение задачи ⬇️

import pandas as pd
import sys

if len(sys.argv) < 4:
print("Использование: python remove_duplicates.py <input_file> <output_file> <column_name>")
sys.exit(1)

input_file = sys.argv[1]
output_file = sys.argv[2]
column_name = sys.argv[3]

try:
df = pd.read_csv(input_file)
df = df.drop_duplicates(subset=[column_name])
df.to_csv(output_file, index=False)
print(f"Дубликаты удалены. Результат сохранён в {output_file}")
except Exception as e:
print(f"Ошибка: {e}")
Please open Telegram to view this post
VIEW IN TELEGRAM
✔️ Как нейросети меняют работу дизайнеров

Статья раскрывает, как дизайнеры студии используют ИИ для усиления креативности в проектах. Обсуждаются инструменты и подходы, которые помогают сохранить индивидуальность и создать продуманный дизайн с помощью нейросетей.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM