Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20.1K subscribers
629 photos
39 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
🎞 Как за 6 промтов к ChatGPT создать Python скрипт, скачивающий видео с YouTube для просмотра на телевизоре через Kodi

Статья рассказывает, как с помощью Python и ChatGPT создать скрипт для автоматической загрузки видео с YouTube и генерации метаданных (описаний и обложек) для интеграции с медиацентром Kodi.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
👩‍💻 Поиск самого часто встречающегося элемента в списке

Напишите функцию, которая принимает список и возвращает элемент, который встречается чаще всего. Если таких элементов несколько, вернуть любой из них.

Пример:

numbers = [1, 3, 2, 3, 4, 1, 3, 2, 1]
result = most_frequent(numbers)
print(result)
# Ожидаемый результат: 3 (или 1, если в списке оба встречаются одинаково часто)


Решение задачи🔽

from collections import Counter

def most_frequent(lst):
count = Counter(lst)
return max(count, key=count.get)

# Пример использования:
numbers = [1, 3, 2, 3, 4, 1, 3, 2, 1]
result = most_frequent(numbers)
print(result) # Ожидаемый результат: 3
Please open Telegram to view this post
VIEW IN TELEGRAM
📝 Подборка вакансий для джунов

QA Automation Engineer Junior (Python)
Python, PyTest, ООП, SQL, PostgreSQL
Уровень дохода не указан | от 1 года

Data Engineer
Python, SQL, ETL, Docker, Kubernetes, Apache Airflow
Уровень дохода не указан | опыт не указан

Инженер данных/Data Engineer в Управление анализа данных
SQL, Jira, Confluence, Hadoop, Bitbucket
Уровень дохода не указан | опыт не указан

Младший аналитик
Python, SQL, Microsoft Excel, Английский язык, Анализ данных, Машинное обучение, Нейронные сети
от 130 000 ₽ | опыт не указан
Please open Telegram to view this post
VIEW IN TELEGRAM
💬 Внедрение ИИ в общение с клиентами

Статья исследует развитие ИИ в общении с клиентами и его интеграцию в бизнес. Обсуждаются успехи и сложности внедрения чат-ботов, важность настройки под бизнес-цели и перспективы замены сотрудников ИИ.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
⚙️ Что такое train_test_split в Scikit-learn и зачем он используется?

train_test_split — это функция из библиотеки Scikit-learn, которая используется для разделения данных на тренировочный и тестовый наборы. Это необходимо для оценки качества модели на данных, которые она не видела во время обучения.

➡️ Пример:

from sklearn.model_selection import train_test_split
import numpy as np

# Данные
X = np.array([[1], [2], [3], [4], [5]])
y = np.array([10, 20, 30, 40, 50])

# Разделение данных (80% на обучение, 20% на тест)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print("Тренировочные данные:", X_train, y_train)
print("Тестовые данные:", X_test, y_test)


🗣️ В этом примере данные разделяются на тренировочный и тестовый наборы в соотношении 80/20. Это позволяет модели обучаться на одной части данных и проверять точность на другой, что предотвращает переобучение.


🖥 Подробнее тут
Please open Telegram to view this post
VIEW IN TELEGRAM
📝 Подборка вакансий для джунов

Data engineer (Python Hadoop Spark)
Python 3.8+, Hadoop, Hive, Spark (PySpark), Airflow, PostgreSQL, ClickHouse, Kubernetes
Уровень дохода не указан | от 2 лет

Data Engineer
Python или Scala, SQL, Apache Spark, CI/CD, Airflow
Уровень дохода не указан | от 1-2 лет

Data Analyst
SQL, PL/SQL, Oracle, Jira, Confluence
Уровень дохода не указан | от 3 лет

Разработчик AI
Python, Pandas, NumPy, SQL, LangChain, LlamaIndex, OpenAI API, RAG, Faiss, Qdrant, Chroma, Elasticsearch, Git
Уровень дохода не указан | от 1 года с LLM, от 3 лет с Python

Python Developer
Python, Django, Linux, PostgreSQL, Celery, Redis, Pandas, NumPy
до 250 000 ₽ | от 3 лет
Please open Telegram to view this post
VIEW IN TELEGRAM
👀 Сравнение 30 фотореалистичных ИИ-изображений: Flux1.1 против SD3.5

В статье обсуждаются возможности Flux1.1 Pro и SD3.5 Large в генерации фотореалистичных изображений. Описаны различия моделей и их результаты после разделения команды разработчиков.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
👩‍💻 Подсчёт количества слов в строке

Напишите функцию, которая принимает строку и возвращает словарь, где ключами являются слова из строки, а значениями — количество их вхождений. Игнорируйте регистр и знаки препинания.

Пример:

text = "Hello, world! Hello Python world."
result = count_words(text)
print(result)
# Ожидаемый результат: {'hello': 2, 'world': 2, 'python': 1}


Решение задачи🔽

import re
from collections import Counter

def count_words(text):
# Убираем знаки препинания и приводим к нижнему регистру
words = re.findall(r'\b\w+\b', text.lower())
# Подсчитываем количество вхождений каждого слова
return Counter(words)

# Пример использования:
text = "Hello, world! Hello Python world."
result = count_words(text)
print(result)
# Ожидаемый результат: {'hello': 2, 'world': 2, 'python': 1}
Please open Telegram to view this post
VIEW IN TELEGRAM
⚙️ KAN 2.0: Kolmogorov-Arnold Networks Meet Science

Статья представляет перевод работы о нейронных сетях на основе алгоритма Колмогорова-Арнольда (KAN). Рассматриваются новые исследования, связь с наукой и использование библиотеки pykan на Python для практических задач.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
🤖 Как удалить Excel навсегда: делегируем юнит-экономику на Wildberries нейронке

Статья объясняет, как нейросети помогают оптимизировать юнит-экономику продавцов на WB, особенно при работе с большим ассортиментом. Рассматриваются подходы к автоматизации анализа и принятию решений.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
📝 Подборка вакансий для сеньоров

Data Engineer
Python, SQL, pandas, PostgreSQL, Docker, Redis, ClickHouse, Airflow, Spark, Git, Django, Node.js, React, Kubernetes
Уровень дохода не указан | от 2 лет

Senior Data Scientist (Ценообразование)
Spark, Hadoop, S3
до 420 000 ₽ | опыт не указан

Data-аналитик (Senior)
SQL, DWH, PostgreSQL, ETL, Greenplum
Уровень дохода не указан | от 2 лет

Senior Data Scientist [NUUM]
Python, SQL, Машинное обучение
Уровень дохода не указан | опыт не указан
Please open Telegram to view this post
VIEW IN TELEGRAM
💳 Как мы провели ИИ-трансформацию стратегических процессов Сбера

Статья рассказывает об ИИ-трансформации Сбера, включая ключевые задачи, такие как стресс-тестирование, анализ рынков и прогнозирование эффективности сотрудников. Рассматривается использование ИИ до и после трансформации.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
⚙️ Что такое генераторы в Python и зачем они нужны?

Генераторы — это функции в Python, которые возвращают значения по одному с помощью ключевого слова yield, вместо полного возврата всех значений сразу. Они полезны для работы с большими объемами данных, так как сохраняют память, генерируя значения на лету.

➡️ Пример:

# Генератор для получения первых N чисел Фибоначчи
def fibonacci(n):
a, b = 0, 1
for _ in range(n):
yield a
a, b = b, a + b

# Используем генератор
for num in fibonacci(5):
print(num)

# Вывод: 0, 1, 1, 2, 3


🗣️ В этом примере генератор fibonacci вычисляет числа по запросу, вместо сохранения всех значений в памяти. Это делает генераторы особенно удобными для работы с потоками данных или бесконечными последовательностями.


🖥 Подробнее тут
Please open Telegram to view this post
VIEW IN TELEGRAM
📝 Подборка вакансий для лидов

Team Lead Data Scientist (кредитный скоринг)
Python, SQL, Scikit-learn, Pandas, NumPy, XGBoost, LightGBM, Matplotlib, Seaborn, Plotly
Уровень дохода не указан | от 3 лет

Ведущий аналитик
Microsoft Excel, Pandas, Tableau, PowerBI, SQL, Python, NumPy, SQLAlchemy
от 100 000 ₽ | опыт не указан

Team Lead
Java, Golang, Python, C++, .NET
Уровень дохода не указан | от 1,5 лет

QAA Lead в Сервис Транспорта
Python, Linux, Git, Docker
Уровень дохода не указан | от 5 лет
Please open Telegram to view this post
VIEW IN TELEGRAM
📖 «Охота на электроовец: большая книга искусственного интеллекта» или как написать книгу про ИИ без регистрации и SMS

История о том, как за 6 лет я написал двухтомник, посвящённый искусственному интеллекту и машинному обучению.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
🔍 Учись читать чужой код, как книгу

Работаешь над багом или новым функционалом, но каждый раз стопоришься на чужом коде? Это не только твоя боль — многим сложно понять чужую логику.

👉 Совет: подходи к коду как к истории. Читай, где начинается действие (инициализация), как развивается сюжет (основной алгоритм) и где развязка (возврат результата). Комментарии, даже редкие, — это подсказки от автора, используй их. Так ты научишься быстрее ориентироваться и даже предугадывать ошибки.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔎 Подборка зарубежных вакансий

Senior Data Engineer
🟢Python, Java, AWS, MS SQL
🟢от 4 000 до 6 000 $ до вычета налогов | от 3 до 6 лет

Data Engineer AI (удаленно)
🟢Python, DWH, SQL, ETL, PostgreSQL, Power BI
🟢от 2 200 до 3 400 $ на руки | от 1 до 3 лет

Senior Data Scientist
🟢RecSys, Uplift modeling, Churn prediction, LTV prediction, Forecasting, A/B тестирование, MLOps, SQL
🟢от 4 500 до 6 500 $ до вычета налогов | более 6 лет

Junior Consultant / German AI consulting company
🟢Английский язык, B2B маркетинг, Социальный маркетинг, Email маркетинг, Data Analysis, Python, Контент-маркетинг, B2B Продажи, Автоматизация, Нейронные сети, ChatGPT, Lean Startup, CRM,
🟢от 500 € на руки | от 1 до 3 лет
Please open Telegram to view this post
VIEW IN TELEGRAM
🤖 Псст, ИИ нужен? 5 полезных инструментов для разработчика

Статья предлагает подборку инструментов, платформ и шаблонов для работы с языковыми моделями и создания ИИ-ассистентов. Рассматриваются протестированные в МТС решения, упрощающие разработку и интеграцию.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
👩‍💻 Нормализация набора данных

Напишите функцию, которая принимает pandas.DataFrame и нормализует все числовые столбцы в диапазон от 0 до 1.

Пример:

import pandas as pd

data = pd.DataFrame({
'feature1': [10, 20, 30, 40],
'feature2': [1, 2, 3, 4],
'feature3': ['A', 'B', 'C', 'D'] # Не числовой столбец
})

result = normalize_dataframe(data)
print(result)
# Ожидаемый результат:
# feature1 feature2 feature3
# 0 0.0 0.0 A
# 1 0.333 0.333 B
# 2 0.667 0.667 C
# 3 1.0 1.0 D


Решение задачи🔽

import pandas as pd

def normalize_dataframe(df):
df_normalized = df.copy()
for col in df.select_dtypes(include='number').columns:
min_val = df[col].min()
max_val = df[col].max()
df_normalized[col] = (df[col] - min_val) / (max_val - min_val)
return df_normalized

# Пример использования:
data = pd.DataFrame({
'feature1': [10, 20, 30, 40],
'feature2': [1, 2, 3, 4],
'feature3': ['A', 'B', 'C', 'D']
})

result = normalize_dataframe(data)
print(result)
Please open Telegram to view this post
VIEW IN TELEGRAM