Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20.1K subscribers
632 photos
38 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
📢 Делай демо своих решений

Закрыл задачу, но никто не понимает, насколько крутое решение ты сделал? Это минус не только для команды, но и для твоей репутации.

👉 Совет: каждую значимую доработку презентуй команде. Покажи, как работает функционал, объясни, почему выбрал этот подход. Это не только помогает коллегам разобраться, но и показывает твой вклад в общий результат.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔎 Подборка зарубежных вакансий

Marketing Analyst
🟢SQL, Power BI, Marketing Analysis, Google Analytics, Business English, API
🟢от 2 500 до 4 000 $ до вычета налогов | 1–3 года

Data Scientist (mobile+web)
🟢Big Data, Amplitude, Power BI, A/B Testing, Predictive Modeling, Python
🟢от 4 000 $ до вычета налогов | 3–6 лет

Data Analyst & Mathematical
🟢Python, Теория вероятностей, Математическая статистика, Статистический анализ, Оптимизационное моделирование
🟢Уровень дохода не указан | 3–6 лет
Please open Telegram to view this post
VIEW IN TELEGRAM
🤖 Как удалить Excel навсегда: делегируем юнит-экономику на Wildberries нейронке

Статья объясняет, как нейросети помогают оптимизировать юнит-экономику продавцов на WB, особенно при работе с большим ассортиментом. Рассматриваются подходы к автоматизации анализа и принятию решений.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
👩‍💻 Подсчёт количества слов в строке

Напишите функцию, которая принимает строку и возвращает словарь, где ключами являются слова из строки, а значениями — количество их вхождений. Игнорируйте регистр и знаки препинания.

Пример:

text = "Hello, world! Hello Python world."
result = count_words(text)
print(result)
# Ожидаемый результат: {'hello': 2, 'world': 2, 'python': 1}


Решение задачи🔽

import re
from collections import Counter

def count_words(text):
# Убираем знаки препинания и приводим к нижнему регистру
words = re.findall(r'\b\w+\b', text.lower())
# Подсчитываем количество вхождений каждого слова
return Counter(words)

# Пример использования:
text = "Hello, world! Hello Python world."
result = count_words(text)
print(result)
# Ожидаемый результат: {'hello': 2, 'world': 2, 'python': 1}
Please open Telegram to view this post
VIEW IN TELEGRAM
👀 Сравнение 30 фотореалистичных ИИ-изображений: Flux1.1 против SD3.5

В статье обсуждаются возможности Flux1.1 Pro и SD3.5 Large в генерации фотореалистичных изображений. Описаны различия моделей и их результаты после разделения команды разработчиков.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️ Глубокое обучение: Алгоритм обратного распространения ошибки. Теория и реализация. С нуля

Обратное распространение ошибки — основа обучения нейросетей. В статье: архитектура, расчет производных, реализация сетей для задач «ИЛИ» и MNIST. Простые шаги к пониманию алгоритма!

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
👩‍💻 Проверка, являются ли две строки анаграммами

Напишите функцию, которая принимает две строки и проверяет, являются ли они анаграммами. Анаграммы — это слова, которые содержат одинаковые буквы в одинаковом количестве, но в разном порядке. Игнорируйте регистр и пробелы.

Пример:

result1 = are_anagrams("listen", "silent")
print(result1) # Ожидаемый результат: True

result2 = are_anagrams("hello", "world")
print(result2) # Ожидаемый результат: False


Решение задачи🔽

def are_anagrams(str1, str2):
# Удаляем пробелы и приводим к одному регистру
str1 = ''.join(str1.lower().split())
str2 = ''.join(str2.lower().split())

# Проверяем, равны ли отсортированные символы
return sorted(str1) == sorted(str2)

# Пример использования:
result1 = are_anagrams("listen", "silent")
print(result1) # Ожидаемый результат: True

result2 = are_anagrams("hello", "world")
print(result2) # Ожидаемый результат: False
Please open Telegram to view this post
VIEW IN TELEGRAM
🔎 Подборка вакансий для джунов

AI/Data Specialist (Эксперт по AI/ML / Data Ops)
🟢Python, pandas, numpy, scikit-learn, PyTorch, TensorFlow, MLOps, CI/CD, ML-пайплайны, компьютерное зрение, обработка естественного языка
🟢от 180 000 до 300 000 ₽ на руки | 1–3 года опыта

Аналитик SQL / Data Analyst
🟢SQL, PostgreSQL, MySQL, Python, ETL, Airflow, API, анализ данных, визуализация данных, BI-инструменты, DataLens
🟢от 110 000 ₽ на руки | 1–3 года опыта

Аналитик данных/data analyst контактного центра (CPA nutra)
🟢Excel, анализ данных, BI-отчётность, оптимизация процессов, контактные центры, CPA nutra
🟢от 80 000 ₽ на руки | 1–3 года опыта
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔 Данные — это ископаемое топливо для ИИ. Правда, что мы его исчерпали?

В статье обсуждается заявление Ильи Суцкевера о том, что данные для ИИ сравнимы с ископаемым топливом, и их запас исчерпан. Объясняется концепция энтропии данных и её значение для LLM.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
⚙️ Что такое train_test_split в Scikit-learn и зачем он используется?

train_test_split — это функция из библиотеки Scikit-learn, которая используется для разделения данных на тренировочный и тестовый наборы. Это необходимо для оценки качества модели на данных, которые она не видела во время обучения.

➡️ Пример:

from sklearn.model_selection import train_test_split
import numpy as np

# Данные
X = np.array([[1], [2], [3], [4], [5]])
y = np.array([10, 20, 30, 40, 50])

# Разделение данных (80% на обучение, 20% на тест)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print("Тренировочные данные:", X_train, y_train)
print("Тестовые данные:", X_test, y_test)


🗣️ В этом примере данные разделяются на тренировочный и тестовый наборы в соотношении 80/20. Это позволяет модели обучаться на одной части данных и проверять точность на другой, что предотвращает переобучение.


🖥 Подробнее тут
Please open Telegram to view this post
VIEW IN TELEGRAM
📝 Подборка вакансий для мидлов

Аналитик данных Middle+ / Data Analyst
Python, SQL, A/B тестирование
от 200 000 до 300 000 ₽ | Средний (Middle) уровень

Аналитик данных
SQL, PostgreSQL, Greenplum, Apache Airflow, DWH, Apache Spark
от 280 000 до 350 000 ₽ | Средний (Middle) уровень

Инженер по компьютерному зрению
Python, OpenCV, TensorFlow, PyTorch, машинное обучение, глубокое обучение
Уровень дохода не указан | Требуемый опыт не указан
Please open Telegram to view this post
VIEW IN TELEGRAM
⚙️ Нейросетевой апскейлинг дома: вторая молодость для классических мультфильмов

Статья рассказывает, как с помощью нейросетей улучшить качество старых видеозаписей, включая VHS и DVD. Описываются инструменты, процесс и результаты с примерами, доступные каждому без глубоких технических знаний.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
👩‍💻 Поиск самого часто встречающегося элемента в списке

Напишите функцию, которая принимает список и возвращает элемент, который встречается чаще всего. Если таких элементов несколько, вернуть любой из них.

Пример:

numbers = [1, 3, 2, 3, 4, 1, 3, 2, 1]
result = most_frequent(numbers)
print(result)
# Ожидаемый результат: 3 (или 1, если в списке оба встречаются одинаково часто)


Решение задачи🔽

from collections import Counter

def most_frequent(lst):
count = Counter(lst)
return max(count, key=count.get)

# Пример использования:
numbers = [1, 3, 2, 3, 4, 1, 3, 2, 1]
result = most_frequent(numbers)
print(result) # Ожидаемый результат: 3
Please open Telegram to view this post
VIEW IN TELEGRAM
💬 Внедрение ИИ в общение с клиентами

Статья исследует развитие ИИ в общении с клиентами и его интеграцию в бизнес. Обсуждаются успехи и сложности внедрения чат-ботов, важность настройки под бизнес-цели и перспективы замены сотрудников ИИ.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔 250 откликов за 20 минут: как я автоматизировал процесс ответов на вакансии

Поиск работы часто превращается в рутину. Чтобы сэкономить время, разработчик создал систему автоматизации откликов на вакансии. Как это работает и какие результаты он получил — читайте в статье.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
📝 Подборка вакансий для сеньоров

Prompt-инженер
Технический перевод, техническая документация, Python
до 200 000 ₽ | Старший (Senior) уровень

Аналитик данных / Data Analyst
SQL, Python, математическая статистика, Jupyter Notebook, A/B тестирование
от 300 000 до 400 000 ₽ | Старший (Senior) уровень

Database Administrator
ClickHouse, PostgreSQL, Python
до 5 000 $ | Старший (Senior) уровень
Please open Telegram to view this post
VIEW IN TELEGRAM
🤖 Как развернуть LLM с помощью vLLM и TorchServe

Хочешь запустить большую языковую модель в продакшене, но не знаешь, как совместить простоту развертывания с промышленной надежностью? Комбинация vLLM и TorchServe решает эту задачу. Она обеспечивает как простой запуск, так и продвинутые возможности для масштабирования.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
⚙️ Что такое генераторы в Python и зачем они нужны?

Генераторы — это функции в Python, которые возвращают значения по одному с помощью ключевого слова yield, вместо полного возврата всех значений сразу. Они полезны для работы с большими объемами данных, так как сохраняют память, генерируя значения на лету.

➡️ Пример:

# Генератор для получения первых N чисел Фибоначчи
def fibonacci(n):
a, b = 0, 1
for _ in range(n):
yield a
a, b = b, a + b

# Используем генератор
for num in fibonacci(5):
print(num)

# Вывод: 0, 1, 1, 2, 3


🗣️ В этом примере генератор fibonacci вычисляет числа по запросу, вместо сохранения всех значений в памяти. Это делает генераторы особенно удобными для работы с потоками данных или бесконечными последовательностями.


🖥 Подробнее тут
Please open Telegram to view this post
VIEW IN TELEGRAM
📝 Подборка вакансий для лидов

Team Lead Data Platform
Python, SQL, Git, Apache Hadoop, Apache Spark, Apache Airflow, Apache Kafka, Управление людьми
Уровень дохода не указан | Требуемый опыт не указан

Team Lead Data Scientist (кредитный скоринг)
Python, SQL, MatPlotLib, Pandas, NumPy, Машинное обучение, Математическое моделирование, XML, JSON
Уровень дохода не указан | от 3 лет опыта

Ведущий аналитик
Microsoft Excel, Анализ данных, Pandas, Tableau, PowerBI, SQL, Python, NumPy, SQLAlchemy
от 100 000 ₽ | Требуемый опыт не указан
Please open Telegram to view this post
VIEW IN TELEGRAM
🔄 Улучши понимание «потока данных»

Порой сложно разобраться, как данные путешествуют через сервисы, API и базу. Это может превращать даже простые задачи в ад.

👉 Совет: нарисуй схему потока данных для ключевых процессов своего проекта. Это может быть даже грубый эскиз в блокноте. Понимание архитектуры даст тебе преимущество: ты будешь видеть узкие места и быстрее разбираться с проблемами.
Please open Telegram to view this post
VIEW IN TELEGRAM