NEW BOT Телеграм, страница - 335416603

Data Science | Machinelearning [ru]

20.1K subscribers

682 photos

42 videos

29 files

3.56K links

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD

Download Telegram

About

Blog

Apps

Platform

Data Science | Machinelearning [ru]

20.1K subscribers

Data Science | Machinelearning [ru]

🔎

Подборка вакансий для джунов

Data Scientist в области языковых моделей (Junior)
🟢Python, pandas, numpy, matplotlib, transformers, Hugging Face
🟢от 247 000 ₽ | 1–3 года

Junior analyst/Младший аналитик
🟢Google Analytics, Google Tag Manager, Data Studio, SQL
🟢от 90 000 до 100 000 ₽ | 1–3 года

Младший аналитик данных
🟢Python (pandas), Google Sheets, Google Colab, GitHub, API
🟢от 30 000 до 40 000 ₽ | Без опыта

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍1

2.97K views18:07

Data Science | Machinelearning [ru]

🤔

Размер имеет значение: как исторические данные помогают на этапе дизайна A/B-теста

Статья изучает применение метода CUPED в A/B-тестах для повышения чувствительности и сокращения выборок. Рассматривается его использование на этапе дизайна эксперимента без потери статистической мощности.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5

2.95K views10:07

Data Science | Machinelearning [ru]

⚙️

Что такое генераторы в Python и зачем они нужны?

Генераторы — это функции в Python, которые возвращают значения по одному с помощью ключевого слова yield, вместо полного возврата всех значений сразу. Они полезны для работы с большими объемами данных, так как сохраняют память, генерируя значения на лету.

➡️

Пример:

# Генератор для получения первых N чисел Фибоначчи
def fibonacci(n):
    a, b = 0, 1
    for _ in range(n):
        yield a
        a, b = b, a + b

# Используем генератор
for num in fibonacci(5):
    print(num)

# Вывод: 0, 1, 1, 2, 3

🗣️ В этом примере генератор fibonacci вычисляет числа по запросу, вместо сохранения всех значений в памяти. Это делает генераторы особенно удобными для работы с потоками данных или бесконечными последовательностями.

🖥

Подробнее тут

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

3.07K views14:07

Data Science | Machinelearning [ru]

📝

Подборка вакансий для мидлов

Data Analyst
• Python, R, Java, SQL, NoSQL
• Уровень дохода не указан | от 2 лет

Data Engineer (Middle)
• Python, PostgreSQL, MongoDB, ClickHouse, AWS, Kafka, Spark
• Уровень дохода не указан | от 2 лет

Python разработчик (Трайб Data Office)
• Python, HTML, JavaScript, CSS, Vue.js, Linux
• Уровень дохода не указан | опыт не указан

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1👍1

2.78K views18:07

Data Science | Machinelearning [ru]

⚙️

Как обеспечить Data Quality терабайтов данных и зачем: опыт СИБУРа

Статья посвящена опыту СИБУРа в создании DQ-сервиса для обеспечения качества данных. Рассматриваются задачи DQ, архитектура решения и универсальные подходы, применимые для анализа данных в крупных компаниях.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

2.92K views11:19

Data Science | Machinelearning [ru]

👩‍💻

Задачка по Python

Напишите функцию, которая принимает DataFrame и возвращает имена двух столбцов с наибольшей положительной корреляцией.

➡️ Пример:

data = pd.DataFrame({
    'A': [1, 2, 3, 4],
    'B': [2, 4, 6, 8],
    'C': [1, 0, 1, 0],
    'D': [10, 20, 30, 40]
})

print(find_highest_correlation(data))  
# Ожидаемый результат: ('B', 'D')

Решение задачи ⬇️

def find_highest_correlation(df):
corr_matrix = df.corr()
max_corr = 0
columns = (None, None)

for col1 in corr_matrix.columns:
for col2 in corr_matrix.columns:
if col1 != col2 and corr_matrix[col1][col2] > max_corr:
max_corr = corr_matrix[col1][col2]
columns = (col1, col2)

return columns

# Пример использования:
import pandas as pd

data = pd.DataFrame({
'A': [1, 2, 3, 4],
'B': [2, 4, 6, 8],
'C': [1, 0, 1, 0],
'D': [10, 20, 30, 40]
})

print(find_highest_correlation(data)) # Ожидаемый результат: ('B', 'D')

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2❤1

3.03K views14:07

Data Science | Machinelearning [ru]

🌞

Автоэнкодеры простыми словами

Автоэнкодеры являются базовой техникой машинного обучения и искусственного интеллекта, на основе которой строятся более сложные модели, например, в диффузионных моделях, таких как Stable Diffusion. Что же такое автоэнкодер?

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

2.99K views18:07

Data Science | Machinelearning [ru]

↗️

Как я с помощью нейросетей обогнала инфляцию

В статье рассказывается, как использовать нейросети для оптимизации работы, если ваш доход в рублях, а расходы — в валюте. Спойлер: полное делегирование задач ИИ — миф, но с его помощью можно значительно упростить рутину и повысить продуктивность. Поделены реальные кейсы из жизни автора.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4🔥2❤1

3.18K views10:07

Data Science | Machinelearning [ru]

📈

Подборка статей для вашей карьеры

• Продуктивность и почему «сделать много всего» — это не про неё

• Куда выйти из айти?

• Как я боролся с выгоранием в ИТ: лайфхаки и личный опыт

• ИТ-пенсионеры и где они обитают

• Почему мне нужно, чтобы ты вкатился в айти

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👎1

2.94K views14:07

Data Science | Machinelearning [ru]

МТС True Tech Hack 2025 — создай новое решение на базе The Platform от МТС и поборись за призовой фонд в 1 500 000 рублей.

Регистрация открыта до 16 апреля.

Твоя формула успеха:
✅ Хочешь внести вклад в продукты, которые приносят пользу разработчикам по всей России
✅ Знаешь, как превратить идею в работающий прототип
✅ Любишь работать в команде.

На хакатон приглашают разработчиков, Data Scientists, Data Engineers, системных и бизнес-аналитиков, UI/UX-дизайнеров и других специалистов. Участие — командное, в каждой будет от 2 до 5 человек.

Треки МТС True Tech Hack 2025:
✅ DataOps Pipeline: оптимизация от сбора до отчета
✅ AI Schema Builder: генерация схем
✅ Цифровизация через True Tabs: интеграция данных и процессов в единую экосистему
✅ TouchVision: AI-ассистент для незрячих и слабовидящих пользователей
✅ Золотая середина: дистилляция моделей MWS GPT

Не пропусти митап 9 апреля с экспертами хакатона — задай вопросы и узнай больше о задачах.

Регистрируйся на МТС True Tech Hack 2025

❤1

3.07K viewsedited 17:07

Data Science | Machinelearning [ru]

📝

Подборка вакансий для сеньоров

Системный аналитик (Data Office)
• SQL, BPMN, REST, анализ требований
• Уровень дохода не указан | опыт не указан

Senior Data Scientist в команду антифрода
• Python, SQL, TensorFlow, PyTorch, машинное обучение
• Уровень дохода не указан | от 2 лет

Продуктовый аналитик
• Yandex DataLens, Python, Amplitude, ClickHouse, Oracle, Microsoft Excel, Tableau, Metabase, PowerBI, анализ данных
• Уровень дохода не указан | от 2 лет

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

2.83K views20:07

Data Science | Machinelearning [ru]

🚀

Оптимизируй свой AI: разоблачение 6 мифов о работе с векторами в Pgvector

Шесть заблуждений, которые мешают тебе использовать всю мощь векторных баз данных в AI. Развенчав эти мифы, ты сможешь раскрыть истинный потенциал векторов и значительно повысить эффективность твоих AI-проектов.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤1🔥1

2.89K views10:07

Data Science | Machinelearning [ru]

❓

Как работает кросс-валидация в ML?

Кросс-валидация — это техника оценки модели, которая помогает избежать переобучения и лучше оценить её обобщающую способность. В классической k-блочной кросс-валидации данные разбиваются на k равных частей, и модель обучается k раз, каждый раз используя одну часть для тестирования и остальные для обучения.

➡️ Пример применения кросс-валидации с использованием библиотеки scikit-learn:

from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris

data = load_iris()
X, y = data.data, data.target
clf = RandomForestClassifier()

scores = cross_val_score(clf, X, y, cv=5)
print(f'Средняя точность: {scores.mean()}')

Здесь модель обучается 5 раз (5-fold) на разных частях данных, и вычисляется средняя точность.

🗣️ Кросс-валидация помогает лучше понять, как модель будет работать на новых данных, улучшая её обобщение.

🖥

Подробнее тут

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤1

3.05K views18:07

Data Science | Machinelearning [ru]

👩‍💻

7 малоизвестных возможностей стандартной библиотеки Python

Стандартная библиотека Python – это кладезь возможностей. Мы представляем семь недооцененных модулей, которые помогут вам улучшить организацию данных, оптимизировать производительность и упростить распространение ваших программ.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8

3.25K views10:07

Data Science | Machinelearning [ru]

📉

Иногда нужно сознательно писать меньше кода

Чем больше кода — тем больше точек отказа, багов и времени на поддержку. А мы здесь не ради фич ради фич.

👉 Совет: прежде чем что-то реализовать — подумай, а нужно ли это вообще? Может, задачу можно решить конфигом, сторонним инструментом или просто выкинуть. Самый чистый код — тот, которого не пришлось писать.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6🔥5

3.32K views14:07

Data Science | Machinelearning [ru]

🔎

Подборка зарубежных вакансий

Data Analyst
🟢SQL, Python, ClickHouse, MySQL, Snowflake, Tableau, Power BI
🟢Уровень дохода не указан | 3–6 лет

E-commerce Data Analyst (Amazon, Walmart)
🟢Excel, Google Sheets, Looker Studio, Power BI, Tableau
🟢от 1 000 до 1 300 $ | 1–3 года

AI Game Designer (UE)
🟢Unreal Engine, Blueprints, Gameplay Ability System
🟢Уровень дохода не указан | 3–6 лет

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4

3.34K views18:07

Data Science | Machinelearning [ru]

➡️

Самые интересные статьи за последние дни:

• Эксперимент: даём ChatGPT полный доступ к компьютеру

• Правильный путь создания python-библиотеки: от создания до публикации

• Запускаем Yolo на пятирублёвой монете или Luckfox Pico Mini

• Более мощное семейство моделей YandexGPT 4: рост качества ответов, длинный контекст, пошаговые рассуждения

• Как мы обучили Mistral 7B русскому языку и адаптировали для объявлений Авито

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3🔥1

3.11K views14:07

Data Science | Machinelearning [ru]

👩‍💻

Задачка по Python

Напишите Python-скрипт, который принимает путь к большому CSV-файлу и подсчитывает количество строк (записей) в файле без загрузки его целиком в память. Скрипт должен быть оптимизирован для работы с большими файлами.

➡️ Пример:

python count_rows.py large_file.csv
Количество строк: 3

Решение задачи ⬇️

import csv
import sys

def count_rows(file_path):
with open(file_path, 'r', encoding='utf-8') as file:
reader = csv.reader(file)
# Используем enumerate для подсчёта строк, исключая заголовок
row_count = sum(1 for _ in reader) - 1 # Минус 1 для исключения заголовка
return row_count

if __name__ == "__main__":
if len(sys.argv) < 2:
print("Использование: python count_rows.py <file_path>")
sys.exit(1)

file_path = sys.argv[1]
try:
result = count_rows(file_path)
print(f"Количество строк: {result}")
except Exception as e:
print(f"Ошибка: {e}")

Please open Telegram to view this post

VIEW IN TELEGRAM

👎6👍4❤2

3.07K views18:07

Data Science | Machinelearning [ru]

🤔

Grok-2 в деле: Способен ли ИИ от Илона Маска превзойти конкурентов?

В середине августа мы видели анонс бета-версий Grok-2 и Grok-2 mini от стартапа Илона Маска xAI. Что ж, на дворе осень, как пел Anacondaz "на улице дубак, на сердце тлен и мрак", так пусть же Grok 2 сегодня станет тем самым, кто укроет зацензуренным пледом наши тела. Предлагаю начинать.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3🔥1

2.94K views10:07

Data Science | Machinelearning [ru]

❓

Как работает метод feature_importances_ в Python и зачем он нужен в Machine Learning?

Метод feature_importances_ — это атрибут некоторых моделей машинного обучения в библиотеке scikit-learn, который позволяет определить, какие признаки (фичи) наиболее влияют на предсказания модели.

Этот метод возвращает значение важности для каждого признака, показывая, как сильно он влияет на конечный результат. Его использование особенно полезно для деревьев решений и ансамблевых моделей, таких как RandomForest и GradientBoosting.

➡️ В примере ниже мы используем RandomForest для анализа важности признаков и визуализации результатов.

from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris
import pandas as pd

# Загрузка данных
data = load_iris()
X, y = data.data, data.target

# Создание и обучение модели
model = RandomForestClassifier()
model.fit(X, y)

# Получение и визуализация важности признаков
feature_importances = pd.Series(model.feature_importances_, index=data.feature_names)
feature_importances.sort_values(ascending=False).plot(kind='bar')

🗣 Использование feature_importances_ помогает определить, какие признаки стоит использовать, исключить малозначимые фичи и сделать модель более интерпретируемой.

🖥

Подробнее тут

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4🔥1🐳1

3.19K views14:07

Data Science | Machinelearning [ru]

📝

Подборка вакансий для мидлов

Бизнес-аналитик / Системный аналитик
• BPMN, Анализ данных, UML, Анализ требований, Проектирование, Разработка ТЗ, BI
• до 150 000 ₽ | от 3 лет

Data Analyst
• Python, Apache Spark, SQL, Apache Hadoop
• Уровень дохода не указан | от 2 лет

Data Scientist (риски)
• Машинное обучение, SQL, Python
• Уровень дохода не указан | от 3 лет

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2

2.78K views18:07