NEW BOT Телеграм, страница

Data Science | Machinelearning [ru]

🧩 Реализация паттерна «Одиночка» на Python

Мечтаешь о коде, который работает как швейцарские часы? Паттерн «Одиночка» может стать тем самым механизмом, который заставит все шестеренки крутиться идеально.

Читать...

2.47K views14:07

Data Science | Machinelearning [ru]

👀

Анализ тональности текста: зачем он нужен и как его использовать? Объясняем за 7 минут

Как компании выявляют эмоции в тысячах отзывов и комментариев? Почему одни маркетинговые кампании становятся невероятным успехом, а другие — провалом? Сегодня мы подробно разберем, как анализ тональности работает в реальных кейсах, и покажем, как вы можете внедрить его для достижения своих бизнес-целей.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

2.6K views18:07

Data Science | Machinelearning [ru]

✔️

От Павлова до ChatGPT: как LLM перевернули наше понимание мышления

В этой статье мы отправимся в захватывающее путешествие от классических теорий Павлова до передовых разработок в области ИИ. Мы раскроем тайны человеческого мышления, узнаем, как работают современные языковые модели, и поразмышляем о том, сможет ли искусственный интеллект когда-нибудь по-настоящему "понимать" нас.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

2.49K views10:07

Data Science | Machinelearning [ru]

🤖 LLaMator: Red Teaming фреймворк для тестирования уязвимостей LLM

В статье команда LLaMaстеры (студенты ИТМО AI Talent Hub) расскажет о создании LLaMator — фреймворка для тестирования уязвимостей интеллектуальных систем на базе больших языковых моделей, который победил на AI Product Hack.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

2.58K views14:07

Data Science | Machinelearning [ru]

🌞

Автоэнкодеры простыми словами

Автоэнкодеры являются базовой техникой машинного обучения и искусственного интеллекта, на основе которой строятся более сложные модели, например, в диффузионных моделях, таких как Stable Diffusion. Что же такое автоэнкодер?

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

2.57K views18:07

Data Science | Machinelearning [ru]

↗️

Как я с помощью нейросетей обогнала инфляцию

В статье рассказывается, как использовать нейросети для оптимизации работы, если ваш доход в рублях, а расходы — в валюте. Спойлер: полное делегирование задач ИИ — миф, но с его помощью можно значительно упростить рутину и повысить продуктивность. Поделены реальные кейсы из жизни автора.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

2.61K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Задачка по Python

Создайте Python-приложение, которое принимает путь к CSV-файлу с историческими данными о ценах акций (дата, цена закрытия) и предсказывает, будет ли цена акций расти или падать на следующий день, используя простую линейную регрессию. Программа должна выводить прогноз в консоль и сохранять модель в файл model.pkl.

➡️ Пример:

• python app.py predict_stock prices.csv — предсказывает изменение цены акций на следующий день.

Решение задачи ⬇️

import sys
import pandas as pd
from sklearn.linear_model import LinearRegression
import pickle

def predict_stock(file):
data = pd.read_csv(file)
X = data.index.values.reshape(-1, 1)
y = data['Close'].values

model = LinearRegression()
model.fit(X, y)

next_day = [[len(X)]]
prediction = model.predict(next_day)

with open('model.pkl', 'wb') as f:
pickle.dump(model, f)

print(f'Прогноз на следующий день: {"Рост" if prediction > y[-1] else "Падение"}')

if __name__ == "__main__":
if len(sys.argv) != 3 or sys.argv[1] != 'predict_stock':
print('Использование: python app.py predict_stock <файл.csv>')
else:
predict_stock(sys.argv[2])

Please open Telegram to view this post

VIEW IN TELEGRAM

2.7K views14:07

Data Science | Machinelearning [ru]

🔎

Подборка вакансий для джунов

Junior Data Engineer
🟢Python (Pandas), SQL (Snowflake, Redshift), Git, CI/CD, Jenkins
🟢Уровень дохода не указан | 1–3 года

Junior Full Stack Analyst
🟢Jira, Confluence
🟢Уровень дохода не указан | Без опыта

Data Engineer/Стажер-разработчик DWH/ETL/Big Data
🟢DWH, Data Lake, ETL, SQL
🟢Уровень дохода не указан | Без опыта

Младший специалист отдела разработки (Python) / Специалист по парсингу данных
🟢Python 3, Django/Celery, PostgreSQL, HTML
🟢Уровень дохода не указан | 1–3 года

Junior AI Developer
🟢Python 3, LLM, ChatGPT
🟢от 50 000 до 80 000 ₽ | Без опыта

Please open Telegram to view this post

VIEW IN TELEGRAM

2.57K viewsedited 18:07

Data Science | Machinelearning [ru]

👩‍💻 Задачка по Python

Создайте Python-приложение, которое принимает набор данных с несколькими признаками и определяет наиболее важные признаки для предсказания целевой переменной с помощью модели RandomForest. Программа должна выводить результаты в виде списка признаков, отсортированных по важности.

➡️ Пример:

• python app.py data.csv — выводит важные признаки.

Решение задачи ⬇️

import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split

def feature_importance(file):
data = pd.read_csv(file)
X = data.drop(columns=['target'])
y = data['target']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

model = RandomForestClassifier()
model.fit(X_train, y_train)

importance = pd.Series(model.feature_importances_, index=X.columns).sort_values(ascending=False)
print("Важные признаки:\n", importance)

if __name__ == "__main__":
import sys
if len(sys.argv) != 2:
print("Использование: python app.py <файл.csv>")
else:
feature_importance(sys.argv[1])

Please open Telegram to view this post

VIEW IN TELEGRAM

2.54K views10:07

Data Science | Machinelearning [ru]

❓

Как обработать пропущенные данные?

Пропущенные данные — частая проблема в Data Science, особенно в реальных данных. Чтобы правильно обработать такие данные, можно использовать стратегии заполнения пропусков (например, средним значением или медианой) или удалить строки/столбцы с пропусками.

➡️ Пример:

import pandas as pd
import numpy as np

data = {'A': [1, 2, np.nan, 4], 'B': [5, np.nan, 7, 8]}
df = pd.DataFrame(data)

# Заполнение пропусков средним значением
df['A'].fillna(df['A'].mean(), inplace=True)

print(df)

🗣️ Пропущенные данные могут искажать результаты анализа, поэтому их нужно обрабатывать перед моделированием.

Please open Telegram to view this post

VIEW IN TELEGRAM

2.6K views14:07

Data Science | Machinelearning [ru]

🔎

Подборка вакансий для мидлов

Junior Python Developer
🟢Python, Linux, SQL, Django
🟢от 50 000 ₽ | Без опыта

Data Scientist
🟢Python (OpenCV, NumPy, Pandas, PyTorch), SQL, Triton Inference Server, TensorRT, Docker, Kubernetes, Helm
🟢до 80 000 ₽ | Без опыта

ML-инженер (ML Engineer / Data Scientist)
🟢Python, SQL, TensorFlow, PyTorch
🟢Уровень дохода не указан | 1–3 года

Data scientist (Junior)
🟢Python, SQL
🟢до 2 000 Br | 1–3 года

Data Scientist (Junior)
🟢Python, Numpy, PyTorch, SQL
🟢от 600 $ | Без опыта

Please open Telegram to view this post

VIEW IN TELEGRAM

2.56K viewsedited 18:07

Data Science | Machinelearning [ru]

🚀

Оптимизируй свой AI: разоблачение 6 мифов о работе с векторами в Pgvector

Шесть заблуждений, которые мешают тебе использовать всю мощь векторных баз данных в AI. Развенчав эти мифы, ты сможешь раскрыть истинный потенциал векторов и значительно повысить эффективность твоих AI-проектов.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

2.49K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Задачка по Python

Создайте Python-приложение, которое загружает датасет, использует модель линейной регрессии для предсказания, и сохраняет метрики модели (MAE, RMSE) в файл metrics.json. Программа должна уметь загружать датасет в формате CSV, обучать модель и выводить результаты.

➡️ Пример:

• python app.py train data.csv — обучает модель, выводит метрики и сохраняет в metrics.json.

Решение задачи ⬇️

import sys
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, mean_squared_error
import json

def train_model(file_path):
# Загружаем данные
data = pd.read_csv(file_path)
X = data.drop('target', axis=1)
y = data['target']

# Разделение на тренировочные и тестовые данные
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Обучаем модель
model = LinearRegression()
model.fit(X_train, y_train)

# Предсказание
y_pred = model.predict(X_test)

# Вычисляем метрики
mae = mean_absolute_error(y_test, y_pred)
rmse = mean_squared_error(y_test, y_pred, squared=False)

# Сохраняем метрики
metrics = {'MAE': mae, 'RMSE': rmse}
with open('metrics.json', 'w') as f:
json.dump(metrics, f)

print(f"MAE: {mae}, RMSE: {rmse}")

if __name__ == "__main__":
if len(sys.argv) > 1:
train_model(sys.argv[1])
else:
print("Укажите путь к CSV-файлу.")

Please open Telegram to view this post

VIEW IN TELEGRAM

2.53K views14:07

Data Science | Machinelearning [ru]

🔝

Самые интересные статьи за последние дни:

• Как я с помощью нейросетей обогнала инфляцию [4 кейса, скрины, никакой рекламы]

• Сравнение роста заработных плат ректората МГТУ им. Н.Э. Баумана и остальных сотрудников

• Pydantic 2: Полное руководство для Python-разработчиков — от основ до продвинутых техник

• SOLID на котиках

• Как переподписка по CPU в облаке снижает производительность Arenadata DB: результаты, которых не ждёшь

Please open Telegram to view this post

VIEW IN TELEGRAM

2.43K views18:07

Data Science | Machinelearning [ru]

👩‍💻

7 малоизвестных возможностей стандартной библиотеки Python

Стандартная библиотека Python – это кладезь возможностей. Мы представляем семь недооцененных модулей, которые помогут вам улучшить организацию данных, оптимизировать производительность и упростить распространение ваших программ.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

2.45K views10:07

Data Science | Machinelearning [ru]

🔎

Подборка вакансий для сеньоров

Data Scientist (Ranking&Search)
🟢Big data (Hadoop, PySpark, Hive), Python, Catboost, Airflow, Docker, SQL, PyTorch
🟢Уровень дохода не указан | 3–6 лет

Senior Data Analyst
🟢SQL, Python, LTV, CPA, RevShare, Tableau
🟢от 3 000 до 3 500 $ | 3–6 лет

Senior Data Scientist MLE
🟢ml, Python, Numpy, SciPy, pandas, sklearn, Clickhouse, PostgreSQL
🟢от 250 000 до 400 000 ₽ | 3–6 лет

Python developer (Middle\Senior)
🟢Python, Flask, FastAPI, PostgreSQL, ClickHouse, Airflow, Docker, Git
🟢Уровень дохода не указан | 3–6 лет

Python-разработчик (middle+,senior)
🟢Python, C++, ML, CI/CD, Docker, SMPL
🟢от 150 000 до 250 000 ₽ | 3–6 лет

Please open Telegram to view this post

VIEW IN TELEGRAM

2.43K viewsedited 14:07

Data Science | Machinelearning [ru]

📈

Подборка статей для вашей карьеры

• Продуктивность и почему «сделать много всего» — это не про неё

• Куда выйти из айти?

• Как я боролся с выгоранием в ИТ: лайфхаки и личный опыт

• ИТ-пенсионеры и где они обитают

• Почему мне нужно, чтобы ты вкатился в айти

Please open Telegram to view this post

VIEW IN TELEGRAM

2.48K views18:07

Data Science | Machinelearning [ru]

🤔

Grok-2 в деле: Способен ли ИИ от Илона Маска превзойти конкурентов?

В середине августа мы видели анонс бета-версий Grok-2 и Grok-2 mini от стартапа Илона Маска xAI. Что ж, на дворе осень, как пел Anacondaz "на улице дубак, на сердце тлен и мрак", так пусть же Grok 2 сегодня станет тем самым, кто укроет зацензуренным пледом наши тела. Предлагаю начинать.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

2.41K views10:07

Data Science | Machinelearning [ru]

❓

Как работает кросс-валидация в ML?

Кросс-валидация — это техника оценки модели, которая помогает избежать переобучения и лучше оценить её обобщающую способность. В классической k-блочной кросс-валидации данные разбиваются на k равных частей, и модель обучается k раз, каждый раз используя одну часть для тестирования и остальные для обучения.

➡️ Пример применения кросс-валидации с использованием библиотеки scikit-learn:

from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris

data = load_iris()
X, y = data.data, data.target
clf = RandomForestClassifier()

scores = cross_val_score(clf, X, y, cv=5)
print(f'Средняя точность: {scores.mean()}')

Здесь модель обучается 5 раз (5-fold) на разных частях данных, и вычисляется средняя точность.

🗣️ Кросс-валидация помогает лучше понять, как модель будет работать на новых данных, улучшая её обобщение.

🖥

Подробнее тут

Please open Telegram to view this post

VIEW IN TELEGRAM

2.71K views14:07

Data Science | Machinelearning [ru]

🔎

Подборка вакансий для лидов

Data Science Lead
🟢Pandas, SciPy, Scikit-learn, Seaborn, Grafana, PowerBI, SQL
🟢Уровень дохода не указан | 3–6 лет

Data Science Lead
🟢MLOps, Hadoop, Python, TensorFlow, PyTorch, R
🟢Уровень дохода не указан | 3–6 лет

Data Science Tech Lead
🟢Python, Apache Spark, Gen AI, Chat GPT
🟢Уровень дохода не указан | 3–6 лет

Tech Lead Python
🟢Python, FastAPI, Flask, Django, NoSQL
🟢Уровень дохода не указан | Более 6 лет

Tech Lead (Python)
🟢Python, Linux, Nginx, Docker, Asyncio, aiohttp, Squid
🟢Уровень дохода не указан | 3–6 лет

Please open Telegram to view this post

VIEW IN TELEGRAM

2.3K views18:07

Data Science | Machinelearning [ru]

⚙️

Оценка LLM: метрики, фреймворки и лучшие практики

Статья объясняет, почему оценка LLM важна для бизнеса: модели ИИ не всегда достигают цели и нуждаются в доработке. Разбираются ключевые метрики, инструменты и лучшие практики для повышения надежности и точности.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

2.52K views10:07

About

Blog

Apps

Platform