Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20.1K subscribers
630 photos
39 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
➡️ Как мы перенесли распознавание на базе ИИ в веб и изменили веб-банкинг? В Markswebb оценили

Статья расскажет о ежегодном рейтинге лучших веб-версий банковских приложений 2024 года от Markswebb. Лидеры рейтинга использовали ИИ-решения Smart Engines для улучшения клиентского опыта и достижения рекордов.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔 Метрологический дефицит в бигдате: что это такое и как с ним бороться

Статья объяснит, почему данные, используемые в ИИ и машинном обучении, часто искажаются преобразованиями. Обсудим измерительные приборы, их влияние на производственные процессы и важность понимания этого эффекта.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
🛠 4 полезных инструмента для работы с ИИ: RAGFlow, The Pipe, UFO и SWE-agent

В этой статье мы рассмотрим 4 ИИ-инструмента, которые расширяют возможности разработчика: от платформ для работы с документами до агентов, способных исправлять ошибки в коде.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
🧩 Реализация паттерна «Одиночка» на Python

Мечтаешь о коде, который работает как швейцарские часы? Паттерн «Одиночка» может стать тем самым механизмом, который заставит все шестеренки крутиться идеально.

Читать...
👀 Анализ тональности текста: зачем он нужен и как его использовать? Объясняем за 7 минут

Как компании выявляют эмоции в тысячах отзывов и комментариев? Почему одни маркетинговые кампании становятся невероятным успехом, а другие — провалом? Сегодня мы подробно разберем, как анализ тональности работает в реальных кейсах, и покажем, как вы можете внедрить его для достижения своих бизнес-целей.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
✔️ От Павлова до ChatGPT: как LLM перевернули наше понимание мышления

В этой статье мы отправимся в захватывающее путешествие от классических теорий Павлова до передовых разработок в области ИИ. Мы раскроем тайны человеческого мышления, узнаем, как работают современные языковые модели, и поразмышляем о том, сможет ли искусственный интеллект когда-нибудь по-настоящему "понимать" нас.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
🤖 LLaMator: Red Teaming фреймворк для тестирования уязвимостей LLM

В статье команда LLaMaстеры (студенты ИТМО AI Talent Hub) расскажет о создании LLaMator — фреймворка для тестирования уязвимостей интеллектуальных систем на базе больших языковых моделей, который победил на AI Product Hack.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
🌞 Автоэнкодеры простыми словами

Автоэнкодеры являются базовой техникой машинного обучения и искусственного интеллекта, на основе которой строятся более сложные модели, например, в диффузионных моделях, таких как Stable Diffusion. Что же такое автоэнкодер?

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
↗️ Как я с помощью нейросетей обогнала инфляцию

В статье рассказывается, как использовать нейросети для оптимизации работы, если ваш доход в рублях, а расходы — в валюте. Спойлер: полное делегирование задач ИИ — миф, но с его помощью можно значительно упростить рутину и повысить продуктивность. Поделены реальные кейсы из жизни автора.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
👩‍💻 Задачка по Python

Создайте Python-приложение, которое принимает путь к CSV-файлу с историческими данными о ценах акций (дата, цена закрытия) и предсказывает, будет ли цена акций расти или падать на следующий день, используя простую линейную регрессию. Программа должна выводить прогноз в консоль и сохранять модель в файл model.pkl.

➡️ Пример:

python app.py predict_stock prices.csv — предсказывает изменение цены акций на следующий день.

Решение задачи ⬇️

import sys
import pandas as pd
from sklearn.linear_model import LinearRegression
import pickle

def predict_stock(file):
data = pd.read_csv(file)
X = data.index.values.reshape(-1, 1)
y = data['Close'].values

model = LinearRegression()
model.fit(X, y)

next_day = [[len(X)]]
prediction = model.predict(next_day)

with open('model.pkl', 'wb') as f:
pickle.dump(model, f)

print(f'Прогноз на следующий день: {"Рост" if prediction > y[-1] else "Падение"}')

if __name__ == "__main__":
if len(sys.argv) != 3 or sys.argv[1] != 'predict_stock':
print('Использование: python
app.py predict_stock <файл.csv>')
else:
predict_stock(sys.argv[2])
Please open Telegram to view this post
VIEW IN TELEGRAM
🔎 Подборка вакансий для джунов

Junior Data Engineer
🟢Python (Pandas), SQL (Snowflake, Redshift), Git, CI/CD, Jenkins
🟢Уровень дохода не указан | 1–3 года

Junior Full Stack Analyst
🟢Jira, Confluence
🟢Уровень дохода не указан | Без опыта

Data Engineer/Стажер-разработчик DWH/ETL/Big Data
🟢DWH, Data Lake, ETL, SQL
🟢Уровень дохода не указан | Без опыта

Младший специалист отдела разработки (Python) / Специалист по парсингу данных
🟢Python 3, Django/Celery, PostgreSQL, HTML
🟢Уровень дохода не указан | 1–3 года

Junior AI Developer
🟢Python 3, LLM, ChatGPT
🟢от 50 000 до 80 000 ₽ | Без опыта
Please open Telegram to view this post
VIEW IN TELEGRAM
👩‍💻 Задачка по Python

Создайте Python-приложение, которое принимает набор данных с несколькими признаками и определяет наиболее важные признаки для предсказания целевой переменной с помощью модели RandomForest. Программа должна выводить результаты в виде списка признаков, отсортированных по важности.

➡️ Пример:

python app.py data.csv — выводит важные признаки.

Решение задачи ⬇️

import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split

def feature_importance(file):
data = pd.read_csv(file)
X = data.drop(columns=['target'])
y = data['target']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

model = RandomForestClassifier()
model.fit(X_train, y_train)

importance = pd.Series(model.feature_importances_, index=X.columns).sort_values(ascending=False)
print("Важные признаки:\n", importance)

if __name__ == "__main__":
import sys
if len(sys.argv) != 2:
print("Использование: python
app.py <файл.csv>")
else:
feature_importance(sys.argv[1])
Please open Telegram to view this post
VIEW IN TELEGRAM
Как обработать пропущенные данные?

Пропущенные данные — частая проблема в Data Science, особенно в реальных данных. Чтобы правильно обработать такие данные, можно использовать стратегии заполнения пропусков (например, средним значением или медианой) или удалить строки/столбцы с пропусками.

➡️ Пример:
import pandas as pd
import numpy as np

data = {'A': [1, 2, np.nan, 4], 'B': [5, np.nan, 7, 8]}
df = pd.DataFrame(data)

# Заполнение пропусков средним значением
df['A'].fillna(df['A'].mean(), inplace=True)

print(df)


🗣️ Пропущенные данные могут искажать результаты анализа, поэтому их нужно обрабатывать перед моделированием.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔎 Подборка вакансий для мидлов

Junior Python Developer
🟢Python, Linux, SQL, Django
🟢от 50 000 ₽ | Без опыта

Data Scientist
🟢Python (OpenCV, NumPy, Pandas, PyTorch), SQL, Triton Inference Server, TensorRT, Docker, Kubernetes, Helm
🟢до 80 000 ₽ | Без опыта

ML-инженер (ML Engineer / Data Scientist)
🟢Python, SQL, TensorFlow, PyTorch
🟢Уровень дохода не указан | 1–3 года

Data scientist (Junior)
🟢Python, SQL
🟢до 2 000 Br | 1–3 года

Data Scientist (Junior)
🟢Python, Numpy, PyTorch, SQL
🟢от 600 $ | Без опыта
Please open Telegram to view this post
VIEW IN TELEGRAM
🚀 Оптимизируй свой AI: разоблачение 6 мифов о работе с векторами в Pgvector

Шесть заблуждений, которые мешают тебе использовать всю мощь векторных баз данных в AI. Развенчав эти мифы, ты сможешь раскрыть истинный потенциал векторов и значительно повысить эффективность твоих AI-проектов.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
👩‍💻 Задачка по Python

Создайте Python-приложение, которое загружает датасет, использует модель линейной регрессии для предсказания, и сохраняет метрики модели (MAE, RMSE) в файл metrics.json. Программа должна уметь загружать датасет в формате CSV, обучать модель и выводить результаты.

➡️ Пример:

python app.py train data.csv — обучает модель, выводит метрики и сохраняет в metrics.json.

Решение задачи ⬇️

import sys
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, mean_squared_error
import json

def train_model(file_path):
# Загружаем данные
data = pd.read_csv(file_path)
X = data.drop('target', axis=1)
y = data['target']

# Разделение на тренировочные и тестовые данные
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Обучаем модель
model = LinearRegression()
model.fit(X_train, y_train)

# Предсказание
y_pred = model.predict(X_test)

# Вычисляем метрики
mae = mean_absolute_error(y_test, y_pred)
rmse = mean_squared_error(y_test, y_pred, squared=False)

# Сохраняем метрики
metrics = {'MAE': mae, 'RMSE': rmse}
with open('metrics.json', 'w') as f:
json.dump(metrics, f)

print(f"MAE: {mae}, RMSE: {rmse}")

if __name__ == "__main__":
if len(sys.argv) > 1:
train_model(sys.argv[1])
else:
print("Укажите путь к CSV-файлу.")
Please open Telegram to view this post
VIEW IN TELEGRAM
👩‍💻 7 малоизвестных возможностей стандартной библиотеки Python

Стандартная библиотека Python – это кладезь возможностей. Мы представляем семь недооцененных модулей, которые помогут вам улучшить организацию данных, оптимизировать производительность и упростить распространение ваших программ.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
🔎 Подборка вакансий для сеньоров

Data Scientist (Ranking&Search)
🟢Big data (Hadoop, PySpark, Hive), Python, Catboost, Airflow, Docker, SQL, PyTorch
🟢Уровень дохода не указан | 3–6 лет

Senior Data Analyst
🟢SQL, Python, LTV, CPA, RevShare, Tableau
🟢от 3 000 до 3 500 $ | 3–6 лет

Senior Data Scientist MLE
🟢ml, Python, Numpy, SciPy, pandas, sklearn, Clickhouse, PostgreSQL
🟢от 250 000 до 400 000 ₽ | 3–6 лет

Python developer (Middle\Senior)
🟢Python, Flask, FastAPI, PostgreSQL, ClickHouse, Airflow, Docker, Git
🟢Уровень дохода не указан | 3–6 лет

Python-разработчик (middle+,senior)
🟢Python, C++, ML, CI/CD, Docker, SMPL
🟢от 150 000 до 250 000 ₽ | 3–6 лет
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔 Grok-2 в деле: Способен ли ИИ от Илона Маска превзойти конкурентов?

В середине августа мы видели анонс бета-версий Grok-2 и Grok-2 mini от стартапа Илона Маска xAI. Что ж, на дворе осень, как пел Anacondaz "на улице дубак, на сердце тлен и мрак", так пусть же Grok 2 сегодня станет тем самым, кто укроет зацензуренным пледом наши тела. Предлагаю начинать.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM