NEW BOT Телеграм, страница - 253632511

Data Science | Machinelearning [ru]

20.1K subscribers

680 photos

42 videos

29 files

3.56K links

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD

Download Telegram

About

Blog

Apps

Platform

Data Science | Machinelearning [ru]

20.1K subscribers

Data Science | Machinelearning [ru]

📨

Пример использования программы для парсинга e-mail адресов с сайтов, созданный ИИ

Сегодня делимся программой для парсинга e-mail с сайтов, созданной за 30 минут с помощью ИИ от Rokitok. Это показывает, как ИИ ускоряет задачи, на которые раньше уходили дни или большие бюджеты.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2❤1

3.07K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Задачка по Python

Создайте Python-приложение, которое принимает путь к CSV-файлу с историческими данными о ценах акций (дата, цена закрытия) и предсказывает, будет ли цена акций расти или падать на следующий день, используя простую линейную регрессию. Программа должна выводить прогноз в консоль и сохранять модель в файл model.pkl.

➡️ Пример:

• python app.py predict_stock prices.csv — предсказывает изменение цены акций на следующий день.

Решение задачи ⬇️

import sys
import pandas as pd
from sklearn.linear_model import LinearRegression
import pickle

def predict_stock(file):
data = pd.read_csv(file)
X = data.index.values.reshape(-1, 1)
y = data['Close'].values

model = LinearRegression()
model.fit(X, y)

next_day = [[len(X)]]
prediction = model.predict(next_day)

with open('model.pkl', 'wb') as f:
pickle.dump(model, f)

print(f'Прогноз на следующий день: {"Рост" if prediction > y[-1] else "Падение"}')

if __name__ == "__main__":
if len(sys.argv) != 3 or sys.argv[1] != 'predict_stock':
print('Использование: python app.py predict_stock <файл.csv>')
else:
predict_stock(sys.argv[2])

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍2

3.04K views14:07

Data Science | Machinelearning [ru]

🔝

Самые интересные статьи за последние дни:

• Как я с помощью нейросетей обогнала инфляцию [4 кейса, скрины, никакой рекламы]

• Сравнение роста заработных плат ректората МГТУ им. Н.Э. Баумана и остальных сотрудников

• Pydantic 2: Полное руководство для Python-разработчиков — от основ до продвинутых техник

• SOLID на котиках

• Как переподписка по CPU в облаке снижает производительность Arenadata DB: результаты, которых не ждёшь

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3

2.91K views18:07

Data Science | Machinelearning [ru]

☁️

Как обучить ИИ в облаке

Сегодня мы хотим поделиться с вами нашим успешным кейсом, который наглядно демонстрирует, как облачные технологии могут значительно улучшить и ускорить процессы разработки и обучения ИИ.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥3❤1

3.02K views10:07

Data Science | Machinelearning [ru]

👩‍💻 Задачка по Python

Создайте Python-приложение, которое принимает набор данных с несколькими признаками и определяет наиболее важные признаки для предсказания целевой переменной с помощью модели RandomForest. Программа должна выводить результаты в виде списка признаков, отсортированных по важности.

➡️ Пример:

• python app.py data.csv — выводит важные признаки.

Решение задачи ⬇️

import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split

def feature_importance(file):
data = pd.read_csv(file)
X = data.drop(columns=['target'])
y = data['target']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

model = RandomForestClassifier()
model.fit(X_train, y_train)

importance = pd.Series(model.feature_importances_, index=X.columns).sort_values(ascending=False)
print("Важные признаки:\n", importance)

if __name__ == "__main__":
import sys
if len(sys.argv) != 2:
print("Использование: python app.py <файл.csv>")
else:
feature_importance(sys.argv[1])

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3

3.29K views14:07

Data Science | Machinelearning [ru]

🔎

Подборка вакансий для джунов

Системный аналитик junior
🟢UML, BPMN, API, MongoDB
🟢от 60 000 ₽ | 1–3 года

Junior Data Scientist \ Аналитик
🟢SQL, PostgreSQL, MariaDB, ClickHouse, Python, Pandas, Git
🟢от 50 000 до 60 000 ₽ | 1–3 года

Data-аналитик в области временных рядов (Junior)
🟢Python, Pandas, NumPy, SciPy, Matplotlib, Seaborn, SQL
🟢от 247 000 ₽ | 1–3 года

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍1🔥1

3.08K views18:07

Data Science | Machinelearning [ru]

🤔

В чём различия между Data Science, машинным обучением, ИИ, глубоким обучением и Data Mining

Эта статья поможет вам не только понять, какие исследования и опыт позволяют извлекать знания из данных, чтобы делать машины умнее, но и как конкретно это происходит.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7

3.24K views10:07

Data Science | Machinelearning [ru]

❓

Как обработать пропущенные данные?

Пропущенные данные — частая проблема в Data Science, особенно в реальных данных. Чтобы правильно обработать такие данные, можно использовать стратегии заполнения пропусков (например, средним значением или медианой) или удалить строки/столбцы с пропусками.

➡️ Пример:

import pandas as pd
import numpy as np

data = {'A': [1, 2, np.nan, 4], 'B': [5, np.nan, 7, 8]}
df = pd.DataFrame(data)

# Заполнение пропусков средним значением
df['A'].fillna(df['A'].mean(), inplace=True)

print(df)

🗣️ Пропущенные данные могут искажать результаты анализа, поэтому их нужно обрабатывать перед моделированием.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7❤1👎1

3.18K views14:07

Data Science | Machinelearning [ru]

📝

Подборка вакансий для мидлов

Data Engineer
• SQL, Python, bash, Airflow, NiFi, PostgreSQL, GreenPlum, Clickhouse, Redis, Kafka, Git, Linux
• Уровень дохода не указан | Опыт работы: 3–6 лет

Data аналитик (Виртуальные ассистенты)
• SQL, Big Data, Python, библиотеки для анализа данных
• Уровень дохода не указан | Опыт работы: 1–3 года

Data Scientist (Скоринг/моделирование)
• Python, SQL, Hadoop, методы машинного обучения
• Уровень дохода не указан | Опыт работы: 1–3 года

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

3.08K views18:07

Data Science | Machinelearning [ru]

🤖

42 секунды и 5 запросов: как взламывают генеративные ИИ-модели

Ты знал, что злоумышленникам для взлома генеративных ИИ достаточно всего 42 секунды и пяти запросов? В этой статье мы разберем, как это происходит, какие уязвимости существуют и как защитить свои системы от подобных атак.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍2🐳2

3.16K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Задачка по Python

Создайте Python-скрипт, который читает большой CSV-файл построчно, фильтрует строки по заданному критерию и подсчитывает агрегированные данные на основе указанного столбца. Скрипт должен эффективно обрабатывать файл, используя потоковое чтение (без загрузки файла целиком в память) и выводить итоговую статистику в консоль.

➡️ Пример:

• python process_data.py data.csv age 30 — фильтрует строки, где значение в столбце age больше 30, и подсчитывает общее количество таких записей и среднее значение в другом числовом столбце, например, salary.

Решение задачи ⬇️

import csv
import sys

def process_large_csv(file_path, filter_column, threshold, aggregate_column):
count = 0
total_sum = 0.0

with open(file_path, 'r', encoding='utf-8') as file:
reader = csv.DictReader(file)

for row in reader:
# Преобразование значений для фильтрации и агрегации
try:
filter_value = float(row[filter_column])
aggregate_value = float(row[aggregate_column])
except ValueError:
continue # Пропускаем строки с некорректными данными

# Фильтрация строк по заданному условию
if filter_value > threshold:
count += 1
total_sum += aggregate_value

# Вывод итоговой статистики
if count > 0:
average = total_sum / count
print(f"Обработано записей: {count}")
print(f"Среднее значение {aggregate_column} для записей, где {filter_column} > {threshold}: {average:.2f}")
else:
print("Записи, соответствующие условиям фильтрации, не найдены.")

if __name__ == "__main__":
if len(sys.argv) < 5:
print("Использование: python process_data.py <file_path> <filter_column> <threshold> <aggregate_column>")
sys.exit(1)

file_path = sys.argv[1]
filter_column = sys.argv[2]
threshold = float(sys.argv[3])
aggregate_column = sys.argv[4]

process_large_csv(file_path, filter_column, threshold, aggregate_column)

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9🔥2

3.18K views14:07

Data Science | Machinelearning [ru]

👀

Распознавание ж/д пикетных столбиков по фотографиям с беспилотника на основе PyTorch и YOLOv5

Статья раскрывает процесс использования БПЛА и нейросетей для точного распознавания объектов на ортофотопланах. Описаны этапы подготовки данных, разметки и обучения сети на примере поиска пикетных столбиков на ж/д перегонах. Исходный код доступен на GitHub.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥12

3.25K views18:07

Data Science | Machinelearning [ru]

➡️

ИИ в логистике: отслеживаем транспортные средства на производственной территории с помощью нейросети

В статье описан путь от пет-проекта до системы для трекинга транспорта: нейросети, компьютерное зрение и инструменты, позволяющие «видеть» и анализировать производственные процессы.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6🐳1

3.21K views10:07

Data Science | Machinelearning [ru]

📈

Подборка статей для вашей карьеры

• В какой момент профессия программиста свернула не туда?

• Офис Intel в Израиле отменил бесплатный кофе

• Войти в IT – в 37 и с дипломом филфака

• Путь к мастерству: Как стать успешным разработчиком

• Галера от HH или джуны по-дешевке

Please open Telegram to view this post

VIEW IN TELEGRAM

🐳2❤1

3.17K views14:07

Data Science | Machinelearning [ru]

📝

Подборка вакансий для сеньоров

Senior Data Analyst
• Python, SQL, Tableau, Power BI
• Уровень дохода не указан | 3–5 лет опыта

Senior Data scientist (Recsys)
• Python, PyTorch, Машинное обучение, Deep Learning
• Уровень дохода не указан | Опыт не указан

Senior Big Data Engineer
• ClickHouse, Apache Hadoop, Apache Spark, Apache Kafka
• Уровень дохода не указан | Опыт не указан

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

2.99K views18:07

Data Science | Machinelearning [ru]

✔️ Простой и быстрый тест LLM для прототипа: сравниваем 16 open-source-моделей на запросе с разной температурой

В статье рассказывается, как быстро протестировать 16 LLM для создания текстовых прототипов, даже если вы не в теме ML. Берём несколько моделей, сравниваем результаты, оцениваем, подходит ли под задачу.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3🔥1

3.24K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Как работает __name__ == "__main__" в Python?

Конструкция if __name__ == "__main__" определяет, выполняется ли скрипт как основная программа или импортируется в качестве модуля. Это позволяет запускать код только при непосредственном запуске скрипта, исключая его выполнение при импорте.

➡️ Пример:

def greet():
    print("Hello from greet!")

if __name__ == "__main__":
    greet()  # Этот вызов выполнится только при запуске скрипта напрямую

🗣 В этом примере greet() будет вызвана, если файл запускается напрямую. Если скрипт импортируется как модуль, greet() не вызовется, сохраняя модульную структуру кода.

🖥

Подробнее тут

Please open Telegram to view this post

VIEW IN TELEGRAM

🐳7❤1

3.3K views14:07

Data Science | Machinelearning [ru]

🛍

Как базовые знания кодинга и нейросетей сэкономили нам больше 15 млн ₽ на Wildberries [скрины]

Статья раскрывает процесс полной автоматизации создания карточек товаров для маркетплейсов, используя нейросети, Photoshop и немного креативного подхода. Описаны практические методы, которые экономят тысячи рублей на огромном ассортименте.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

3.31K views18:07

Data Science | Machinelearning [ru]

⚙️

Неувядающая классика или «чёрный ящик»: кто кого в битве за прогноз. Глава вторая. Продолжение

Статья продолжает разбор моделирования температурного временного ряда с двойной сезонностью. Основное внимание уделено подбору оптимальных параметров сезонной модели САРПСС для точного описания данных.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤2🔥1

3.55K views10:07

Data Science | Machinelearning [ru]

🚀 Развивай мышление архитектора

Ты можешь быть отличным кодером, но без понимания архитектуры систем твои решения будут ограниченными.

👉 Совет: разбирайся в том, как строятся сложные системы. Читай про микросервисы, масштабирование, кэширование, распределённые базы данных. Даже если ты не архитектор, это сделает тебя сильнее как разработчика.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤13👍2

3.41K views14:07

Data Science | Machinelearning [ru]

👩‍💻

FlexiPrompt: Удобное создание динамических промптов в Python

Статья знакомит с FlexiPrompt — лёгкой библиотекой для генерации промптов в Python при работе с языковыми моделями. Рассмотрены её преимущества: быстрая интеграция, гибкая настройка диалога и возможность создания нескольких агентов в одной LLM.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3

3.33K views10:08