NEW BOT Телеграм, страница - 808272781

Data Science | Machinelearning [ru]

20.1K subscribers

680 photos

42 videos

29 files

3.56K links

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD

Download Telegram

About

Blog

Apps

Platform

Data Science | Machinelearning [ru]

20.1K subscribers

Data Science | Machinelearning [ru]

❓

Кто такой разметчик данных и сколько он зарабатывает? Все, что вам нужно знать о профессии

Как нейросети распознают лица и управляют авто? Всё это благодаря разметчикам данных, которые учат ИИ видеть и понимать мир. Узнайте, сколько они зарабатывают и какие навыки нужны для работы.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4🔥1🐳1

3.24K views18:07

Data Science | Machinelearning [ru]

👩‍💻

Линейная регрессия и её регуляризация в Scikit-learn

Линейная регрессия — это метод обучения с учителем, который предсказывает значение y на основе признаков X. Основное допущение — линейная зависимость y от Xi, что позволяет оценить y через математическое выражение.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤3🔥1🐳1

3.39K views10:07

Data Science | Machinelearning [ru]

💡 Пиши код так, чтобы не пришлось его объяснять

Тебя уже дважды спрашивали, как работает твой код, а ты сам еле вспоминаешь?

👉 Совет: если код требует объяснения — значит, его можно улучшить. Улучши имена переменных, избавься от хитрых решений, добавь комментарии только там, где действительно нужно. Хороший код читается, как книга, а не как зашифрованное послание.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7❤2🐳1

3.21K views14:07

Data Science | Machinelearning [ru]

➡️

Что такое технология TTS, как устроена и каких сферах используется синтез речи

Вместе с Григорием Стерлингом, лидом команды TTS в SberDevices, разбираемся, как устроена технология, как разрабатывают синтезаторы речи и что нужно знать, чтобы работать в этой сфере.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4🐳1

3.21K views18:07

Data Science | Machinelearning [ru]

📨

Пример использования программы для парсинга e-mail адресов с сайтов, созданный ИИ

Сегодня делимся программой для парсинга e-mail с сайтов, созданной за 30 минут с помощью ИИ от Rokitok. Это показывает, как ИИ ускоряет задачи, на которые раньше уходили дни или большие бюджеты.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2❤1

3.07K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Задачка по Python

Создайте Python-приложение, которое принимает путь к CSV-файлу с историческими данными о ценах акций (дата, цена закрытия) и предсказывает, будет ли цена акций расти или падать на следующий день, используя простую линейную регрессию. Программа должна выводить прогноз в консоль и сохранять модель в файл model.pkl.

➡️ Пример:

• python app.py predict_stock prices.csv — предсказывает изменение цены акций на следующий день.

Решение задачи ⬇️

import sys
import pandas as pd
from sklearn.linear_model import LinearRegression
import pickle

def predict_stock(file):
data = pd.read_csv(file)
X = data.index.values.reshape(-1, 1)
y = data['Close'].values

model = LinearRegression()
model.fit(X, y)

next_day = [[len(X)]]
prediction = model.predict(next_day)

with open('model.pkl', 'wb') as f:
pickle.dump(model, f)

print(f'Прогноз на следующий день: {"Рост" if prediction > y[-1] else "Падение"}')

if __name__ == "__main__":
if len(sys.argv) != 3 or sys.argv[1] != 'predict_stock':
print('Использование: python app.py predict_stock <файл.csv>')
else:
predict_stock(sys.argv[2])

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍2

3.04K views14:07

Data Science | Machinelearning [ru]

🔝

Самые интересные статьи за последние дни:

• Как я с помощью нейросетей обогнала инфляцию [4 кейса, скрины, никакой рекламы]

• Сравнение роста заработных плат ректората МГТУ им. Н.Э. Баумана и остальных сотрудников

• Pydantic 2: Полное руководство для Python-разработчиков — от основ до продвинутых техник

• SOLID на котиках

• Как переподписка по CPU в облаке снижает производительность Arenadata DB: результаты, которых не ждёшь

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3

2.91K views18:07

Data Science | Machinelearning [ru]

☁️

Как обучить ИИ в облаке

Сегодня мы хотим поделиться с вами нашим успешным кейсом, который наглядно демонстрирует, как облачные технологии могут значительно улучшить и ускорить процессы разработки и обучения ИИ.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥3❤1

3.02K views10:07

Data Science | Machinelearning [ru]

👩‍💻 Задачка по Python

Создайте Python-приложение, которое принимает набор данных с несколькими признаками и определяет наиболее важные признаки для предсказания целевой переменной с помощью модели RandomForest. Программа должна выводить результаты в виде списка признаков, отсортированных по важности.

➡️ Пример:

• python app.py data.csv — выводит важные признаки.

Решение задачи ⬇️

import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split

def feature_importance(file):
data = pd.read_csv(file)
X = data.drop(columns=['target'])
y = data['target']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

model = RandomForestClassifier()
model.fit(X_train, y_train)

importance = pd.Series(model.feature_importances_, index=X.columns).sort_values(ascending=False)
print("Важные признаки:\n", importance)

if __name__ == "__main__":
import sys
if len(sys.argv) != 2:
print("Использование: python app.py <файл.csv>")
else:
feature_importance(sys.argv[1])

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3

3.29K views14:07

Data Science | Machinelearning [ru]

🔎

Подборка вакансий для джунов

Системный аналитик junior
🟢UML, BPMN, API, MongoDB
🟢от 60 000 ₽ | 1–3 года

Junior Data Scientist \ Аналитик
🟢SQL, PostgreSQL, MariaDB, ClickHouse, Python, Pandas, Git
🟢от 50 000 до 60 000 ₽ | 1–3 года

Data-аналитик в области временных рядов (Junior)
🟢Python, Pandas, NumPy, SciPy, Matplotlib, Seaborn, SQL
🟢от 247 000 ₽ | 1–3 года

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍1🔥1

3.08K views18:07

Data Science | Machinelearning [ru]

🤔

В чём различия между Data Science, машинным обучением, ИИ, глубоким обучением и Data Mining

Эта статья поможет вам не только понять, какие исследования и опыт позволяют извлекать знания из данных, чтобы делать машины умнее, но и как конкретно это происходит.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7

3.24K views10:07

Data Science | Machinelearning [ru]

❓

Как обработать пропущенные данные?

Пропущенные данные — частая проблема в Data Science, особенно в реальных данных. Чтобы правильно обработать такие данные, можно использовать стратегии заполнения пропусков (например, средним значением или медианой) или удалить строки/столбцы с пропусками.

➡️ Пример:

import pandas as pd
import numpy as np

data = {'A': [1, 2, np.nan, 4], 'B': [5, np.nan, 7, 8]}
df = pd.DataFrame(data)

# Заполнение пропусков средним значением
df['A'].fillna(df['A'].mean(), inplace=True)

print(df)

🗣️ Пропущенные данные могут искажать результаты анализа, поэтому их нужно обрабатывать перед моделированием.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7❤1👎1

3.18K views14:07

Data Science | Machinelearning [ru]

📝

Подборка вакансий для мидлов

Data Engineer
• SQL, Python, bash, Airflow, NiFi, PostgreSQL, GreenPlum, Clickhouse, Redis, Kafka, Git, Linux
• Уровень дохода не указан | Опыт работы: 3–6 лет

Data аналитик (Виртуальные ассистенты)
• SQL, Big Data, Python, библиотеки для анализа данных
• Уровень дохода не указан | Опыт работы: 1–3 года

Data Scientist (Скоринг/моделирование)
• Python, SQL, Hadoop, методы машинного обучения
• Уровень дохода не указан | Опыт работы: 1–3 года

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

3.08K views18:07

Data Science | Machinelearning [ru]

🤖

42 секунды и 5 запросов: как взламывают генеративные ИИ-модели

Ты знал, что злоумышленникам для взлома генеративных ИИ достаточно всего 42 секунды и пяти запросов? В этой статье мы разберем, как это происходит, какие уязвимости существуют и как защитить свои системы от подобных атак.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍2🐳2

3.16K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Задачка по Python

Создайте Python-скрипт, который читает большой CSV-файл построчно, фильтрует строки по заданному критерию и подсчитывает агрегированные данные на основе указанного столбца. Скрипт должен эффективно обрабатывать файл, используя потоковое чтение (без загрузки файла целиком в память) и выводить итоговую статистику в консоль.

➡️ Пример:

• python process_data.py data.csv age 30 — фильтрует строки, где значение в столбце age больше 30, и подсчитывает общее количество таких записей и среднее значение в другом числовом столбце, например, salary.

Решение задачи ⬇️

import csv
import sys

def process_large_csv(file_path, filter_column, threshold, aggregate_column):
count = 0
total_sum = 0.0

with open(file_path, 'r', encoding='utf-8') as file:
reader = csv.DictReader(file)

for row in reader:
# Преобразование значений для фильтрации и агрегации
try:
filter_value = float(row[filter_column])
aggregate_value = float(row[aggregate_column])
except ValueError:
continue # Пропускаем строки с некорректными данными

# Фильтрация строк по заданному условию
if filter_value > threshold:
count += 1
total_sum += aggregate_value

# Вывод итоговой статистики
if count > 0:
average = total_sum / count
print(f"Обработано записей: {count}")
print(f"Среднее значение {aggregate_column} для записей, где {filter_column} > {threshold}: {average:.2f}")
else:
print("Записи, соответствующие условиям фильтрации, не найдены.")

if __name__ == "__main__":
if len(sys.argv) < 5:
print("Использование: python process_data.py <file_path> <filter_column> <threshold> <aggregate_column>")
sys.exit(1)

file_path = sys.argv[1]
filter_column = sys.argv[2]
threshold = float(sys.argv[3])
aggregate_column = sys.argv[4]

process_large_csv(file_path, filter_column, threshold, aggregate_column)

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9🔥2

3.18K views14:07

Data Science | Machinelearning [ru]

👀

Распознавание ж/д пикетных столбиков по фотографиям с беспилотника на основе PyTorch и YOLOv5

Статья раскрывает процесс использования БПЛА и нейросетей для точного распознавания объектов на ортофотопланах. Описаны этапы подготовки данных, разметки и обучения сети на примере поиска пикетных столбиков на ж/д перегонах. Исходный код доступен на GitHub.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥12

3.25K views18:07

Data Science | Machinelearning [ru]

➡️

ИИ в логистике: отслеживаем транспортные средства на производственной территории с помощью нейросети

В статье описан путь от пет-проекта до системы для трекинга транспорта: нейросети, компьютерное зрение и инструменты, позволяющие «видеть» и анализировать производственные процессы.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6🐳1

3.21K views10:07

Data Science | Machinelearning [ru]

📈

Подборка статей для вашей карьеры

• В какой момент профессия программиста свернула не туда?

• Офис Intel в Израиле отменил бесплатный кофе

• Войти в IT – в 37 и с дипломом филфака

• Путь к мастерству: Как стать успешным разработчиком

• Галера от HH или джуны по-дешевке

Please open Telegram to view this post

VIEW IN TELEGRAM

🐳2❤1

3.17K views14:07

Data Science | Machinelearning [ru]

📝

Подборка вакансий для сеньоров

Senior Data Analyst
• Python, SQL, Tableau, Power BI
• Уровень дохода не указан | 3–5 лет опыта

Senior Data scientist (Recsys)
• Python, PyTorch, Машинное обучение, Deep Learning
• Уровень дохода не указан | Опыт не указан

Senior Big Data Engineer
• ClickHouse, Apache Hadoop, Apache Spark, Apache Kafka
• Уровень дохода не указан | Опыт не указан

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

2.99K views18:07

Data Science | Machinelearning [ru]

✔️ Простой и быстрый тест LLM для прототипа: сравниваем 16 open-source-моделей на запросе с разной температурой

В статье рассказывается, как быстро протестировать 16 LLM для создания текстовых прототипов, даже если вы не в теме ML. Берём несколько моделей, сравниваем результаты, оцениваем, подходит ли под задачу.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3🔥1

3.24K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Как работает __name__ == "__main__" в Python?

Конструкция if __name__ == "__main__" определяет, выполняется ли скрипт как основная программа или импортируется в качестве модуля. Это позволяет запускать код только при непосредственном запуске скрипта, исключая его выполнение при импорте.

➡️ Пример:

def greet():
    print("Hello from greet!")

if __name__ == "__main__":
    greet()  # Этот вызов выполнится только при запуске скрипта напрямую

🗣 В этом примере greet() будет вызвана, если файл запускается напрямую. Если скрипт импортируется как модуль, greet() не вызовется, сохраняя модульную структуру кода.

🖥

Подробнее тут

Please open Telegram to view this post

VIEW IN TELEGRAM

🐳7❤1

3.3K views14:07