Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20.1K subscribers
632 photos
39 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
🤔 Deep learning в определении адреса по описанию: опыт API Яндекс Карт

На Хабре вышла статья о том, как команда API Яндекс Карт применила современные методы машинного обучения в задаче геокодирования. Новая архитектура Геокодера построена на базе active learning и contrastive learning, что позволяет быстро адаптировать инструмент для разных стран. Он способен конвертировать текстовые запросы из поисковой строки в координаты, даже если в них есть ошибки, опечатки или народные названия.

Инструмент показал существенное улучшение метрик в Казахстане: +14% rel@1 и −18% has-irrel@10.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
7🔥6🐳2👍1
⚙️ Physics-based и data-driven моделирование

Статья объясняет различия между физически обоснованными моделями и моделями, основанными на данных, с примерами задач машинного обучения. Рассматривается подход к обработке данных, выбору моделей и их обучению.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥1
➡️ Машинное обучение: Линейная регрессия. Теория и реализация. С нуля. На чистом Python

В этой статье я рассказываю про линейную регрессию, свойства, которыми должны обладать данные для модели, процесс обучения, регуляризацию, метрики качества. Кроме чистой теории я показываю как это все реализовать. Я рассказываю все в своем стиле и понимании - с инженерной точки зрения, с точки зрения того, как реализовывать с нуля.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
👍124
📝 Подборка вакансий для сеньоров

Инженер по данным / Data Scientist (Senior Data Engineer, удалённо)
Git, SQL, Python, PostgreSQL, Docker, Nginx, Elasticsearch
от 300 000 до 450 000 ₽ | 3+ года

Data Engineer
MongoDB, SQL, Python, Pandas
Уровень дохода не указан | 5+ лет

Senior Data analyst
SQL, Apache Airflow, Python, BI
Уровень дохода не указан | 3+ года
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍1🐳1
🚗 Еще несколько лет назад лидары были громоздкими приборами, которые произвели революцию в беспилотном транспорте. Как любая технология, LiDar прошла стадии от НИОКР до массового внедрения и снижения стоимости. Сегодня лидары используются в большинстве видов беспилотного транспорта: от автомобилей и самолетов до роботов-доставщиков.

📈 Компания Hesai сообщила о взрывном росте производительности: в декабре 2024 года Hesai стала первым в мире производителем лидаров, который выпускает 100 000 устройств в месяц. За месяц Hesai выпустила 10 тыс. флагманских лидаров AT128. Такой производительности удалось достичь после запуска автоматизированной линии, объединившей 100 технологических процессов, 90% из которых выполняют роботы. Это только начало роста компании, лидера на рынке «бытовых» лидаров.

Весной прошлого года компания представила первый в истории компактный лидар для автомобилей — модель ET25, толщина которого составляет всего 48 мм, вдвое меньше габаритов флагманского AT128. Главное преимущество новинки в том, что ET25 располагается за лобовым стеклом и не портит экстерьер автомобиля внешним модулем, что является недостатком предыдущих моделей. Такое решение стало возможным благодаря сотрудничеству Hesai с производителем высокопрозрачных автомобильных стекол Fuyao: эффективность прибора снизилась всего на 10%, несмотря на возможные помехи от лобового стекла, а дальность действия по-прежнему составляет 225 м, что достаточно для мониторинга дорожной обстановки.

Наконец, на середину 2025 года намечен старт производства модели ATX. Это компактный лидар, который фильтрует естественные помехи (дождь, туман, смог и т.д.) с точностью до 99,9%. Дальность его действия составляет 300 м.

Подписывайтесь 👉Технологические конкурсы НТИ Up Great

#Зарубежный_опыт
3👍1
➡️ DeepSeek AI: От инъекции промпта до захвата аккаунта

Статья рассказывает о новой AI-модели DeepSeek-R1-Lite, созданной для логических рассуждений. Рассматриваются её возможности, тестирование и перспективы применения в задачах анализа и вычислений.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
👎43
⚙️ Что такое argparse в Python?

argparse — это стандартный модуль Python для работы с аргументами командной строки. Он позволяет удобно разбирать, валидировать и документировать входные параметры.

➡️ Пример:

import argparse

# Создаём парсер аргументов
parser = argparse.ArgumentParser(denoscription="Пример работы с argparse")
parser.add_argument("--name", type=str, help="Имя пользователя")
parser.add_argument("--age", type=int, help="Возраст пользователя")

# Разбираем аргументы
args = parser.parse_args()

# Используем аргументы
print(f"Привет, {args.name}! Тебе {args.age} лет.")


🗣️ В этом примере argparse разбирает аргументы --name и --age, переданные через командную строку. Это упрощает создание CLI-приложений.


🖥 Подробнее тут
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42
Машинное обучение для начинающих: Введение в нейронные сети

Этот пост предназначен для абсолютных новичков и предполагает НУЛЕВЫЕ предварительные знания машинного обучения. Мы разберемся, как работают нейронные сети, и реализуем одну из них с нуля на Python.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
👍173
🗣️ «Будущее за узкой специализацией»: судьбоносное интервью Ляна Вэньфэна, основателя DeepSeek, посвящённое v2

Интервью с основателем DeepSeek о том, как их модель v2 бросила вызов OpenAI, сделав Китай лидером в гонке ИИ. Как стартапу удалось обойти гигантов и что ждёт индустрию дальше?

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
👎7👍31🔥1
⚙️ Работай с ошибками, а не просто чини их

Когда исправляешь баг, проверь, не скрывается ли за ним системная проблема.

👉 Совет: если баг появился — подумай, почему он вообще стал возможен. Можно ли было предотвратить его тестами? Нужно ли пересмотреть архитектуру? Хорошие разработчики не просто чинят ошибки, а учатся на них.
Please open Telegram to view this post
VIEW IN TELEGRAM
8👍1
🔎 Подборка зарубежных вакансий

Product Analyst
🟢Metabase, Grafana, SQL, Python, A/B тесты, PostgreSQL, Google BigQuery
🟢от 3 500 $ | 3–6 лет

Data Quality Analyst (Financial Data)
🟢SQL, Python, REST API, JSON, интерпретация данных
🟢от 200 000 до 500 000 ₽ | 3–6 лет

Senior Python Developer
🟢Python, Django, MySQL, Redis, Kafka, ClickHouse, Grafana
🟢от 3 000 $ | 6+ лет
Please open Telegram to view this post
VIEW IN TELEGRAM
3🐳1
🤖 Как мы сделали клиентскую поддержку интернет-магазина действительно умной: опыт внедрения RAG-бота

Статья описывает разработку «умного» помощника для клиентской поддержки интернет-магазина. Рассматриваются проблемы, с которыми сталкивался клиент, и пути их решения с помощью ИИ.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
👍82
👩‍💻 Удаление выбросов из набора данных

Напишите функцию, которая принимает pandas.DataFrame и название столбца, а затем возвращает новый DataFrame, в котором выбросы (значения, выходящие за пределы 1.5 межквартильного размаха) удалены.

Пример:

import pandas as pd

data = pd.DataFrame({
"values": [10, 12, 15, 100, 14, 13, 11, 102, 16]
})

cleaned_data = remove_outliers(data, "values")
print(cleaned_data)
# Ожидаемый результат:
# values
# 0 10
# 1 12
# 2 15
# 4 14
# 5 13
# 6 11
# 8 16


Решение задачи🔽

import pandas as pd

def remove_outliers(df, column):
Q1 = df[column].quantile(0.25)
Q3 = df[column].quantile(0.75)
IQR = Q3 - Q1

lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

return df[(df[column] >= lower_bound) & (df[column] <= upper_bound)]

# Пример использования:
data = pd.DataFrame({
"values": [10, 12, 15, 100, 14, 13, 11, 102, 16]
})

cleaned_data = remove_outliers(data, "values")
print(cleaned_data)
Please open Telegram to view this post
VIEW IN TELEGRAM
👍123🐳2🔥1
⚙️ Пишем сервис инференса ML-модели на go, на примере BERT-а

Статья объясняет, как внедрить ML-модель, обученную на Python, в сервис на Go, используя ONNX. Рассматривается пример работы с моделью seara/rubert-tiny2-russian-sentiment для анализа сентимента текста.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31
👩‍💻 Заполнение пропущенных значений медианой в числовых столбцах

Напишите функцию, которая принимает pandas.DataFrame и возвращает новый DataFrame, где все пропущенные значения (NaN) в числовых столбцах заменены на медиану соответствующего столбца.

Пример:

import pandas as pd

data = pd.DataFrame({
'age': [25, 30, None, 45, 50],
'salary': [50000, 60000, 55000, None, 65000],
'city': ['NY', 'LA', 'NY', 'SF', 'LA']
})

cleaned_data = fill_missing_with_median(data)
print(cleaned_data)


     age    salary city
0 25.0 50000.0 NY
1 30.0 60000.0 LA
2 37.5 55000.0 NY
3 45.0 57500.0 SF
4 50.0 65000.0 LA


Решение задачи🔽

import pandas as pd

def fill_missing_with_median(df):
df_filled = df.copy()
for col in df_filled.select_dtypes(include='number').columns:
median = df_filled[col].median()
df_filled[col].fillna(median, inplace=True)
return df_filled

# Пример использования:
data = pd.DataFrame({
'age': [25, 30, None, 45, 50],
'salary': [50000, 60000, 55000, None, 65000],
'city': ['NY', 'LA', 'NY', 'SF', 'LA']
})

cleaned_data = fill_missing_with_median(data)
print(cleaned_data)
Please open Telegram to view this post
VIEW IN TELEGRAM
👍62
🔎 Подборка вакансий для джунов

Junior/Middle Data Engineer
🟢Oracle, ClickHouse, Airflow, Pentaho DE, Streamsets, Debezium, Spark, Python
🟢до 360 000 ₽ | 1–3 года

Junior Data Engineer
🟢Python, PostgreSQL, SQL, pandas, NumPy, Jupyter Notebook, NoSQL, Data Mining, Big Data
🟢от 150 000 до 200 000 ₽ | 1–3 года

Специалист по сбору данных/ Junior data analyst
🟢Excel, Google Sheets, анализ данных, маркетинговые данные
🟢от 50 000 до 60 000 ₽ | 1–3 года
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍1
⚙️ Машинное обучение: Логистическая регрессия. Теория и реализация. С нуля

В этой статье я привел базовые сведения о логистической регрессии и показал как сделать модель с нуля на чистом Python. Логистическая функция, обучение, метрики качества для модели классификации, реализация и небольшой разбор обучения весов.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍1
⚙️ Что такое модуль shutil в Python и зачем он используется?

Модуль shutil предоставляет функции для работы с файлами и директориями, такие как копирование, перемещение и удаление. Он полезен для автоматизации задач управления файлами.

➡️ Пример:

import shutil

# Копирование файла
shutil.copy('source.txt', 'destination.txt')

# Перемещение файла
shutil.move('destination.txt', 'folder/destination.txt')


🗣️ В этом примере shutil.copy копирует файл, а shutil.move перемещает его в другую директорию. Это облегчает выполнение операций с файлами и папками.


🖥 Подробнее тут
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🐳21
📝 Подборка вакансий для мидлов

Data Scientist
Python, SQL, MS SQL Server, PostgreSQL, A/B тестирование, ML-модели, Ad-Hoc аналитика
Уровень дохода не указан | Средний (Middle)

Data Scientist (Моделирование РБ)
Python, Spark, SQL, ML, DL, NLP, Apache Spark
Уровень дохода не указан | Средний (Middle)

ML Engineer / Инженер машинного обучения
Python, PyTorch, PostgreSQL, FastAPI, LLM, MLOps, Git, Docker, AirFlow
Уровень дохода не указан | Средний (Middle)

Python разработчик
Python, FastAPI, PostgreSQL, React
от 150 000 ₽ | Средний (Middle)

Python разработчик
Python, Flask, FastAPI, PostgreSQL, MySQL
Уровень дохода не указан | Средний (Middle)
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍1