Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20K subscribers
639 photos
40 videos
29 files
3.53K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
➡️ Машинное обучение: Линейная регрессия. Теория и реализация. С нуля. На чистом Python

В этой статье я рассказываю про линейную регрессию, свойства, которыми должны обладать данные для модели, процесс обучения, регуляризацию, метрики качества. Кроме чистой теории я показываю как это все реализовать. Я рассказываю все в своем стиле и понимании - с инженерной точки зрения, с точки зрения того, как реализовывать с нуля.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
👍531
👩‍💻 Удаление выбросов из набора данных

Напишите функцию, которая принимает pandas.DataFrame и название столбца, а затем возвращает новый DataFrame, в котором выбросы (значения, выходящие за пределы 1.5 межквартильного размаха) удалены.

Пример:

import pandas as pd

data = pd.DataFrame({
"values": [10, 12, 15, 100, 14, 13, 11, 102, 16]
})

cleaned_data = remove_outliers(data, "values")
print(cleaned_data)
# Ожидаемый результат:
# values
# 0 10
# 1 12
# 2 15
# 4 14
# 5 13
# 6 11
# 8 16


Решение задачи🔽

import pandas as pd

def remove_outliers(df, column):
Q1 = df[column].quantile(0.25)
Q3 = df[column].quantile(0.75)
IQR = Q3 - Q1

lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

return df[(df[column] >= lower_bound) & (df[column] <= upper_bound)]

# Пример использования:
data = pd.DataFrame({
"values": [10, 12, 15, 100, 14, 13, 11, 102, 16]
})

cleaned_data = remove_outliers(data, "values")
print(cleaned_data)
Please open Telegram to view this post
VIEW IN TELEGRAM
61
➡️ DeepSeek AI: От инъекции промпта до захвата аккаунта

Статья рассказывает о новой AI-модели DeepSeek-R1-Lite, созданной для логических рассуждений. Рассматриваются её возможности, тестирование и перспективы применения в задачах анализа и вычислений.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
31
Машинное обучение для начинающих: Введение в нейронные сети

Этот пост предназначен для абсолютных новичков и предполагает НУЛЕВЫЕ предварительные знания машинного обучения. Мы разберемся, как работают нейронные сети, и реализуем одну из них с нуля на Python.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
41
⚙️ Что такое модуль shutil в Python и зачем он используется?

Модуль shutil предоставляет функции для работы с файлами и директориями, такие как копирование, перемещение и удаление. Он полезен для автоматизации задач управления файлами.

➡️ Пример:

import shutil

# Копирование файла
shutil.copy('source.txt', 'destination.txt')

# Перемещение файла
shutil.move('destination.txt', 'folder/destination.txt')


🗣️ В этом примере shutil.copy копирует файл, а shutil.move перемещает его в другую директорию. Это облегчает выполнение операций с файлами и папками.


🖥 Подробнее тут
Please open Telegram to view this post
VIEW IN TELEGRAM
51
🤖 Как мы сделали клиентскую поддержку интернет-магазина действительно умной: опыт внедрения RAG-бота

Статья описывает разработку «умного» помощника для клиентской поддержки интернет-магазина. Рассматриваются проблемы, с которыми сталкивался клиент, и пути их решения с помощью ИИ.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
👍52
⚙️ Пишем сервис инференса ML-модели на go, на примере BERT-а

Статья объясняет, как внедрить ML-модель, обученную на Python, в сервис на Go, используя ONNX. Рассматривается пример работы с моделью seara/rubert-tiny2-russian-sentiment для анализа сентимента текста.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
41
👩‍💻 Удаление выбросов из набора данных

Напишите функцию, которая принимает pandas.DataFrame и название столбца, а затем возвращает новый DataFrame, в котором выбросы (значения, выходящие за пределы 1.5 межквартильного размаха) удалены.

Пример:

import pandas as pd

data = pd.DataFrame({
"values": [10, 12, 15, 100, 14, 13, 11, 102, 16]
})

cleaned_data = remove_outliers(data, "values")
print(cleaned_data)
# Ожидаемый результат:
# values
# 0 10
# 1 12
# 2 15
# 4 14
# 5 13
# 6 11
# 8 16


Решение задачи🔽

import pandas as pd

def remove_outliers(df, column):
Q1 = df[column].quantile(0.25)
Q3 = df[column].quantile(0.75)
IQR = Q3 - Q1

lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

return df[(df[column] >= lower_bound) & (df[column] <= upper_bound)]

# Пример использования:
data = pd.DataFrame({
"values": [10, 12, 15, 100, 14, 13, 11, 102, 16]
})

cleaned_data = remove_outliers(data, "values")
print(cleaned_data)
Please open Telegram to view this post
VIEW IN TELEGRAM
2
➡️ Multichannel Keyword Spotting for Noisy Conditions.

Исследователи Яндекса рассказали о технологии, которая распознает голосовые команды даже на фоне сильного шума. Ключевая идея — attention-механизм, который обрабатывает сразу два входных сигнала: один — после шумоподавления, второй — после эхоподавления. Технология уже работает в устройствах Яндекса, а теперь доступна и разработчикам по всему миру. Исследование приняли на Interspeech 2025 — ведущую конференцию по речевым технологиям.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
31
➡️ Добро пожаловать в CAMELoT

В статье рассказывается о новой архитектуре CAMELoT, которая помогает большим языковым моделям обрабатывать длинные последовательности, не требуя повторного обучения. Она использует ассоциативную память для улучшения производительности.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
32
⚙️ Как устроена Лаборатория Инноваций СИБУРа и зачем она нужна

Как применять ИИ и цифровизацию в гигантской промышленной компании с десятками заводов? Узнайте, как СИБУР реализует более 30 успешных кейсов и работает с сотнями гипотез в Лаборатории ИИ.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
32
⚙️ Что такое @staticmethod и @classmethod в Python, и чем они отличаются?

Декораторы @staticmethod и @classmethod используются для создания методов, которые не требуют экземпляра класса. @staticmethod — это метод, который не зависит от экземпляра или самого класса, а @classmethod получает доступ к самому классу через первый параметр cls.

➡️ Пример:

class MyClass:
@staticmethod
def static_method():
return "Это статический метод"

@classmethod
def class_method(cls):
return f"Это метод класса {cls.__name__}"

# Использование
print(MyClass.static_method()) # Это статический метод
print(MyClass.class_method()) # Это метод класса MyClass


🗣️ В этом примере static_method ничего не знает о классе, в то время как class_method может взаимодействовать с классом, к которому он принадлежит. Используйте их в зависимости от того, нужно ли вам взаимодействие с классом.


🖥 Подробнее тут
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍2
✔️ Системы ценностей больших языковых моделей

Разбираю, как LLM умудряются обзавестись политикой, любимыми расами и списками «жертв». От первых восторгов до шока прошло меньше двух лет — теперь копаем, что внутри.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
21
🤔 Будущее LLM: 7 прогнозов на 2025 год

Что нового ждёт языковые модели в 2025 году? Обсудим прогнозы: расширение возможностей ИИ, их внедрение в бизнес и жизнь. Узнайте, чего ожидать и почему Джарвис пока останется мечтой.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
21
⚡️ Ошибки должны быть громкими

Тихие ошибки — это как протечка трубы: они долго не видны, пока не станет плохо.

👉 Совет: логируй и сигнализируй о любых неожиданных ситуациях. Лучше пусть код упадёт с понятным сообщением в деве, чем тихо сломает данные в проде.
Please open Telegram to view this post
VIEW IN TELEGRAM
8🔥3
➡️ Будущее LLM в XS, S, M и других размерах

В статье обсуждаются подходы к обучению ИИ оптимально использовать свои ресурсы: от минимальной мощности для простых задач до максимума для сложных. Разбираем концепции «я не знаю» и запросов помощи.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
31
💎Кратко про Ensemble методы с примерами

В этой статье мы рассмотрим три основных подхода: Bagging, Boosting и Stacking, и посмотрим, как их реализовать на Python.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
42
👩‍💻 Генератор случайных паролей с настройками

Напишите функцию, которая генерирует случайный пароль заданной длины. Пароль должен быть сформирован на основе пользовательских требований:

Использовать ли цифры.
Использовать ли буквы верхнего и/или нижнего регистра.
Использовать ли специальные символы.

➡️ Пример:

password = generate_password(length=12, use_digits=True, use_uppercase=True, use_lowercase=True, use_specials=False)
print(password)
# Пример вывода: A1b2C3d4E5f6


Решение задачи🔽

import random
import string

def generate_password(length, use_digits=True, use_uppercase=True, use_lowercase=True, use_specials=True):
if length < 1:
raise ValueError("Длина пароля должна быть больше 0")

# Формируем набор символов
character_pool = ""
if use_digits:
character_pool += string.digits
if use_uppercase:
character_pool += string.ascii_uppercase
if use_lowercase:
character_pool += string.ascii_lowercase
if use_specials:
character_pool += "!@#$%^&*()-_=+[]{}|;:,.<>?/"

if not character_pool:
raise ValueError("Нужно выбрать хотя бы один тип символов")

# Генерация пароля
return ''.join(random.choice(character_pool) for _ in range(length))

# Пример использования
password = generate_password(length=12, use_digits=True, use_uppercase=True, use_lowercase=True, use_specials=True)
print(password)
Please open Telegram to view this post
VIEW IN TELEGRAM
32