NEW BOT Телеграм, страница - 24826660

Data Science | Machinelearning [ru]

20K subscribers

637 photos

40 videos

29 files

3.52K links

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD

Download Telegram

About

Blog

Apps

Platform

Data Science | Machinelearning [ru]

20K subscribers

Data Science | Machinelearning [ru]

⚙️

Как я учился писать промпты для RAG пайплайна. Разбор 3-го места на AI Journey 24 E-com AI assistant

Статья описывает опыт создания RAG-пайплайна с использованием Gigachat API для участия в AI Journey. Автор делится инсайтами, полученными в процессе разработки ассистента для рекомендаций товаров, который занял 3-е место.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡3👍2❤1

2.09K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Задачка по Python

Напишите функцию, которая принимает DataFrame и возвращает имена двух столбцов с наибольшей положительной корреляцией.

➡️ Пример:

data = pd.DataFrame({
    'A': [1, 2, 3, 4],
    'B': [2, 4, 6, 8],
    'C': [1, 0, 1, 0],
    'D': [10, 20, 30, 40]
})

print(find_highest_correlation(data))  
# Ожидаемый результат: ('B', 'D')

Решение задачи ⬇️

def find_highest_correlation(df):
corr_matrix = df.corr()
max_corr = 0
columns = (None, None)

for col1 in corr_matrix.columns:
for col2 in corr_matrix.columns:
if col1 != col2 and corr_matrix[col1][col2] > max_corr:
max_corr = corr_matrix[col1][col2]
columns = (col1, col2)

return columns

# Пример использования:
import pandas as pd

data = pd.DataFrame({
'A': [1, 2, 3, 4],
'B': [2, 4, 6, 8],
'C': [1, 0, 1, 0],
'D': [10, 20, 30, 40]
})

print(find_highest_correlation(data)) # Ожидаемый результат: ('B', 'D')

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡3👎2❤1

2.08K views14:07

Data Science | Machinelearning [ru]

🤔

Размер имеет значение: как исторические данные помогают на этапе дизайна A/B-теста

Статья изучает применение метода CUPED в A/B-тестах для повышения чувствительности и сокращения выборок. Рассматривается его использование на этапе дизайна эксперимента без потери статистической мощности.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2⚡1🔥1

2.02K views18:07

Data Science | Machinelearning [ru]

⚙️

Как обеспечить Data Quality терабайтов данных и зачем: опыт СИБУРа

Статья посвящена опыту СИБУРа в создании DQ-сервиса для обеспечения качества данных. Рассматриваются задачи DQ, архитектура решения и универсальные подходы, применимые для анализа данных в крупных компаниях.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2⚡1👎1

1.93K views10:07

Data Science | Machinelearning [ru]

⚙️

Что такое train_test_split в Scikit-learn и зачем он используется?

train_test_split — это функция из библиотеки Scikit-learn, которая используется для разделения данных на тренировочный и тестовый наборы. Это необходимо для оценки качества модели на данных, которые она не видела во время обучения.

➡️

Пример:

from sklearn.model_selection import train_test_split
import numpy as np

# Данные
X = np.array([[1], [2], [3], [4], [5]])
y = np.array([10, 20, 30, 40, 50])

# Разделение данных (80% на обучение, 20% на тест)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print("Тренировочные данные:", X_train, y_train)
print("Тестовые данные:", X_test, y_test)

🗣️ В этом примере данные разделяются на тренировочный и тестовый наборы в соотношении 80/20. Это позволяет модели обучаться на одной части данных и проверять точность на другой, что предотвращает переобучение.

🖥

Подробнее тут

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3⚡1🔥1

2.02K views14:07

Data Science | Machinelearning [ru]

⚙️

Пишем свою Diffusion модель с нуля

Статья предлагает разобраться в устройстве Diffusion моделей, их математике и принципах работы. Автор делится простыми объяснениями, примерами кода и результатами генерации изображений на собственной модели.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3⚡3

1.91K views18:07

Data Science | Machinelearning [ru]

⚙️

Нейросетевой апскейлинг дома: вторая молодость для классических мультфильмов

Статья рассказывает, как с помощью нейросетей улучшить качество старых видеозаписей, включая VHS и DVD. Описываются инструменты, процесс и результаты с примерами, доступные каждому без глубоких технических знаний.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡5🔥4👎1

1.95K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Проверка, являются ли две строки анаграммами

Напишите функцию, которая принимает две строки и проверяет, являются ли они анаграммами. Анаграммы — это слова, которые содержат одинаковые буквы в одинаковом количестве, но в разном порядке. Игнорируйте регистр и пробелы.

Пример:

result1 = are_anagrams("listen", "silent")
print(result1)  # Ожидаемый результат: True

result2 = are_anagrams("hello", "world")
print(result2)  # Ожидаемый результат: False

Решение задачи🔽

def are_anagrams(str1, str2):
# Удаляем пробелы и приводим к одному регистру
str1 = ''.join(str1.lower().split())
str2 = ''.join(str2.lower().split())

# Проверяем, равны ли отсортированные символы
return sorted(str1) == sorted(str2)

# Пример использования:
result1 = are_anagrams("listen", "silent")
print(result1) # Ожидаемый результат: True

result2 = are_anagrams("hello", "world")
print(result2) # Ожидаемый результат: False

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡2👍2

1.99K views16:07

Data Science | Machinelearning [ru]

🔥

Самые интересные статьи за последние дни:

• о3 теснит программистов? Как OpenAI снова всех удивила

• AI, который всё за нас решит

• Второе пришествие мейнфреймов. Всё больше компаний хотят запускать ИИ у себя в офисе

• Обзор на разнообразные интерфейсы Stable Diffusion. Automatic1111 — не одинок

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3⚡1🔥1

2.06K views18:07

Data Science | Machinelearning [ru]

⚙️

KAN 2.0: Kolmogorov-Arnold Networks Meet Science

Статья представляет перевод работы о нейронных сетях на основе алгоритма Колмогорова-Арнольда (KAN). Рассматриваются новые исследования, связь с наукой и использование библиотеки pykan на Python для практических задач.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥4⚡1👍1👎1

1.95K views10:07

Data Science | Machinelearning [ru]

📈

Подборка статей для вашей карьеры

• «Снова упала?» Как поднять самооценку и зачем мы сравниваем себя с другими, даже если от этого больно

• Из учителя в QA: мой путь в IT

• Рынок дата-инженеров и прогноз на 2025

• Как сделать резюме, которое дойдёт до работодателя. Фильтры ATS в 2025 году

• Ошибайся смело: жизненные уроки из мира machine learning

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2⚡1

1.88K views14:07

Data Science | Machinelearning [ru]

🤖

Как удалить Excel навсегда: делегируем юнит-экономику на Wildberries нейронке

Статья объясняет, как нейросети помогают оптимизировать юнит-экономику продавцов на WB, особенно при работе с большим ассортиментом. Рассматриваются подходы к автоматизации анализа и принятию решений.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥3⚡1

2.29K views18:07

Data Science | Machinelearning [ru]

💳

Как мы провели ИИ-трансформацию стратегических процессов Сбера

Статья рассказывает об ИИ-трансформации Сбера, включая ключевые задачи, такие как стресс-тестирование, анализ рынков и прогнозирование эффективности сотрудников. Рассматривается использование ИИ до и после трансформации.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

👎3❤2

2.18K views10:07

Data Science | Machinelearning [ru]

⚙️

Что такое генераторы в Python и зачем они нужны?

Генераторы — это функции в Python, которые возвращают значения по одному с помощью ключевого слова yield, вместо полного возврата всех значений сразу. Они полезны для работы с большими объемами данных, так как сохраняют память, генерируя значения на лету.

➡️

Пример:

# Генератор для получения первых N чисел Фибоначчи
def fibonacci(n):
    a, b = 0, 1
    for _ in range(n):
        yield a
        a, b = b, a + b

# Используем генератор
for num in fibonacci(5):
    print(num)

# Вывод: 0, 1, 1, 2, 3

🗣️ В этом примере генератор fibonacci вычисляет числа по запросу, вместо сохранения всех значений в памяти. Это делает генераторы особенно удобными для работы с потоками данных или бесконечными последовательностями.

🖥

Подробнее тут

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡4❤2

2.23K views14:07

Data Science | Machinelearning [ru]

📖

«Охота на электроовец: большая книга искусственного интеллекта» или как написать книгу про ИИ без регистрации и SMS

История о том, как за 6 лет я написал двухтомник, посвящённый искусственному интеллекту и машинному обучению.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡4

2.25K views18:07

Data Science | Machinelearning [ru]

🤖

Псст, ИИ нужен? 5 полезных инструментов для разработчика

Статья предлагает подборку инструментов, платформ и шаблонов для работы с языковыми моделями и создания ИИ-ассистентов. Рассматриваются протестированные в МТС решения, упрощающие разработку и интеграцию.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2⚡1👍1

2.3K views10:07

Data Science | Machinelearning [ru]

📋 Документация — это не про "всё", а про "важное"

Ты не обязан описывать каждую кнопку, каждый метод. Но ты обязан объяснить, как с этим жить.

👉 Совет: документируй не детали, а маршруты: как запустить, как добавить фичу, как починить баг. Хорошая документация — это не энциклопедия, а инструкция к выживанию.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍3

2.12K views14:07

Data Science | Machinelearning [ru]

➡️

Машинное обучение: общие принципы и концепции

В этой статье я рассказываю про основные концепции, типы обучения, типы задач в машинном обучении и также делаю постановку задачи машинного обучения (МО). Все это я рассказываю в своем стиле и понимании.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡3❤1👍1🔥1

2.37K views18:07

Data Science | Machinelearning [ru]

⚙️

Physics-based и data-driven моделирование

Статья объясняет различия между физически обоснованными моделями и моделями, основанными на данных, с примерами задач машинного обучения. Рассматривается подход к обработке данных, выбору моделей и их обучению.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5⚡1

2K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Поиск числа с максимальной суммой цифр

Напишите функцию, которая принимает список положительных чисел и возвращает число с наибольшей суммой цифр. Если таких чисел несколько, вернуть первое из них.

Пример:

numbers = [123, 456, 789, 234]
result = max_digit_sum(numbers)
print(result)
# Ожидаемый результат: 789 (7+8+9=24, это максимальная сумма)

Решение задачи🔽

def max_digit_sum(numbers):
def digit_sum(n):
return sum(int(digit) for digit in str(n))

return max(numbers, key=digit_sum)

# Пример использования:
numbers = [123, 456, 789, 234]
result = max_digit_sum(numbers)
print(result) # Ожидаемый результат: 789

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3⚡1

1.99K views14:07

Data Science | Machinelearning [ru]

🔥

Самые интересные статьи за последние дни:

• Не бойтесь потоков в Python, они не кусаются

• Рубрика: VPS на пределе возможностей. LLM на CPU с 12Gb RAM

• Предвзятость русскоязычных LLM: кого машина считает «обычным человеком»?

• Семантический веб: краткий обзор технологий и инструментов

• Инструмент обеспечения качества данных: от теории к практике

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3⚡1

1.92K views18:07