NEW BOT Телеграм, страница - 302411718

Data Science | Machinelearning [ru]

20.1K subscribers

674 photos

41 videos

29 files

3.56K links

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD

Download Telegram

About

Blog

Apps

Platform

Data Science | Machinelearning [ru]

20.1K subscribers

Data Science | Machinelearning [ru]

👩‍💻

Нормализация набора данных

Напишите функцию, которая принимает pandas.DataFrame и нормализует все числовые столбцы в диапазон от 0 до 1.

Пример:

import pandas as pd

data = pd.DataFrame({
    'feature1': [10, 20, 30, 40],
    'feature2': [1, 2, 3, 4],
    'feature3': ['A', 'B', 'C', 'D']  # Не числовой столбец
})

result = normalize_dataframe(data)
print(result)
# Ожидаемый результат:
#    feature1  feature2 feature3
# 0       0.0      0.0       A
# 1       0.333    0.333     B
# 2       0.667    0.667     C
# 3       1.0      1.0       D

Решение задачи🔽

import pandas as pd

def normalize_dataframe(df):
df_normalized = df.copy()
for col in df.select_dtypes(include='number').columns:
min_val = df[col].min()
max_val = df[col].max()
df_normalized[col] = (df[col] - min_val) / (max_val - min_val)
return df_normalized

# Пример использования:
data = pd.DataFrame({
'feature1': [10, 20, 30, 40],
'feature2': [1, 2, 3, 4],
'feature3': ['A', 'B', 'C', 'D']
})

result = normalize_dataframe(data)
print(result)

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥5❤2👍1

3.69K views14:07

Data Science | Machinelearning [ru]

🔥

Самые интересные статьи за последние дни:

• Реализация подобия Apple Vision Pro

• Почему LLM так плохо играют в шахматы (и что с этим делать)

• LLM будут врать вечно

• Как мы создали LLM-модель Cotype Nano

• Человек и LLM: как построить метрики для оценки моделей

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍1

3.74K views18:07

Data Science | Machinelearning [ru]

⚙️

Оптимизация Trellis: запускаем генерацию 3D моделей на GPU с 8ГБ памяти

В статье рассказано, как с помощью оптимизации Trellis удалось снизить требования к видеопамяти с 16GB до 8GB, сохранив качество. Рассмотрены подходы к сжатию данных, переработке структур и повышению доступности инструмента.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤1

3.65K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Предобработка текстовых данных и создание мешка слов (Bag of Words)

Напишите функцию, которая принимает список текстовых строк и возвращает мешок слов (Bag of Words) в виде словаря, где ключи — это уникальные слова, а значения — их частота встречаемости в текстах. Функция должна выполнять базовую предобработку текста: приведение к нижнему регистру, удаление знаков препинания и стоп-слов.

Пример использования:

texts = [
    "I love data science!",
    "Data science is amazing.",
    "Machine learning is a part of data science."
]

bag_of_words = create_bag_of_words(texts)
print(bag_of_words)
# Ожидаемый результат (пример):
# {'love': 1, 'data': 3, 'science': 3, 'amazing': 1, 'machine': 1, 'learning': 1, 'part': 1}

Решение задачи🔽

from collections import defaultdict
import string
from nltk.corpus import stopwords
import nltk

# Загружаем стоп-слова (если не загружены, выполнить: nltk.download('stopwords'))
nltk.download('stopwords')
stop_words = set(stopwords.words('english'))

def preprocess_text(text):
# Приведение к нижнему регистру и удаление знаков препинания
text = text.lower()
text = text.translate(str.maketrans('', '', string.punctuation))
return text

def create_bag_of_words(texts):
bag = defaultdict(int)

for text in texts:
# Предобработка текста
processed_text = preprocess_text(text)

# Разделение текста на слова и подсчет частот
for word in processed_text.split():
if word not in stop_words: # Игнорируем стоп-слова
bag[word] += 1

return dict(bag)

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤1

3.87K views14:07

Data Science | Machinelearning [ru]

🔎

Подборка вакансий для джунов

Junior ML Engineer
🟢Python, SQL, Pandas, Django, Sklearn, PyTorch, Docker, OpenAI API
🟢от 1 500 $ | 1–3 года

Аналитик ML/AI/DS
🟢Python, C/C++, R, Java, Go, JS, Kotlin, Swift, PHP, Jira, Confluence, ClearML
🟢от 150 000 ₽ | 1–3 года

Data Scientist
🟢Python, SQL, pandas, Matplotlib, Numpy, CatBoost, XGBoost, LightGBM, Git
🟢от 120 000 до 200 000 ₽ | 1–3 года

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤1

3.72K views18:07

Data Science | Machinelearning [ru]

🤔

Почему DeepSeek Janus-7B — это нечто действительно невероятное

В статье рассматриваются ключевые особенности новой мультимодальной модели DeepSeek Janus-7B, которая, по заявлениям, превосходит популярные AI-инструменты, такие как DALL-E 3 и Stable Diffusion. Подробно анализируются её уникальные технические решения и возможности.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8👍3🐳3

3.85K views10:07

Data Science | Machinelearning [ru]

❓

Что такое Overfitting и как его избежать в моделях машинного обучения?

Overfitting (переобучение) возникает, когда модель слишком хорошо запоминает обучающие данные, включая шум, и теряет способность обобщать информацию на новых данных. Это приводит к высокому качеству на обучающем наборе, но плохим результатам на тестовых данных.

➡️

Основные способы предотвращения Overfitting:

1. Регуляризация:
• L1 и L2-регуляризация добавляют штраф к сложным моделям.
• Уменьшают коэффициенты модели, предотвращая избыточное подстраивание.

2. Dropout (для нейронных сетей):
• Исключение случайных нейронов на этапе обучения.

3. Снижение сложности модели:
• Использование меньшего числа признаков или более простых алгоритмов.

4. Увеличение данных:
• Генерация новых данных или увеличение объёма обучающей выборки.

➡️

Пример:

from sklearn.linear_model import Ridge
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_diabetes

# Загружаем данные
data = load_diabetes()
X_train, X_test, y_train, y_test = train_test_split(data.data, data.target, test_size=0.2, random_state=42)

# Создаём модель с регуляризацией (Ridge)
ridge = Ridge(alpha=1.0)
ridge.fit(X_train, y_train)

# Оцениваем качество
train_score = ridge.score(X_train, y_train)
test_score = ridge.score(X_test, y_test)
print(f"Train Score: {train_score}, Test Score: {test_score}")

🗣️ В этом примере Ridge-регрессия с параметром регуляризации alpha=1.0 помогает предотвратить переобучение, улучшая обобщающую способность модели.

🖥

Подробнее тут

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤2🔥1

4.06K views14:07

Data Science | Machinelearning [ru]

📝

Подборка вакансий для мидлов

Аналитик SQL / Data Analyst
• SQL, Python, MySQL, PostgreSQL, Yandex DataLens
• от 100 000 ₽ | 1+ год

ML-инженер
• Python, PyTorch, TensorFlow, Linux, Git, Bash
• от 100 000 ₽ | 3+ года

Machine Learning Engineer / Media AI Agents
• Python, PyTorch, TensorFlow, Hugging Face, Docker, RESTful API, Pandas
• от 2 500 до 5 000 $ | 3+ года

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

3.67K views18:07

Data Science | Machinelearning [ru]

➡️

Машинное обучение: общие принципы и концепции

В этой статье я рассказываю про основные концепции, типы обучения, типы задач в машинном обучении и также делаю постановку задачи машинного обучения (МО). Все это я рассказываю в своем стиле и понимании.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤9👍1

3.79K views10:07

Data Science | Machinelearning [ru]

🤔

Deep learning в определении адреса по описанию: опыт API Яндекс Карт

На Хабре вышла статья о том, как команда API Яндекс Карт применила современные методы машинного обучения в задаче геокодирования. Новая архитектура Геокодера построена на базе active learning и contrastive learning, что позволяет быстро адаптировать инструмент для разных стран. Он способен конвертировать текстовые запросы из поисковой строки в координаты, даже если в них есть ошибки, опечатки или народные названия.

Инструмент показал существенное улучшение метрик в Казахстане: +14% rel@1 и −18% has-irrel@10.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

Как с помощью deep learning мы построили Геокодер, масштабируемый для разных стран

Давным‑давно, когда мир ML состоял из бустингов, линейных моделей и статистических подходов, перед нашей командой API Яндекс Карт стояла задача сделать качественный Геокодер. Это алгоритм,...

❤7🔥6🐳2👍1

3.96K views14:07

Data Science | Machinelearning [ru]

⚙️

Physics-based и data-driven моделирование

Статья объясняет различия между физически обоснованными моделями и моделями, основанными на данных, с примерами задач машинного обучения. Рассматривается подход к обработке данных, выбору моделей и их обучению.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🔥1

3.8K views18:07

Data Science | Machinelearning [ru]

➡️

Машинное обучение: Линейная регрессия. Теория и реализация. С нуля. На чистом Python

В этой статье я рассказываю про линейную регрессию, свойства, которыми должны обладать данные для модели, процесс обучения, регуляризацию, метрики качества. Кроме чистой теории я показываю как это все реализовать. Я рассказываю все в своем стиле и понимании - с инженерной точки зрения, с точки зрения того, как реализовывать с нуля.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

👍12❤4

4.14K views10:07

Data Science | Machinelearning [ru]

📝

Подборка вакансий для сеньоров

Инженер по данным / Data Scientist (Senior Data Engineer, удалённо)
• Git, SQL, Python, PostgreSQL, Docker, Nginx, Elasticsearch
• от 300 000 до 450 000 ₽ | 3+ года

Data Engineer
• MongoDB, SQL, Python, Pandas
• Уровень дохода не указан | 5+ лет

Senior Data analyst
• SQL, Apache Airflow, Python, BI
• Уровень дохода не указан | 3+ года

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍1🐳1

3.61K views14:07

Data Science | Machinelearning [ru]

📈

Подборка статей для вашей карьеры

• Как продакт-менеджеру учить английский: план, сроки, советы

• Иллюзия прогресса: почему мне не удалось дать студентам-айтишникам реальный опыт

• Interview copilots: как кандидаты используют ChatGPT на интервью

• Моя история входа в IT: как я ломал стены своих ограничений

• Как мы разработали систему грейдинга для системных аналитиков

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5

3.45K views18:07

Data Science | Machinelearning [ru]

Forwarded from Технологические конкурсы Up Great

🚗 Еще несколько лет назад лидары были громоздкими приборами, которые произвели революцию в беспилотном транспорте. Как любая технология, LiDar прошла стадии от НИОКР до массового внедрения и снижения стоимости. Сегодня лидары используются в большинстве видов беспилотного транспорта: от автомобилей и самолетов до роботов-доставщиков.

📈 Компания Hesai сообщила о взрывном росте производительности: в декабре 2024 года Hesai стала первым в мире производителем лидаров, который выпускает 100 000 устройств в месяц. За месяц Hesai выпустила 10 тыс. флагманских лидаров AT128. Такой производительности удалось достичь после запуска автоматизированной линии, объединившей 100 технологических процессов, 90% из которых выполняют роботы. Это только начало роста компании, лидера на рынке «бытовых» лидаров.

Весной прошлого года компания представила первый в истории компактный лидар для автомобилей — модель ET25, толщина которого составляет всего 48 мм, вдвое меньше габаритов флагманского AT128. Главное преимущество новинки в том, что ET25 располагается за лобовым стеклом и не портит экстерьер автомобиля внешним модулем, что является недостатком предыдущих моделей. Такое решение стало возможным благодаря сотрудничеству Hesai с производителем высокопрозрачных автомобильных стекол Fuyao: эффективность прибора снизилась всего на 10%, несмотря на возможные помехи от лобового стекла, а дальность действия по-прежнему составляет 225 м, что достаточно для мониторинга дорожной обстановки.

Наконец, на середину 2025 года намечен старт производства модели ATX. Это компактный лидар, который фильтрует естественные помехи (дождь, туман, смог и т.д.) с точностью до 99,9%. Дальность его действия составляет 300 м.

Подписывайтесь 👉Технологические конкурсы НТИ Up Great

#Зарубежный_опыт

❤3👍1

3.43K views06:07

Data Science | Machinelearning [ru]

➡️

DeepSeek AI: От инъекции промпта до захвата аккаунта

Статья рассказывает о новой AI-модели DeepSeek-R1-Lite, созданной для логических рассуждений. Рассматриваются её возможности, тестирование и перспективы применения в задачах анализа и вычислений.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

👎4❤3

3.63K views10:07

Data Science | Machinelearning [ru]

⚙️

Что такое argparse в Python?

argparse — это стандартный модуль Python для работы с аргументами командной строки. Он позволяет удобно разбирать, валидировать и документировать входные параметры.

➡️

Пример:

import argparse

# Создаём парсер аргументов
parser = argparse.ArgumentParser(denoscription="Пример работы с argparse")
parser.add_argument("--name", type=str, help="Имя пользователя")
parser.add_argument("--age", type=int, help="Возраст пользователя")

# Разбираем аргументы
args = parser.parse_args()

# Используем аргументы
print(f"Привет, {args.name}! Тебе {args.age} лет.")

🗣️ В этом примере argparse разбирает аргументы --name и --age, переданные через командную строку. Это упрощает создание CLI-приложений.

🖥

Подробнее тут

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤2

3.74K views14:07

Data Science | Machinelearning [ru]

☝

Машинное обучение для начинающих: Введение в нейронные сети

Этот пост предназначен для абсолютных новичков и предполагает НУЛЕВЫЕ предварительные знания машинного обучения. Мы разберемся, как работают нейронные сети, и реализуем одну из них с нуля на Python.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

👍17❤3

4.33K views18:07

Data Science | Machinelearning [ru]

🗣️

«Будущее за узкой специализацией»: судьбоносное интервью Ляна Вэньфэна, основателя DeepSeek, посвящённое v2

Интервью с основателем DeepSeek о том, как их модель v2 бросила вызов OpenAI, сделав Китай лидером в гонке ИИ. Как стартапу удалось обойти гигантов и что ждёт индустрию дальше?

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

👎7👍3❤1🔥1

4.16K views10:07

Data Science | Machinelearning [ru]

⚙️

Работай с ошибками, а не просто чини их

Когда исправляешь баг, проверь, не скрывается ли за ним системная проблема.

👉 Совет: если баг появился — подумай, почему он вообще стал возможен. Можно ли было предотвратить его тестами? Нужно ли пересмотреть архитектуру? Хорошие разработчики не просто чинят ошибки, а учатся на них.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8👍1

3.77K views14:07

Data Science | Machinelearning [ru]

🔎

Подборка зарубежных вакансий

Product Analyst
🟢Metabase, Grafana, SQL, Python, A/B тесты, PostgreSQL, Google BigQuery
🟢от 3 500 $ | 3–6 лет

Data Quality Analyst (Financial Data)
🟢SQL, Python, REST API, JSON, интерпретация данных
🟢от 200 000 до 500 000 ₽ | 3–6 лет

Senior Python Developer
🟢Python, Django, MySQL, Redis, Kafka, ClickHouse, Grafana
🟢от 3 000 $ | 6+ лет

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3🐳1

3.69K views18:07