NEW BOT Телеграм, страница - 283434502

Data Science | Machinelearning [ru]

20K subscribers

686 photos

46 videos

29 files

3.58K links

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

Личный блог автора - @just_genych
По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD

Download Telegram

About

Blog

Apps

Platform

Data Science | Machinelearning [ru]

20K subscribers

Data Science | Machinelearning [ru]

⚙️

Claude, есть пробитие: взламываем самую защищенную модель

В статье показывают, как обойти фильтры модели Claude с помощью модифицированного метода внедрения системных директив, чтобы заставить её выполнять запрещённые инструкции

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5⚡2

2.16K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Что такое обучение с учителем (supervised learning) в ML?

Обучение с учителем — это тип машинного обучения, при котором модель обучается на размеченных данных.

Каждый пример содержит вход (features) и правильный ответ (label), который модель должна научиться предсказывать.

➡️

Пример:

from sklearn.linear_model import LogisticRegression
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

X, y = load_iris(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

model = LogisticRegression()
model.fit(X_train, y_train)

print("Предсказания:", model.predict(X_test[:5]))

🗣️ В этом примере модель обучается на данных о цветах и учится определять их вид (например, ирис сетоса).

Это классический пример классификации — подтипа обучения с учителем.

🖥

Подробнее тут

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2⚡2

2.23K views14:07

Data Science | Machinelearning [ru]

⚙️

ML на «плюсах»: 5 материалов о необычном подходе к обучению моделей

В статье показывают, как и зачем использовать C++ в машинном обучении: распознавание лиц, объекты в реальном времени и прирост в производительности без питоньих зависимостей

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3🐳3

2.17K views18:07

Data Science | Machinelearning [ru]

🧠 Как внедрять LLM?

Сейчас хайп вокруг чат-ботов стихает и фокус смещается в сторону внедрения LLM и решения прикладных задач для пользователей и бизнеса. Как именно внедрять LLM и какие Copilot-решения нужны бизнесу обсудят на Turbo ML Conf. Конфа пройдет 19 июля в Москве и объединит 35 докладчиков из российских бигтехов и топовых вузов.

📊 После деловой и теоретической программы гостей ждет практика в виде разных интерактивов, среди которых – диджитал-сканворды, демостенды, где можно посмотреть, что под капотом платформенных решений и диджей-сет. Онлайн-трансляции не будет, поэтому лучше заранее зарегистрироваться — количество мест на участие в конференции ограничено.

❤10👎2👍1🐳1

2.16K views07:07

Data Science | Machinelearning [ru]

⚙️

Знакомьтесь, FRIDA. Открытая эмбеддинг-модель для русского языка

В этой статье мы расскажем о нашей новой модели FRIDA, которая сейчас (20.05.2025) занимает первое место в русскоязычном бенчмарке MTEB.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2⚡2👍1👎1

2.19K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Оценка точности модели классификации (Accuracy Score)

Напишите функцию, которая вычисляет accuracy score — долю правильных предсказаний модели классификации. Это базовая метрика, часто используемая для оценки качества модели.

Функция работает следующим образом:

• Сравнивает каждую пару истинного (y_true) и предсказанного (y_pred) значения.

• Считает количество совпадений.

• Делит число правильных предсказаний на общее количество примеров

Решение задачи🔽

def accuracy_score(y_true, y_pred):
correct = sum(1 for true, pred in zip(y_true, y_pred) if true == pred)
return correct / len(y_true)

# Примеры использования
y_true = [0, 1, 1, 0, 1]
y_pred = [0, 0, 1, 0, 1]

print(accuracy_score(y_true, y_pred))
# Ожидаемый результат: 0.8

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2⚡1

2.03K views14:07

Data Science | Machinelearning [ru]

This media is not supported in your browser

VIEW IN TELEGRAM

⚙️

Как работают рекомендательные системы и какое у них будущее

Рекомендательные системы в интернете работают уже так хорошо, что даже могут подсказать человеку скрытые интересы, о которых он сам не догадывается. Но рекомендации отчасти упёрлись в потолок. Что делать, чтобы дальнейший рост их качества не замедлялся, рассказал инженер рекомендательных систем Яндекса Николай Савушкин.

Смотреть в YouTube...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👎3🔥1

2.15K views15:07

Data Science | Machinelearning [ru]

⚙️

Машинное обучение в Apache Spark с помощью MLlib

Показываем, как применить MLlib из Apache Spark в своих проектах, и делимся советами, чтобы не сжечь кластеры раньше времени. Всё просто, даже если вы не Data Jedi.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4⚡2

2.24K views18:07

Data Science | Machinelearning [ru]

⚙️

Что у меня за распределение

Василий из Т-Банка объясняет, почему классические критерии согласия не всегда подходят для симуляции колл-центра. Покажет подводные камни и как не влететь в ловушку распределений.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1🐳1

2.02K views10:07

Data Science | Machinelearning [ru]

📈

Подборка статей для вашей карьеры

• Мои Red-Flags при устройстве в IT-компании: Как не стать гребцом. Часть 2

• Как строить карьеру в корпорации

• История: работа в чешском Red Hat

• Циничные заметки о карьере в IT от «гейткипера»

• Моя петиция EB-1A на грин-карту талантов, одобренная с первой попытки

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2⚡1

2.02K views14:07

Data Science | Machinelearning [ru]

⚙️

Что такое токенизация в машинном обучении?

Токенизация — это процесс разбиения текста на отдельные части: слова, подслова или символы.
Часто используется на этапе предобработки текста для NLP-моделей.

Каждый токен — это минимальная смысловая единица, которую модель будет анализировать.

➡️

Пример:

from sklearn.feature_extraction.text import CountVectorizer

texts = ["Я люблю машинное обучение", "Обучение — это интересно"]

vectorizer = CountVectorizer()
X = vectorizer.fit_transform(texts)

print(vectorizer.get_feature_names_out())
print(X.toarray())

# Вывод:
['интересно' 'люблю' 'машинное' 'обучение' 'это' 'я']
[[0 1 1 1 0 1]
 [1 0 0 1 1 0]]

🗣️ Токенизация превращает текст в числовую матрицу, понятную модели.
Это первый шаг в обработке текста перед обучением моделей на естественном языке.

🖥

Подробнее тут

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5⚡2

2.27K views18:07

Data Science | Machinelearning [ru]

⚙️

Нейро-дайджест: ключевые события мира AI за 12–19 мая 2025

В этом выпуске: Codex от OpenAI, GPT‑4.1, токсичный Grok, генератор от Tencent и агент DeepMind, который сам изобретает алгоритмы. ИИ неделя на максималках.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2😁2

2.06K views10:07

Data Science | Machinelearning [ru]

🧠

Что делает train_test_split в ML и зачем он нужен

Функция train_test_split() из библиотеки sklearn разбивает данные на обучающую и тестовую выборки.

Это важно, чтобы проверить, как хорошо модель работает на невидимых данных.

➡️

Пример:

from sklearn.model_selection import train_test_split

X = [[1], [2], [3], [4], [5]]
y = [0, 0, 1, 1, 1]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=42)

print("Обучение:", X_train)
print("Тест:", X_test)

🗣️ Почему важно:

• Модель не должна учиться на тех же данных, на которых её оценивают

• test_size указывает, какой процент данных пойдёт на тест

• random_state нужен для воспроизводимости

Это один из самых базовых, но обязательных шагов в любом ML-проекте

🖥

Подробнее тут

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3⚡2

2.07K views14:07

Data Science | Machinelearning [ru]

👀

Stack Overflow умирает? Как ИИ вытесняет живые сообщества разработчиков

Разбираемся, почему Stack Overflow теряет аудиторию: виноваты ли ИИ, UX или жадность? Плюс — что делает администрация и что ждёт разработчиков в пост-SO эпоху.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👎2⚡1

2.23K views18:07

Data Science | Machinelearning [ru]

⚙️

Код, железо, стратегия: в чем секрет победителей ML-соревнований?

Разбор отчёта о соревнованиях по ML за 2024 год: кто победил, как и почему. Без мотивационных цитат — только конкретные приёмы, модели и стратегии, которые реально приносят $22 млн.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3⚡2

2.15K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Задачка по Python

Создайте Python-скрипт, который читает большой CSV-файл построчно, фильтрует строки по заданному критерию и подсчитывает агрегированные данные на основе указанного столбца. Скрипт должен эффективно обрабатывать файл, используя потоковое чтение (без загрузки файла целиком в память) и выводить итоговую статистику в консоль.

➡️ Пример:

• python process_data.py data.csv age 30 — фильтрует строки, где значение в столбце age больше 30, и подсчитывает общее количество таких записей и среднее значение в другом числовом столбце, например, salary.

Решение задачи ⬇️

import csv
import sys

def process_large_csv(file_path, filter_column, threshold, aggregate_column):
count = 0
total_sum = 0.0

with open(file_path, 'r', encoding='utf-8') as file:
reader = csv.DictReader(file)

for row in reader:
# Преобразование значений для фильтрации и агрегации
try:
filter_value = float(row[filter_column])
aggregate_value = float(row[aggregate_column])
except ValueError:
continue # Пропускаем строки с некорректными данными

# Фильтрация строк по заданному условию
if filter_value > threshold:
count += 1
total_sum += aggregate_value

# Вывод итоговой статистики
if count > 0:
average = total_sum / count
print(f"Обработано записей: {count}")
print(f"Среднее значение {aggregate_column} для записей, где {filter_column} > {threshold}: {average:.2f}")
else:
print("Записи, соответствующие условиям фильтрации, не найдены.")

if __name__ == "__main__":
if len(sys.argv) < 5:
print("Использование: python process_data.py <file_path> <filter_column> <threshold> <aggregate_column>")
sys.exit(1)

file_path = sys.argv[1]
filter_column = sys.argv[2]
threshold = float(sys.argv[3])
aggregate_column = sys.argv[4]

process_large_csv(file_path, filter_column, threshold, aggregate_column)

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡3❤2

2.25K views14:07

Data Science | Machinelearning [ru]

🔥

Самые интересные статьи за последние дни:

• Построение базы знаний компании и поиска документов на LLM и RAG

• Что побуждает LLM врать и как этого избежать в своих продуктах

• Ломаем капчу 4Chan

• На чём учатся современные модели машинного перевода: опыт команды Яндекс Переводчика

• Gemini вырывается вперед, Китай спамит моделями, в Minecraft запустили AI-агентов: главные события ноября в сфере ИИ

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡3❤1

2.2K views18:07

Data Science | Machinelearning [ru]

⚙️

Как обойти детекторы текста, сгенерированного ИИ

Автор исследует, почему нейросети пока плохо отличают ИИ-тексты от человеческих, и делится, что реально работает (или не очень), если вы вдруг решите их «перехитрить».

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡2❤1

2.42K views11:17

Data Science | Machinelearning [ru]

⛓️

Обновление зависимости — это маленький рефакторинг

Обновил библиотеку, всё сломалось, и теперь ты в дебаге на два часа? Классика.

👉 Совет: относись к обновлению зависимостей как к отдельной, полноценной задаче. Тесты, чеклисты, небольшие коммиты. Чем меньше сюрпризов ты оставишь себе на проде — тем крепче будешь спать.

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡2❤1

2.31K views14:07

Data Science | Machinelearning [ru]

⚙️

Как алгоритм Recovering Difference Softmax (RDS) делает рекомендации и уведомления точнее и эффективнее

RDS — это про то, как машинке выбрать лучший вариант уведомления или карточки, чтобы ты вернулся. Объясняем, как он усиливает ML-модели и растит вовлечённость пользователей.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5⚡2

2.34K views18:07

Data Science | Machinelearning [ru]

⚙️

Где ИИ врёт и как с этим жить — мой гайд после фейлов

Автор копает, почему ИИ фантазирует, как это мешает в работе и чем тут помогут промпты. В финале — гайд, как писать запросы без сюрпризов.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡5❤1

2.26K views11:07