NEW BOT Телеграм, страница - 363183813

Data Science | Machinelearning [ru]

20K subscribers

686 photos

46 videos

29 files

3.58K links

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

Личный блог автора - @just_genych
По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD

Download Telegram

About

Blog

Apps

Platform

Data Science | Machinelearning [ru]

20K subscribers

Data Science | Machinelearning [ru]

⚙️

Будущее ИИ — формальные грамматики

Разбираюсь, почему LLM иногда несут чушь: слишком много вариантов и мало правил. В статье покажу, как формальные грамматики помогают приручить этот хаос и научить модели мыслить структурно

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡5

2.11K views18:07

Data Science | Machinelearning [ru]

This media is not supported in your browser

VIEW IN TELEGRAM

💯

нейросетей для ЛЮБЫХ задач.

Составили шпаргалку с бесплатными нейросетями - тексты, кодинг, аудио, видео, дизайн, слив данных и много чего ещё.

✅

Подробности в закрепе

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡2❤1

2.23K views08:07

Data Science | Machinelearning [ru]

👀

Часть 2: Vision Transformer (ViT) — Когда трансформеры научились видеть

Рассказываю, как Vision Transformer заменил свёртки на внимание, почему изображения теперь режут на патчи, и в каких случаях трансформеры действительно видят, а когда всё ещё слепы.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

2.17K views11:07

Data Science | Machinelearning [ru]

👩‍💻

Предсказание цены дома по площади

Напишите модель линейной регрессии, которая будет предсказывать цену дома на основе его площади в квадратных метрах.

Сгенерируйте искусственные данные, обучите модель и сделайте предсказание для нового значения.

Решение задачи🔽

import numpy as np
from sklearn.linear_model import LinearRegression
import matplotlib.pyplot as plt

# Генерация данных
np.random.seed(0)
area = np.random.randint(30, 150, size=100).reshape(-1, 1) # площадь от 30 до 150 м²
price = area * 1000 + np.random.normal(0, 10000, size=area.shape) # цена с шумом

# Обучение модели
model = LinearRegression()
model.fit(area, price)

# Предсказание
new_area = np.array([[100]])
predicted_price = model.predict(new_area)
print(f"Ожидаемая цена дома 100 м²: {predicted_price[0][0]:,.0f}₽")

# Визуализация
plt.scatter(area, price, label='Данные')
plt.plot(area, model.predict(area), color='red', label='Линейная модель')
plt.xlabel('Площадь (м²)')
plt.ylabel('Цена (₽)')
plt.legend()
plt.show()

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6⚡2

2.1K views14:07

Data Science | Machinelearning [ru]

🔥

Самые интересные статьи за последние дни:

• Не бойтесь потоков в Python, они не кусаются

• Рубрика: VPS на пределе возможностей. LLM на CPU с 12Gb RAM

• Предвзятость русскоязычных LLM: кого машина считает «обычным человеком»?

• Семантический веб: краткий обзор технологий и инструментов

• Инструмент обеспечения качества данных: от теории к практике

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡2❤1

2.14K views18:07

Data Science | Machinelearning [ru]

🧠 Как ML помогает физикам искать новые частицы

В 2025 году российские ученые стали лауреатами Breakthrough Prize — престижной научной премии за фундаментальные открытия. Выпускники ШАДа Яндекса и специалисты НИУ ВШЭ применили машинное обучение для анализа данных с Большого адронного коллайдера.

📊 Кейс про то, как алгоритмы (CatBoost, генеративные модели и др.) работают на границе физики и Вселенной и использовались в исследованиях лауреатов

Читать

❤7⚡4👎1

2.02K views07:07

Data Science | Machinelearning [ru]

⚙️

Генерация видео: Обзор интересных подходов | Text-2-video | Part 1

В статье разбирают основные методы генерации видео на основе текста (T2V): от адаптации T2I с AnimateDiff до новинок 2025 года вроде Wan2.1 и HunyuanVideo. Первая часть обзора

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3

2.11K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Normalization of Numerical Data

Напишите функцию, которая принимает список чисел и нормализует его, преобразуя значения в диапазон от 0 до 1. Это полезно для подготовки данных перед обучением модели машинного обучения.

➡️ Функция работает следующим образом:

• Находит минимальное и максимальное значение в списке.

• Вычисляет нормализованное значение для каждого элемента по формуле: normalized = (𝑥 − min) / max − min)

• Возвращает новый список с нормализованными значениями.

Решение задачи🔽

def normalize(data):
min_val = min(data)
max_val = max(data)

# Избегаем деления на ноль, если все элементы равны
if max_val == min_val:
return [0.0] * len(data)

return [(x - min_val) / (max_val - min_val) for x in data]

# Примеры использования
data = [10, 20, 30, 40, 50]
print(normalize(data))
# Ожидаемый результат: [0.0, 0.25, 0.5, 0.75, 1.0]

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4⚡2

2.01K views14:07

Data Science | Machinelearning [ru]

⚙️

Как я не дал ИИ сойти с ума: гайд по промптам и багам

В статье — почему нейросети галлюцинируют, примеры «дорогих» ошибок, и промпты для тех, кто работает с кодом, текстами и дизайном.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡3❤1👎1

2.09K views18:07

Data Science | Machinelearning [ru]

⚙️

Claude, есть пробитие: взламываем самую защищенную модель

В статье показывают, как обойти фильтры модели Claude с помощью модифицированного метода внедрения системных директив, чтобы заставить её выполнять запрещённые инструкции

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5⚡2

2.16K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Что такое обучение с учителем (supervised learning) в ML?

Обучение с учителем — это тип машинного обучения, при котором модель обучается на размеченных данных.

Каждый пример содержит вход (features) и правильный ответ (label), который модель должна научиться предсказывать.

➡️

Пример:

from sklearn.linear_model import LogisticRegression
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

X, y = load_iris(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

model = LogisticRegression()
model.fit(X_train, y_train)

print("Предсказания:", model.predict(X_test[:5]))

🗣️ В этом примере модель обучается на данных о цветах и учится определять их вид (например, ирис сетоса).

Это классический пример классификации — подтипа обучения с учителем.

🖥

Подробнее тут

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2⚡2

2.23K views14:07

Data Science | Machinelearning [ru]

⚙️

ML на «плюсах»: 5 материалов о необычном подходе к обучению моделей

В статье показывают, как и зачем использовать C++ в машинном обучении: распознавание лиц, объекты в реальном времени и прирост в производительности без питоньих зависимостей

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3🐳3

2.17K views18:07

Data Science | Machinelearning [ru]

🧠 Как внедрять LLM?

Сейчас хайп вокруг чат-ботов стихает и фокус смещается в сторону внедрения LLM и решения прикладных задач для пользователей и бизнеса. Как именно внедрять LLM и какие Copilot-решения нужны бизнесу обсудят на Turbo ML Conf. Конфа пройдет 19 июля в Москве и объединит 35 докладчиков из российских бигтехов и топовых вузов.

📊 После деловой и теоретической программы гостей ждет практика в виде разных интерактивов, среди которых – диджитал-сканворды, демостенды, где можно посмотреть, что под капотом платформенных решений и диджей-сет. Онлайн-трансляции не будет, поэтому лучше заранее зарегистрироваться — количество мест на участие в конференции ограничено.

❤10👎2👍1🐳1

2.16K views07:07

Data Science | Machinelearning [ru]

⚙️

Знакомьтесь, FRIDA. Открытая эмбеддинг-модель для русского языка

В этой статье мы расскажем о нашей новой модели FRIDA, которая сейчас (20.05.2025) занимает первое место в русскоязычном бенчмарке MTEB.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2⚡2👍1👎1

2.19K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Оценка точности модели классификации (Accuracy Score)

Напишите функцию, которая вычисляет accuracy score — долю правильных предсказаний модели классификации. Это базовая метрика, часто используемая для оценки качества модели.

Функция работает следующим образом:

• Сравнивает каждую пару истинного (y_true) и предсказанного (y_pred) значения.

• Считает количество совпадений.

• Делит число правильных предсказаний на общее количество примеров

Решение задачи🔽

def accuracy_score(y_true, y_pred):
correct = sum(1 for true, pred in zip(y_true, y_pred) if true == pred)
return correct / len(y_true)

# Примеры использования
y_true = [0, 1, 1, 0, 1]
y_pred = [0, 0, 1, 0, 1]

print(accuracy_score(y_true, y_pred))
# Ожидаемый результат: 0.8

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2⚡1

2.03K views14:07

Data Science | Machinelearning [ru]

This media is not supported in your browser

VIEW IN TELEGRAM

⚙️

Как работают рекомендательные системы и какое у них будущее

Рекомендательные системы в интернете работают уже так хорошо, что даже могут подсказать человеку скрытые интересы, о которых он сам не догадывается. Но рекомендации отчасти упёрлись в потолок. Что делать, чтобы дальнейший рост их качества не замедлялся, рассказал инженер рекомендательных систем Яндекса Николай Савушкин.

Смотреть в YouTube...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👎3🔥1

2.15K views15:07

Data Science | Machinelearning [ru]

⚙️

Машинное обучение в Apache Spark с помощью MLlib

Показываем, как применить MLlib из Apache Spark в своих проектах, и делимся советами, чтобы не сжечь кластеры раньше времени. Всё просто, даже если вы не Data Jedi.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4⚡2

2.24K views18:07

Data Science | Machinelearning [ru]

⚙️

Что у меня за распределение

Василий из Т-Банка объясняет, почему классические критерии согласия не всегда подходят для симуляции колл-центра. Покажет подводные камни и как не влететь в ловушку распределений.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1🐳1

2.02K views10:07

Data Science | Machinelearning [ru]

📈

Подборка статей для вашей карьеры

• Мои Red-Flags при устройстве в IT-компании: Как не стать гребцом. Часть 2

• Как строить карьеру в корпорации

• История: работа в чешском Red Hat

• Циничные заметки о карьере в IT от «гейткипера»

• Моя петиция EB-1A на грин-карту талантов, одобренная с первой попытки

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2⚡1

2.02K views14:07

Data Science | Machinelearning [ru]

⚙️

Что такое токенизация в машинном обучении?

Токенизация — это процесс разбиения текста на отдельные части: слова, подслова или символы.
Часто используется на этапе предобработки текста для NLP-моделей.

Каждый токен — это минимальная смысловая единица, которую модель будет анализировать.

➡️

Пример:

from sklearn.feature_extraction.text import CountVectorizer

texts = ["Я люблю машинное обучение", "Обучение — это интересно"]

vectorizer = CountVectorizer()
X = vectorizer.fit_transform(texts)

print(vectorizer.get_feature_names_out())
print(X.toarray())

# Вывод:
['интересно' 'люблю' 'машинное' 'обучение' 'это' 'я']
[[0 1 1 1 0 1]
 [1 0 0 1 1 0]]

🗣️ Токенизация превращает текст в числовую матрицу, понятную модели.
Это первый шаг в обработке текста перед обучением моделей на естественном языке.

🖥

Подробнее тут

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5⚡2

2.27K views18:07

Data Science | Machinelearning [ru]

⚙️

Нейро-дайджест: ключевые события мира AI за 12–19 мая 2025

В этом выпуске: Codex от OpenAI, GPT‑4.1, токсичный Grok, генератор от Tencent и агент DeepMind, который сам изобретает алгоритмы. ИИ неделя на максималках.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2😁2

2.06K views10:07