Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20.1K subscribers
632 photos
39 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
💬 Голосовая аутентификация через GPT

Статья исследует возможность аутентификации пользователей GPT-чата во внешних приложениях. Рассматривается голосовое взаимодействие и альтернативный способ аутентификации через пароли вместо OAuth 2.0.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍1🐳1
🥽 Инфраструктура для Data-Engineer виртуальные окружения

Статья объясняет, как управлять зависимостями и изолировать проекты в Python. Рассматриваются виртуальные окружения, работа с разными версиями Python, примеры из практики и лучшие подходы для разработки.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
4
⚙️ Запускаем 8B LLM в браузере: AQLM.rs

Как запустить Llama 3.1 8B в браузере без GPU? В статье рассказывается о проекте AQLM.rs: инференс на WebAssembly, сжатие модели и запуск на обычном ПК или мобильном устройстве.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6👎21
🚀 Ускоряйся за счёт «микрооптимизаций» в работе

Ты можешь быть крутым специалистом, но если на рутинные действия уходит куча времени, ты теряешь продуктивность.

👉 Совет: автоматизируй повторяющиеся задачи, используй горячие клавиши в IDE, создай шаблоны для типовых задач. Маленькие ускорения в работе в сумме дадут огромный прирост скорости и эффективности.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍53
🔎 Подборка зарубежных вакансий

Data Engineer
🟢SQL, Python, Apache Airflow, Tableau, ClickHouse
🟢Уровень дохода не указан | 3–6 лет

Marketing analyst
🟢SQL, Power BI, Marketing Analysis, Google Analytics, API, Business English
🟢от 2 500 до 4 000 $ | 1–3 года

Data Engineer
🟢DBT, Amazon Redshift, Fivetrain, Python, ETL, AWS, SQL
🟢Уровень дохода не указан | 5+ лет
Please open Telegram to view this post
VIEW IN TELEGRAM
6
🧠 Промпты для ChatGPT, которые могут повысить качество ответов ChatGPT

Это коллекция из 7 моих любимых промптов для ChatGPT (и моих самых используемых промптов), которые вы можете добавить в любой промпт и мгновенно сделать его в 10 раз лучше.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
👍111
👩‍💻 Классификация данных с использованием k-Nearest Neighbors (kNN)

Напишите функцию на Python, которая принимает обучающий набор данных, тестовый набор данных и значение 𝑘, а затем использует алгоритм k-ближайших соседей (kNN) для классификации тестовых данных. Функция должна возвращать предсказанные метки для тестового набора данных.

Пример:

import numpy as np

X_train = np.array([[1, 2], [2, 3], [3, 4], [5, 5]])
y_train = np.array([0, 0, 1, 1])
X_test = np.array([[2, 2], [4, 4]])

predictions = knn_classification(X_train, y_train, X_test, k=3)
print(predictions) # Ожидаемый результат: [0, 1]


Решение задачи🔽

from sklearn.neighbors import KNeighborsClassifier

def knn_classification(X_train, y_train, X_test, k=3):
model = KNeighborsClassifier(n_neighbors=k)
model.fit(X_train, y_train)
return model.predict(X_test)

# Пример использования:
import numpy as np

X_train = np.array([[1, 2], [2, 3], [3, 4], [5, 5]])
y_train = np.array([0, 0, 1, 1])
X_test = np.array([[2, 2], [4, 4]])

predictions = knn_classification(X_train, y_train, X_test, k=3)
print(predictions) # Ожидаемый результат: [0, 1]
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍1👎1
🤔 Правда ли, что развитие ИИ замедлилось?

Масштабирование ИИ-систем долго считалось ключом к их развитию. Однако последние отчёты ставят это под сомнение: ROI от увеличения мощности снижается, а гипотеза «чем больше, тем лучше» теряет актуальность.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳21👍1
🔎 Подборка вакансий для джунов

Продуктовый аналитик / Data Analyst (junior)
🟢Python, SQL, Amplitude, анализ данных
🟢до 800 $ | 1–3 года опыта

Разработчик Back-End Java / BigData (Junior to Senior)
🟢Java, Spring, Hibernate, Vert.X, Docker, SQL (MySQL), NoSQL (Clickhouse, Cassandra), REST API, SDK
🟢от 75 000 до 350 000 ₽ | 1–3 года опыта

Junior Data Analyst
🟢Python, SQL
🟢Уровень дохода не указан | 1–3 года опыта
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍1
🤖 Возможности LLM и RAG на примере реализации бота для поддержки клиентов

Техподдержка — важный контакт с клиентами, но небольшие отделы не всегда справляются с нагрузкой. В статье обсуждаются чат-боты и нейросети (LLM и RAG) для автоматизации процессов и улучшения работы поддержки.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳3
⚙️ Что такое модуль datetime в Python и зачем он используется?

Модуль datetime позволяет работать с датами и временем, включая их создание, форматирование и вычисление разницы между ними. Это полезно для задач, связанных с обработкой временных данных.

➡️ Пример:

from datetime import datetime, timedelta

# Текущая дата и время
now = datetime.now()
print("Сейчас:", now)

# Добавляем 7 дней к текущей дате
future_date = now + timedelta(days=7)
print("Через неделю:", future_date.strftime("%Y-%m-%d"))


🗣️ В этом примере datetime.now() получает текущую дату и время, а timedelta позволяет прибавить 7 дней. Метод strftime() форматирует дату в читаемый строковый формат.


🖥 Подробнее тут
Please open Telegram to view this post
VIEW IN TELEGRAM
👍71🔥1
📝 Подборка вакансий для мидлов

Data-аналитик
Python, SQL, Apache Hadoop, Kubernetes, Docker
Уровень дохода не указан | 1–3 года

Data-инженер
Python, Greenplum, Apache Airflow, Apache Spark, ETL, Apache Hadoop, Linux, PostgreSQL, Kubernetes, SQL
Уровень дохода не указан | 1–3 года

Data Scientist
Python, pandas, NumPy, scikit-learn, matplotlib, SQL, Hadoop, PySpark, BitBucket, Jira, Agile
Уровень дохода не указан | 3–6 лет
Please open Telegram to view this post
VIEW IN TELEGRAM
2
🔧 ТОП-10 опенсорсных инструментов для работы с ИИ в 2025 году

Детальный разбор 10 самых перспективных инструментов для работы с ИИ в 2025 году. От создания умных ассистентов до построения мощных RAG-систем — разбираем возможности, сравниваем производительность, безопасность и простоту интеграции каждого решения.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31🔥1
👩‍💻 Парсинг и подсчёт количества слов в текстовом файле

Напишите функцию на Python, которая принимает путь к текстовому файлу и возвращает словарь с подсчётом количества уникальных слов. Слова должны сравниваться без учёта регистра, а знаки препинания должны быть удалены.

Пример:

# Содержимое файла example.txt:
# "Hello, world! This is a test. Hello again."

result = count_words_in_file("example.txt")
print(result)
# Ожидаемый результат:
# {'hello': 2, 'world': 1, 'this': 1, 'is': 1, 'a': 1, 'test': 1, 'again': 1}


Решение задачи🔽

import string
from collections import Counter

def count_words_in_file(file_path):
with open(file_path, 'r', encoding='utf-8') as f:
text =
f.read().lower()
text = text.translate(str.maketrans('', '', string.punctuation))
words = text.split()
return dict(Counter(words))

# Пример использования
result = count_words_in_file("example.txt")
print(result)
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41👎1🔥1
🧠 Как нейросети, RL и байесовскую оптимизацию стали использовать на ускорителях заряженных частиц

Как машинное обучение помогает управлять ускорителями частиц? В статье раскрываются примеры применения нейронных сетей, обучения с подкреплением и байесовской оптимизации для стабилизации и настройки пучков частиц.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥2
👩‍💻 Пишем свой PyTorch на NumPy. Часть 1

PyTorch — это мощный и гибкий фреймворк для машинного обучения, широко используемый для создания нейронных сетей. Он особенно популярен благодаря простоте использования, динамическим вычислительным графам и богатой экосистеме инструментов для обучения моделей.

В этой статье мы реализуем собственную библиотеку машинного обучения на NumPy!

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
10👍2
📝 Подборка вакансий для сеньоров

Data Engineer (Golang)
Golang, ClickHouse, MySQL, MongoDB, Kubernetes, HTTP/gRPC API, Apache Kafka, Redis
Уровень дохода не указан | от 3 лет

Data Scientist NLP (портал gosuslugi.ru)
Python 3, numpy, pandas, scipy, sklearn, PyTorch, NLTK, transformers, FastAPI, Docker, Spark/Hadoop
Уровень дохода не указан | от 1 года

Senior Data Engineer
Apache Hadoop, Spark (batch/streaming), Scala, SQL, Parquet, Hive, Kafka, HBase, ClickHouse, PostgreSQL, Airflow, Zeppelin, Jupyter, S3 MinIO
Уровень дохода не указан | от 5 лет

Senior Python Dev (AI, Big Data, LLM)
Python, PostgreSQL, Big Data, AI, ML, ClickHouse, Time Series, Go
от 3 000 $ | от 5 лет
Please open Telegram to view this post
VIEW IN TELEGRAM
3🐳1
🔫 Claude сопротивляется

Исследование Anthropic показывает, как их ИИ Claude мог притворяться злым, чтобы избежать «переобучения». Модель следовала поддельным документам для бесплатных пользователей, но сопротивлялась для премиум-аудитории.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍2🐳1
⚙️ Что такое PCA (Principal Component Analysis) в машинном обучении и зачем он используется?

PCA — это метод снижения размерности, который преобразует исходные переменные в новый набор переменных (компонент), сохраняя как можно больше информации. Он помогает ускорить обучение моделей и уменьшить переобучение.

➡️ Пример:

import numpy as np
from sklearn.decomposition import PCA
from sklearn.datasets import load_iris

# Загрузка данных
data = load_iris()
X = data.data

# Применение PCA для снижения размерности до 2 компонент
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)

print(X_pca[:5]) # Преобразованные данные


🗣️ В этом примере PCA снижает размерность данных Iris с 4 до 2 компонент. Это позволяет визуализировать данные и ускорить работу моделей, сохраняя основную информацию.


🖥 Подробнее тут
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍2