Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20.1K subscribers
630 photos
39 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
🥽 Инфраструктура для Data-Engineer виртуальные окружения

Статья объясняет, как управлять зависимостями и изолировать проекты в Python. Рассматриваются виртуальные окружения, работа с разными версиями Python, примеры из практики и лучшие подходы для разработки.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
🔗 Технический долг? Закрывай его по «принципу кафе»

Технический долг копится, как грязная посуда в раковине. Кажется, что решишь его «когда-нибудь», но это «когда-нибудь» не наступает.

👉 Совет: применяй «принцип кафе» — каждый раз, когда работаешь с файлом или модулем, оставь его в лучшем состоянии, чем нашёл. Понемногу рефакторь, добавляй комментарии или улучшай структуру. В итоге долг будет сокращаться без больших затрат времени.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔎 Подборка зарубежных вакансий

Data Analyst
🟢Excel, Google Sheets, Power BI, Python, SQL, API
🟢от 1 400 до 1 600 $ до вычета налогов | 1–3 года

Head of Data Insight and Partnership (Game Dev)
🟢Research, Insights, Media Relations, Английский C1
🟢до 6 000 $ до вычета налогов | Более 6 лет

Senior Machine Learning Engineer
🟢Python, C++, R, TensorFlow, NumPy, SciPy, Pandas, MongoDB, Elastic, Hadoop, ClickHouse, Ansible, Shell Scripting, Chef
🟢от 5 500 до 7 000 € до вычета налогов | Более 6 лет

DevOps Engineer/Infrastructure Engineer
🟢Linux, Python, Docker, Kubernetes, Bash, CI/CD, Zabbix, C++, MacOS, OSI
🟢от 4 500 до 5 700 $ на руки | 3–6 лет
Please open Telegram to view this post
VIEW IN TELEGRAM
⚙️ Запускаем 8B LLM в браузере: AQLM.rs

Как запустить Llama 3.1 8B в браузере без GPU? В статье рассказывается о проекте AQLM.rs: инференс на WebAssembly, сжатие модели и запуск на обычном ПК или мобильном устройстве.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
👩‍💻 Классификация данных с использованием k-Nearest Neighbors (kNN)

Напишите функцию на Python, которая принимает обучающий набор данных, тестовый набор данных и значение 𝑘, а затем использует алгоритм k-ближайших соседей (kNN) для классификации тестовых данных. Функция должна возвращать предсказанные метки для тестового набора данных.

Пример:

import numpy as np

X_train = np.array([[1, 2], [2, 3], [3, 4], [5, 5]])
y_train = np.array([0, 0, 1, 1])
X_test = np.array([[2, 2], [4, 4]])

predictions = knn_classification(X_train, y_train, X_test, k=3)
print(predictions) # Ожидаемый результат: [0, 1]


Решение задачи🔽

from sklearn.neighbors import KNeighborsClassifier

def knn_classification(X_train, y_train, X_test, k=3):
model = KNeighborsClassifier(n_neighbors=k)
model.fit(X_train, y_train)
return model.predict(X_test)

# Пример использования:
import numpy as np

X_train = np.array([[1, 2], [2, 3], [3, 4], [5, 5]])
y_train = np.array([0, 0, 1, 1])
X_test = np.array([[2, 2], [4, 4]])

predictions = knn_classification(X_train, y_train, X_test, k=3)
print(predictions) # Ожидаемый результат: [0, 1]
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔 Правда ли, что развитие ИИ замедлилось?

Масштабирование ИИ-систем долго считалось ключом к их развитию. Однако последние отчёты ставят это под сомнение: ROI от увеличения мощности снижается, а гипотеза «чем больше, тем лучше» теряет актуальность.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
👩‍💻 Поиск подстроки в строках файла

Напишите функцию, которая принимает путь к текстовому файлу и строку для поиска, а затем выводит все строки файла, содержащие эту строку (игнорируя регистр). Если совпадений нет, функция должна вывести сообщение об отсутствии результатов.

Пример:

search_in_file('example.txt', 'python')

Если в example.txt есть строки, содержащие слово "python" (в любом регистре), они будут напечатаны.

Решение задачи🔽

def search_in_file(file_path, query):
query_lower = query.lower()
found = False

with open(file_path, 'r', encoding='utf-8') as f:
for line in f:
if query_lower in line.lower():
print(line.strip())
found = True

if not found:
print("Ничего не найдено.")

# Пример использования
# search_in_file('example.txt', 'python')
Please open Telegram to view this post
VIEW IN TELEGRAM
🔎 Подборка вакансий для джунов

Младший специалист отдела разработки (Python) / Специалист по парсингу данных
🟢Python, Django, Celery, Linux, PostgreSQL, Git
🟢от 70 000 ₽ на руки | 1–3 года

Младший Python-разработчик (FastAPI)
🟢Python, FastAPI, SQL, Git, Docker, Redis, Celery
🟢до 100 000 ₽ на руки | 1–3 года

Junior Аналитик данных
🟢SQL, Metabase, Python (pandas, NumPy), A/B тесты
🟢от 150 000 до 250 000 ₸ на руки | 1–3 года

Продуктовый аналитик / Data Analyst (junior)
🟢Python, SQL, Amplitude, Анализ данных, Английский язык
🟢до 800 $ до вычета налогов | 1–3 года

BI-аналитик (junior)
🟢SQL, Python, Metabase, MySQL, Airflow, DBT, Yandex.Metrica, ClickHouse
🟢от 80 000 ₽ на руки | Без опыта
Please open Telegram to view this post
VIEW IN TELEGRAM
Как просто верстать отчёты в PowerBI и не страдать?

На бесплатном вебинаре расскажет Мария Гришина - ведущий BI аналитик в ООО Салаир (РЖД) и автор телеграмм-канала «Power BI Design» создаст отчёт, который будет не только ровным, но и сочным, а главное — удобным для восприятия!

Что будет на вебинаре:
- раскроем секреты грамотной верстки
- поделимся полезными приёмами и лайфхаками
- узнаем, как правильно расставлять акценты, использовать цветовые схемы и шрифты так, чтобы ваши отчёты вызывали восторг у коллег и руководства.

🕗 Встречаемся 17 декабря в 19:00 по мск

Зарегистрироваться на вебинар
➡️ Лучшие крупные языковые модели в ноябре 2024 г

В ноябре в ТОП-10 в «LLM Benchmark» произошло много изменений. Также произошли некоторые изменения в том, как мы создаем продукты на основе LLM. Давайте приступим.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
⚙️ Что такое модуль datetime в Python и зачем он используется?

Модуль datetime позволяет работать с датами и временем, включая их создание, форматирование и вычисление разницы между ними. Это полезно для задач, связанных с обработкой временных данных.

➡️ Пример:

from datetime import datetime, timedelta

# Текущая дата и время
now = datetime.now()
print("Сейчас:", now)

# Добавляем 7 дней к текущей дате
future_date = now + timedelta(days=7)
print("Через неделю:", future_date.strftime("%Y-%m-%d"))


🗣️ В этом примере datetime.now() получает текущую дату и время, а timedelta позволяет прибавить 7 дней. Метод strftime() форматирует дату в читаемый строковый формат.


🖥 Подробнее тут
Please open Telegram to view this post
VIEW IN TELEGRAM
📝 Подборка вакансий для мидлов

Data-аналитик
Python, SQL, Apache Hadoop, Kubernetes, Docker
Уровень дохода не указан | 1–3 года

Data-инженер
Python, Greenplum, Apache Airflow, Apache Spark, ETL, Apache Hadoop, Linux, PostgreSQL, Kubernetes, SQL
Уровень дохода не указан | 1–3 года

Data Scientist
Python, pandas, NumPy, scikit-learn, matplotlib, SQL, Hadoop, PySpark, BitBucket, Jira, Agile
Уровень дохода не указан | 3–6 лет
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️ Google представила ИИ-генератор видео Veo 2.0: лучше ли, чем Sora и как получить доступ

Google выпустила Veo 2.0 — ИИ-модель для генерации видео с улучшенным разрешением 4K, контролем камеры и лучшим качеством. Вопрос: лучше ли она, чем Sora от OpenAI?

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
👩‍💻 Конвертер CSV в JSON

Напишите скрипт, который принимает путь к файлу CSV, конвертирует его содержимое в формат JSON и сохраняет результат в новый файл с тем же именем, но с расширением .json.

Пример:

id,name,age
1,Alice,30
2,Bob,25
3,Charlie,35

python csv_to_json.py data.csv

[
{"id": "1", "name": "Alice", "age": "30"},
{"id": "2", "name": "Bob", "age": "25"},
{"id": "3", "name": "Charlie", "age": "35"}
]


Решение задачи🔽

import csv
import json
import sys
import os

def csv_to_json(csv_file_path):
try:
json_file_path = os.path.splitext(csv_file_path)[0] + ".json"

with open(csv_file_path, 'r', encoding='utf-8') as csv_file:
reader = csv.DictReader(csv_file)
data = [row for row in reader]

with open(json_file_path, 'w', encoding='utf-8') as json_file:
json.dump(data, json_file, indent=4, ensure_ascii=False)

print(f"Файл успешно конвертирован: {json_file_path}")
except FileNotFoundError:
print(f"Ошибка: Файл {csv_file_path} не найден.")
except Exception as e:
print(f"Ошибка: {e}")

# Пример использования:
if __name__ == "__main__":
if len(sys.argv) < 2:
print("Использование: python csv_to_json.py <путь_к_csv>")
else:
csv_to_json(sys.argv[1])
Please open Telegram to view this post
VIEW IN TELEGRAM
🤖 Возможности LLM и RAG на примере реализации бота для поддержки клиентов

Техподдержка — важный контакт с клиентами, но небольшие отделы не всегда справляются с нагрузкой. В статье обсуждаются чат-боты и нейросети (LLM и RAG) для автоматизации процессов и улучшения работы поддержки.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
Как FELIX экономит время на подготовке фич? И при чём здесь LLM?

Об этом рассказали ребята из финтеха Точка в своём канале .ml

Если вам интересны разборы инструментов, обзоры фреймворков и выжимки из статей — то вот вам ссылка на канал 🙂

Реклама, АО «Точка», ИНН 9705120864, 2Vtzqw3ihJ1, 18 +
Forwarded from .ml
Как LLM могут помочь в классическом ML?

По статистике, специалисты по Data Science тратят до 70% рабочего времени на этап Feature Engineering, то есть отбирают наиболее важные признаки в данных и формируют новые, более информативные, датасеты. Кажется, с этой рутинной задачей отлично справится LLM. Но нет — в итоге 64% времени уйдёт на подготовку промптов.

Исследователи предлагают новые решения проблемы, одно из них — FELIX (Feature Engineering with LLMs for Interpretability and Explainability). Всё, что нужно для получения готовых фич — сам датасет и его короткий контекст. Дальше FELIX делает следующее:

✏️ Из случайных групп сэмплов датасета LLM генерирует численных и категориальных кандидатов в новые признаки.
✏️ С помощью кластеризации эмбеддингов похожие признаки отбрасываются.
✏️ Из полученных признаков отбрасываются те, что дают наименьшую объяснимость.

Метод эффективен для текстовых данных и сильно превосходит TF-IDF и трансформерные эмбеддинги от RoBERT. Если вам интересно, расскажем и о преобразовании других типов данных в новых постах!
🔎 Подборка вакансий для сеньоров

Senior Data Engineer (MedTech)
🟢Python, SQL, Java, ETL, Docker, Kubernetes, Redshift, BigQuery
🟢до 350 000 ₽ на руки | 3–6 лет

Data Architect (MedTech)
🟢SQL, ETL, PostgreSQL, Docker, Kubernetes, Data Warehousing, BI, Agile
🟢до 450 000 ₽ на руки | Более 6 лет

Senior Data Scientist
🟢Python, SQL, RecSys, Uplift Modeling, Churn Prediction, LTV Prediction, Forecasting, MLOps
🟢от 4 500 до 6 500 $ до вычета налогов | Более 6 лет

Senior Python Dev (AI, Big Data, LLM)
🟢Python, Big Data, ClickHouse, Time Series Analysis, Golang, AI, LLM, WebSocket
🟢от 3 000 $ до вычета налогов | 3–6 лет
Please open Telegram to view this post
VIEW IN TELEGRAM
🔧 ТОП-10 опенсорсных инструментов для работы с ИИ в 2025 году

Детальный разбор 10 самых перспективных инструментов для работы с ИИ в 2025 году. От создания умных ассистентов до построения мощных RAG-систем — разбираем возможности, сравниваем производительность, безопасность и простоту интеграции каждого решения.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM