Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20.1K subscribers
630 photos
39 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
➡️ Будущее LLM в XS, S, M и других размерах

В статье обсуждаются подходы к обучению ИИ оптимально использовать свои ресурсы: от минимальной мощности для простых задач до максимума для сложных. Разбираем концепции «я не знаю» и запросов помощи.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
👩‍💻 Генератор случайных паролей с настройками

Напишите функцию, которая генерирует случайный пароль заданной длины. Пароль должен быть сформирован на основе пользовательских требований:

Использовать ли цифры.
Использовать ли буквы верхнего и/или нижнего регистра.
Использовать ли специальные символы.

➡️ Пример:

password = generate_password(length=12, use_digits=True, use_uppercase=True, use_lowercase=True, use_specials=False)
print(password)
# Пример вывода: A1b2C3d4E5f6


Решение задачи🔽

import random
import string

def generate_password(length, use_digits=True, use_uppercase=True, use_lowercase=True, use_specials=True):
if length < 1:
raise ValueError("Длина пароля должна быть больше 0")

# Формируем набор символов
character_pool = ""
if use_digits:
character_pool += string.digits
if use_uppercase:
character_pool += string.ascii_uppercase
if use_lowercase:
character_pool += string.ascii_lowercase
if use_specials:
character_pool += "!@#$%^&*()-_=+[]{}|;:,.<>?/"

if not character_pool:
raise ValueError("Нужно выбрать хотя бы один тип символов")

# Генерация пароля
return ''.join(random.choice(character_pool) for _ in range(length))

# Пример использования
password = generate_password(length=12, use_digits=True, use_uppercase=True, use_lowercase=True, use_specials=True)
print(password)
Please open Telegram to view this post
VIEW IN TELEGRAM
✔️ Big Data мертвы, да здравствуют Smart Data

Давайте рассмотрим концепцию Smart Data и выясним, действительно ли Big Data превращаются во что-то более интеллектуальное.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
👩‍💻 Задачка по Python

Напишите функцию, которая принимает текст и возвращает наиболее часто встречающееся слово. Игнорируйте регистр и знаки препинания.

➡️ Пример:

text = "Data science is fun. Science makes data fun, and data makes science better."
print(most_frequent_word(text))
# Ожидаемый результат: "data"


Решение задачи ⬇️

import re
from collections import Counter

def most_frequent_word(text):
# Убираем знаки препинания и приводим текст к нижнему регистру
words = re.findall(r'\b\w+\b', text.lower())
# Подсчитываем частоту слов
word_counts = Counter(words)
# Возвращаем слово с максимальной частотой
return word_counts.most_common(1)[0][0]

# Пример использования:
text = "Data science is fun. Science makes data fun, and data makes science better."
print(most_frequent_word(text))
Please open Telegram to view this post
VIEW IN TELEGRAM
📝 Подборка вакансий для джунов

Младший аналитик
Python, SQL, Microsoft Excel, Анализ данных, Машинное обучение, Нейронные сети
от 130 000 ₽ на руки | 1–3 года

Консультант-аналитик [ССД Oracle]
SQL, Oracle, Английский язык, Аналитика, Системное тестирование
Уровень дохода не указан | 1–3 года

Инженер данных/Data Engineer в Управление анализа данных
SQL, Apache Hadoop, Bitbucket, Jira, Confluence
Уровень дохода не указан | 1–3 года
Please open Telegram to view this post
VIEW IN TELEGRAM
⚙️ Пишем свою Diffusion модель с нуля

Статья предлагает разобраться в устройстве Diffusion моделей, их математике и принципах работы. Автор делится простыми объяснениями, примерами кода и результатами генерации изображений на собственной модели.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
⚙️ Что такое @staticmethod и @classmethod в Python, и чем они отличаются?

Декораторы @staticmethod и @classmethod используются для создания методов, которые не требуют экземпляра класса. @staticmethod — это метод, который не зависит от экземпляра или самого класса, а @classmethod получает доступ к самому классу через первый параметр cls.

➡️ Пример:

class MyClass:
@staticmethod
def static_method():
return "Это статический метод"

@classmethod
def class_method(cls):
return f"Это метод класса {cls.__name__}"

# Использование
print(MyClass.static_method()) # Это статический метод
print(MyClass.class_method()) # Это метод класса MyClass


🗣️ В этом примере static_method ничего не знает о классе, в то время как class_method может взаимодействовать с классом, к которому он принадлежит. Используйте их в зависимости от того, нужно ли вам взаимодействие с классом.


🖥 Подробнее тут
Please open Telegram to view this post
VIEW IN TELEGRAM
📝 Подборка вакансий для мидлов

Data-аналитик
SQL, Tableau, Amplitude, PostgreSQL
от 200 000 до 300 000 ₽ на руки | 1–3 года

Data Scientist (генерация графических изображений)
Python, YOLO8, Stable Diffusion 1.5, OpenCV, RASA, NLP, LLMs
от 200 000 до 500 000 ₽ на руки | 3–6 лет

Data Scientist (модели PD)
Python, SQL, Machine Learning, A/B Testing, Risk Modeling
Уровень дохода не указан | 3–6 лет
Please open Telegram to view this post
VIEW IN TELEGRAM
⚙️ Машинное обучение: Наивный байесовский классификатор. Теория и реализация. С нуля

Статья описывает три основные разновидности наивного байесовского классификатора: мультиномиальный, гауссовский и бернулли. Рассмотрены их теоретические основы, особенности и примеры реализации.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
📝 Подборка вакансий для сеньоров

Data Engineer
Python, SQL, Apache Airflow, Greenplum, Apache Spark
от 250 000 ₽ на руки | 1–3 года

Senior Data Scientist (FinTech)
Python, Pandas, NumPy, SciKit-Learn, PyTorch, TensorFlow, SQL, Теорвер и матстат
от 300 000 ₽ на руки | Более 6 лет

Senior Data Engineer
Apache Hadoop, Spark (batch/streaming), Scala, SQL, Parquet, Hive, Kafka, HBase, ClickHouse, PostgreSQL, Airflow, Zeppelin, Jupyter, S3 MinIO
Уровень дохода не указан | от 5 лет
Please open Telegram to view this post
VIEW IN TELEGRAM
⚙️ Умножение троичных матриц для нейросетей

Статья исследует использование троичных значений (-1, 0, 1) в нейросетевых матрицах. Рассматриваются методы хранения тритов с использованием 32-битной арифметики и подходы к их быстрому умножению через оптимизацию памяти.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
⚙️ Что такое декораторы в Python и как они работают?

Декораторы — это функции в Python, которые принимают другую функцию в качестве аргумента и возвращают новую функцию с добавленным поведением. Это удобный способ модификации или расширения функциональности без изменения исходного кода функции.

➡️ Пример:

# Декоратор для логирования вызовов функции
def log_call(func):
def wrapper(*args, **kwargs):
print(f"Вызов функции {func.__name__} с аргументами: {args}, {kwargs}")
result = func(*args, **kwargs)
print(f"Результат: {result}")
return result
return wrapper

# Применение декоратора
@log_call
def add(a, b):
return a + b

add(3, 5)


🗣️ В этом примере декоратор log_call добавляет логирование вызовов и результатов функции add. Декораторы позволяют делать код более модульным и удобным для повторного использования.


🖥 Подробнее тут
Please open Telegram to view this post
VIEW IN TELEGRAM
⚙️ Инфраструктура для Data-Engineer BI-tools

В этой статье я хотел бы показать куда уходят данные и что с ними происходит, когда пайплайны дата-инженеров заканчивают работу.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Дообучаем языковую модель GPT2 с помощью Torch

Статья углубляется в дообучение языковых моделей, используя DistilGPT2 на данных QuyenAnhDE/Diseases_Symptoms. Рассматривается процесс настройки модели для генерации симптомов на основе заболеваний, с возможностью расширения логики.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
📢 Делай демо своих решений

Закрыл задачу, но никто не понимает, насколько крутое решение ты сделал? Это минус не только для команды, но и для твоей репутации.

👉 Совет: каждую значимую доработку презентуй команде. Покажи, как работает функционал, объясни, почему выбрал этот подход. Это не только помогает коллегам разобраться, но и показывает твой вклад в общий результат.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔎 Подборка зарубежных вакансий

Marketing Analyst
🟢SQL, Power BI, Marketing Analysis, Google Analytics, Business English, API
🟢от 2 500 до 4 000 $ до вычета налогов | 1–3 года

Data Scientist (mobile+web)
🟢Big Data, Amplitude, Power BI, A/B Testing, Predictive Modeling, Python
🟢от 4 000 $ до вычета налогов | 3–6 лет

Data Analyst & Mathematical
🟢Python, Теория вероятностей, Математическая статистика, Статистический анализ, Оптимизационное моделирование
🟢Уровень дохода не указан | 3–6 лет
Please open Telegram to view this post
VIEW IN TELEGRAM
🤖 Как удалить Excel навсегда: делегируем юнит-экономику на Wildberries нейронке

Статья объясняет, как нейросети помогают оптимизировать юнит-экономику продавцов на WB, особенно при работе с большим ассортиментом. Рассматриваются подходы к автоматизации анализа и принятию решений.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
👩‍💻 Подсчёт количества слов в строке

Напишите функцию, которая принимает строку и возвращает словарь, где ключами являются слова из строки, а значениями — количество их вхождений. Игнорируйте регистр и знаки препинания.

Пример:

text = "Hello, world! Hello Python world."
result = count_words(text)
print(result)
# Ожидаемый результат: {'hello': 2, 'world': 2, 'python': 1}


Решение задачи🔽

import re
from collections import Counter

def count_words(text):
# Убираем знаки препинания и приводим к нижнему регистру
words = re.findall(r'\b\w+\b', text.lower())
# Подсчитываем количество вхождений каждого слова
return Counter(words)

# Пример использования:
text = "Hello, world! Hello Python world."
result = count_words(text)
print(result)
# Ожидаемый результат: {'hello': 2, 'world': 2, 'python': 1}
Please open Telegram to view this post
VIEW IN TELEGRAM
👀 Сравнение 30 фотореалистичных ИИ-изображений: Flux1.1 против SD3.5

В статье обсуждаются возможности Flux1.1 Pro и SD3.5 Large в генерации фотореалистичных изображений. Описаны различия моделей и их результаты после разделения команды разработчиков.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM