DATApedia | Data science – Telegram
DATApedia | Data science
3.44K subscribers
198 photos
91 videos
2 files
837 links
Тут вы найдете всё, что связано с Data Science, AI и Machine Learning, как для начинающих, так и для бывалых специалистов. Также, для вас, мы переводим зарубежные статьи.

Сотрудничество: @Seyfme
Download Telegram
​​Становясь Пангеей: будущее современного стека для анализа данных

Это перевод поста из блога The Analytics Engineering Roundup (горячо рекомендую!) под названием Becoming Pangea про тенденции в индустрии данных и аналитики, стратегические преимущества и проблемы, с которыми сталкиваются компании в ней, влияние основных облачных провайдеров на её будущее и роль стандартов в формировании в ней технологических экосистем.

Перейти к статье | DATApedia
​​Дообучение ruGPT-3.5 13B с LoRA

Статья содержит подробное руководство по обучению модели ruGPT-3.5 13B с использованием датасетов модели Saiga-2/GigaSaiga, технологии Peft/LoRA и технологии GGML. Эта статья призвана стать полезным и практичным ресурсом для всех, кто интересуется машинным обучением, искусственным интеллектом и глубоким обучением, а также для тех, кто стремится глубже понять и освоить процесс обучения одной из самых мощных и перспективных русскоязычных моделей.

Перейти к статье | DATApedia | #DS_AI
🔥3
​​О точности вычислений: как не потерять данные в цифровом шуме

В данной статье описываются причины ошибок, возникающих при использовании чисел типа float, а также проблемы, связанные с накоплением ошибок при обработке больших данных.

Перейти к статье | DATApedia
🔥2
​​Применение нейросетевых подходов для формирования признаков в моделях

В данной рассказано о том, как продвинутые подходы машинного обучения, в частности нейронные сети, помогают генерировать признаки для моделей, сокращая трудозатраты на проработку гипотез и операционные издержки при подготовке данных для моделей.

Перейти к статье | DATApedia | #DS_AI
​​Главное из книги Fundamentals of Data engineering — фундаментального труда о дата-инжиниринге

В данной статье автор кратко излагает основные мысли книги Джо Рейса и Мэтта Хаусли Fundamentals of Data engineering. Здесь приводится краткий конспект глав и самые важные моменты, которые полезно знать любому человеку, работающему с данными.

Перейти к статье | DATApedia
👍1🔥1
😁101
​​Введение в библиотеку Diffusers и диффузионные модели

Diffusers — это библиотека от Hugging Face, которая позволяет работать с сотнями предобученных моделей класса Stable Diffusion для создания изображений и аудио. В этой статье рассмотрим основные возможности библиотеки, ее компонентов, а также моделей Stable Diffusion в целом.

Перейти к статье | DATApedia
​​Посторонись, Copilot: подборка разнообразных AI-инструментов для разработчиков

За пределами всем известного GitHub Copilot лежит огромный мир полезных приложений для программистов, и каждую неделю в нем появляется что-нибудь новенькое. В этом посте рассказано об этих инструментах — как полноценных конкурентах продукта GitHub, так и более специфических плагинах

Перейти к статье | DATApedia | #DS_AI
🔥31
​​Построение OLAP-запросов с использованием аналитических функций

В данной статье рассказывается о том, как с помощью аналитических функций можно построить OLAP-запросы для более глубокого и информативного анализа данных.

Перейти к статье | DATApedia
👍3
😁24👍2
​​Разметка данных при помощи GPT-4

В статье описывается, как использовать GPT-4 для настройки меток для различных задач, а также как использовать прогнозы GPT-4 для предварительной разметки данных. В результате можно существенно снизить объем ручной работы на разметку данных, что может привести к экономии средств и сделать процесс разметки чуть менее монотонным.

Перейти к статье | DATApedia | #DS_AI
👍4
​​LLM'ы в преобразовании запроса на естественном языке в SQL (text2sql)

Данный пост познакомит вас с двумя AI-инструментами для генерации SQL-запросов: SQLCoder Defog и SQLthroughAI.

Перейти к статье | DATApedia | #DS_AI
👍1
​​Как устроено машинное обучение: задачи, алгоритмы и виды machine learning

Данная статья описывает, что такое машинное обучение, какие задачи оно решает, какие разновидности машинного обучения бывают, как оно устроено, какие алгоритмы можно использовать и где его применяют.

Перейти к статье | DATApedia | #DS_AI
🔥2
Открыта регистрация на отборочный этап Всероссийского хакатона по биометрии с призовым фондом 1 000 000 рублей!

Тебе предстоит решить интересные задачи, чтобы победить в отборочном туре и принять участие в финале Всероссийского хакатона по биометрии, который пройдет уже 24-25 ноября в Москве. 

Кейсы:
• Создание дипфейков для тестирования
• Обнаружение дипфейков
• Некооперативный фронтальный алгоритм защиты от атак предъявления
• Решения для использования новых биометрических модальностей на пользовательских устройствах
 
🗓 Даты отборочного этапа в ОНЛАЙН-ФОРМАТЕ:  3-5 ноября 2023 года   
❗️Даты финала:  24-25 ноября 2023 года  📍 Место: Москва
❗️ Формат: смешанный (отборочный этап в онлайн-формате, а финал на площадке в Москве)
👉 Регистрация на отборочный тур открыта до 29 октября 2023 года: https://tglink.io/50b3967c5d4e 

Реклама. ООО "АКСЕЛЕРАТОР ВОЗМОЖНОСТЕЙ". ИНН 9704005146. erid: LjN8KWXjU
​​Рынок данных в даркнете: как купить чужие данные и не потерять свои

Статья рассказывает о рынке данных в даркнете. Также описываются виды мошенничества, цены за данные, изменения внутри рынка даркнета и т д.

Перейти к статье | DATApedia
🙏3🔥2
😁15
​​12 лучших инструментов аннотирования изображений на 2023 год

"В этой статье мы обсудим критерии, использованные для оценки этих инструментов, их плюсы и минусы, а также сравним их между собой. Также мы приведём отзывы и рейтинги пользователей, варианты цен и тарифов и информацию об интеграции с другим ПО и платформами."

Перейти к статье | DATApedia
👍3
​​Когда одной ARIMA мало. Прогнозирование временных рядов нейросетями

В этой статье автор говорит про временные ряды, а если конкретнее, про использование нейросетей для их прогнозирования.

Перейти к статье | DATApedia
​​Руководство для начинающих по Spark UI: Как отслеживать и анализировать задания Spark

Статья-гайд по Spark UI. Это встроенный инструмент Apache Spark, который предоставляет полный обзор среды Spark: узлов, исполнителей, свойств и параметров среды, выполняемых заданий, планов запросов и многого другого. Кроме теории в статье вы найдёте несколько примеров, которые помогут попрактиковаться в отслеживании и анализе заданий Spark.

Перейти к статье | DATApedia
😁18