Становясь Пангеей: будущее современного стека для анализа данных
Это перевод поста из блога The Analytics Engineering Roundup (горячо рекомендую!) под названием Becoming Pangea про тенденции в индустрии данных и аналитики, стратегические преимущества и проблемы, с которыми сталкиваются компании в ней, влияние основных облачных провайдеров на её будущее и роль стандартов в формировании в ней технологических экосистем.
Перейти к статье | DATApedia
Это перевод поста из блога The Analytics Engineering Roundup (горячо рекомендую!) под названием Becoming Pangea про тенденции в индустрии данных и аналитики, стратегические преимущества и проблемы, с которыми сталкиваются компании в ней, влияние основных облачных провайдеров на её будущее и роль стандартов в формировании в ней технологических экосистем.
Перейти к статье | DATApedia
Forwarded from QApedia | Тестирование
This media is not supported in your browser
VIEW IN TELEGRAM
😁6👍3
Дообучение ruGPT-3.5 13B с LoRA
Статья содержит подробное руководство по обучению модели ruGPT-3.5 13B с использованием датасетов модели Saiga-2/GigaSaiga, технологии Peft/LoRA и технологии GGML. Эта статья призвана стать полезным и практичным ресурсом для всех, кто интересуется машинным обучением, искусственным интеллектом и глубоким обучением, а также для тех, кто стремится глубже понять и освоить процесс обучения одной из самых мощных и перспективных русскоязычных моделей.
Перейти к статье | DATApedia | #DS_AI
Статья содержит подробное руководство по обучению модели ruGPT-3.5 13B с использованием датасетов модели Saiga-2/GigaSaiga, технологии Peft/LoRA и технологии GGML. Эта статья призвана стать полезным и практичным ресурсом для всех, кто интересуется машинным обучением, искусственным интеллектом и глубоким обучением, а также для тех, кто стремится глубже понять и освоить процесс обучения одной из самых мощных и перспективных русскоязычных моделей.
Перейти к статье | DATApedia | #DS_AI
🔥3
О точности вычислений: как не потерять данные в цифровом шуме
В данной статье описываются причины ошибок, возникающих при использовании чисел типа float, а также проблемы, связанные с накоплением ошибок при обработке больших данных.
Перейти к статье | DATApedia
В данной статье описываются причины ошибок, возникающих при использовании чисел типа float, а также проблемы, связанные с накоплением ошибок при обработке больших данных.
Перейти к статье | DATApedia
🔥2
Применение нейросетевых подходов для формирования признаков в моделях
В данной рассказано о том, как продвинутые подходы машинного обучения, в частности нейронные сети, помогают генерировать признаки для моделей, сокращая трудозатраты на проработку гипотез и операционные издержки при подготовке данных для моделей.
Перейти к статье | DATApedia | #DS_AI
В данной рассказано о том, как продвинутые подходы машинного обучения, в частности нейронные сети, помогают генерировать признаки для моделей, сокращая трудозатраты на проработку гипотез и операционные издержки при подготовке данных для моделей.
Перейти к статье | DATApedia | #DS_AI
Главное из книги Fundamentals of Data engineering — фундаментального труда о дата-инжиниринге
В данной статье автор кратко излагает основные мысли книги Джо Рейса и Мэтта Хаусли Fundamentals of Data engineering. Здесь приводится краткий конспект глав и самые важные моменты, которые полезно знать любому человеку, работающему с данными.
Перейти к статье | DATApedia
В данной статье автор кратко излагает основные мысли книги Джо Рейса и Мэтта Хаусли Fundamentals of Data engineering. Здесь приводится краткий конспект глав и самые важные моменты, которые полезно знать любому человеку, работающему с данными.
Перейти к статье | DATApedia
👍1🔥1
Введение в библиотеку Diffusers и диффузионные модели
Diffusers — это библиотека от Hugging Face, которая позволяет работать с сотнями предобученных моделей класса Stable Diffusion для создания изображений и аудио. В этой статье рассмотрим основные возможности библиотеки, ее компонентов, а также моделей Stable Diffusion в целом.
Перейти к статье | DATApedia
Diffusers — это библиотека от Hugging Face, которая позволяет работать с сотнями предобученных моделей класса Stable Diffusion для создания изображений и аудио. В этой статье рассмотрим основные возможности библиотеки, ее компонентов, а также моделей Stable Diffusion в целом.
Перейти к статье | DATApedia
Посторонись, Copilot: подборка разнообразных AI-инструментов для разработчиков
За пределами всем известного GitHub Copilot лежит огромный мир полезных приложений для программистов, и каждую неделю в нем появляется что-нибудь новенькое. В этом посте рассказано об этих инструментах — как полноценных конкурентах продукта GitHub, так и более специфических плагинах
Перейти к статье | DATApedia | #DS_AI
За пределами всем известного GitHub Copilot лежит огромный мир полезных приложений для программистов, и каждую неделю в нем появляется что-нибудь новенькое. В этом посте рассказано об этих инструментах — как полноценных конкурентах продукта GitHub, так и более специфических плагинах
Перейти к статье | DATApedia | #DS_AI
🔥3❤1
Построение OLAP-запросов с использованием аналитических функций
В данной статье рассказывается о том, как с помощью аналитических функций можно построить OLAP-запросы для более глубокого и информативного анализа данных.
Перейти к статье | DATApedia
В данной статье рассказывается о том, как с помощью аналитических функций можно построить OLAP-запросы для более глубокого и информативного анализа данных.
Перейти к статье | DATApedia
👍3
Разметка данных при помощи GPT-4
В статье описывается, как использовать GPT-4 для настройки меток для различных задач, а также как использовать прогнозы GPT-4 для предварительной разметки данных. В результате можно существенно снизить объем ручной работы на разметку данных, что может привести к экономии средств и сделать процесс разметки чуть менее монотонным.
Перейти к статье | DATApedia | #DS_AI
В статье описывается, как использовать GPT-4 для настройки меток для различных задач, а также как использовать прогнозы GPT-4 для предварительной разметки данных. В результате можно существенно снизить объем ручной работы на разметку данных, что может привести к экономии средств и сделать процесс разметки чуть менее монотонным.
Перейти к статье | DATApedia | #DS_AI
👍4
LLM'ы в преобразовании запроса на естественном языке в SQL (text2sql)
Данный пост познакомит вас с двумя AI-инструментами для генерации SQL-запросов: SQLCoder Defog и SQLthroughAI.
Перейти к статье | DATApedia | #DS_AI
Данный пост познакомит вас с двумя AI-инструментами для генерации SQL-запросов: SQLCoder Defog и SQLthroughAI.
Перейти к статье | DATApedia | #DS_AI
👍1
Как устроено машинное обучение: задачи, алгоритмы и виды machine learning
Данная статья описывает, что такое машинное обучение, какие задачи оно решает, какие разновидности машинного обучения бывают, как оно устроено, какие алгоритмы можно использовать и где его применяют.
Перейти к статье | DATApedia | #DS_AI
Данная статья описывает, что такое машинное обучение, какие задачи оно решает, какие разновидности машинного обучения бывают, как оно устроено, какие алгоритмы можно использовать и где его применяют.
Перейти к статье | DATApedia | #DS_AI
🔥2
Открыта регистрация на отборочный этап Всероссийского хакатона по биометрии с призовым фондом 1 000 000 рублей!
⠀
Тебе предстоит решить интересные задачи, чтобы победить в отборочном туре и принять участие в финале Всероссийского хакатона по биометрии, который пройдет уже 24-25 ноября в Москве.
Кейсы:
• Создание дипфейков для тестирования
• Обнаружение дипфейков
• Некооперативный фронтальный алгоритм защиты от атак предъявления
• Решения для использования новых биометрических модальностей на пользовательских устройствах
⠀ ⠀
🗓 Даты отборочного этапа в ОНЛАЙН-ФОРМАТЕ: 3-5 ноября 2023 года
❗️Даты финала: 24-25 ноября 2023 года 📍 Место: Москва
❗️ Формат: смешанный (отборочный этап в онлайн-формате, а финал на площадке в Москве)
👉 Регистрация на отборочный тур открыта до 29 октября 2023 года: https://tglink.io/50b3967c5d4e
Реклама. ООО "АКСЕЛЕРАТОР ВОЗМОЖНОСТЕЙ". ИНН 9704005146. erid: LjN8KWXjU
⠀
Тебе предстоит решить интересные задачи, чтобы победить в отборочном туре и принять участие в финале Всероссийского хакатона по биометрии, который пройдет уже 24-25 ноября в Москве.
Кейсы:
• Создание дипфейков для тестирования
• Обнаружение дипфейков
• Некооперативный фронтальный алгоритм защиты от атак предъявления
• Решения для использования новых биометрических модальностей на пользовательских устройствах
⠀ ⠀
🗓 Даты отборочного этапа в ОНЛАЙН-ФОРМАТЕ: 3-5 ноября 2023 года
❗️Даты финала: 24-25 ноября 2023 года 📍 Место: Москва
❗️ Формат: смешанный (отборочный этап в онлайн-формате, а финал на площадке в Москве)
👉 Регистрация на отборочный тур открыта до 29 октября 2023 года: https://tglink.io/50b3967c5d4e
Реклама. ООО "АКСЕЛЕРАТОР ВОЗМОЖНОСТЕЙ". ИНН 9704005146. erid: LjN8KWXjU
Рынок данных в даркнете: как купить чужие данные и не потерять свои
Статья рассказывает о рынке данных в даркнете. Также описываются виды мошенничества, цены за данные, изменения внутри рынка даркнета и т д.
Перейти к статье | DATApedia
Статья рассказывает о рынке данных в даркнете. Также описываются виды мошенничества, цены за данные, изменения внутри рынка даркнета и т д.
Перейти к статье | DATApedia
🙏3🔥2
12 лучших инструментов аннотирования изображений на 2023 год
"В этой статье мы обсудим критерии, использованные для оценки этих инструментов, их плюсы и минусы, а также сравним их между собой. Также мы приведём отзывы и рейтинги пользователей, варианты цен и тарифов и информацию об интеграции с другим ПО и платформами."
Перейти к статье | DATApedia
"В этой статье мы обсудим критерии, использованные для оценки этих инструментов, их плюсы и минусы, а также сравним их между собой. Также мы приведём отзывы и рейтинги пользователей, варианты цен и тарифов и информацию об интеграции с другим ПО и платформами."
Перейти к статье | DATApedia
👍3
Когда одной ARIMA мало. Прогнозирование временных рядов нейросетями
В этой статье автор говорит про временные ряды, а если конкретнее, про использование нейросетей для их прогнозирования.
Перейти к статье | DATApedia
В этой статье автор говорит про временные ряды, а если конкретнее, про использование нейросетей для их прогнозирования.
Перейти к статье | DATApedia
Руководство для начинающих по Spark UI: Как отслеживать и анализировать задания Spark
Статья-гайд по Spark UI. Это встроенный инструмент Apache Spark, который предоставляет полный обзор среды Spark: узлов, исполнителей, свойств и параметров среды, выполняемых заданий, планов запросов и многого другого. Кроме теории в статье вы найдёте несколько примеров, которые помогут попрактиковаться в отслеживании и анализе заданий Spark.
Перейти к статье | DATApedia
Статья-гайд по Spark UI. Это встроенный инструмент Apache Spark, который предоставляет полный обзор среды Spark: узлов, исполнителей, свойств и параметров среды, выполняемых заданий, планов запросов и многого другого. Кроме теории в статье вы найдёте несколько примеров, которые помогут попрактиковаться в отслеживании и анализе заданий Spark.
Перейти к статье | DATApedia