На чем держится весь мир анализа данных?
Друзья, мы перезапускаем нашу самую любимую рубрику из закрытого проекта FULL JOIN — основы статистики. В ближайшие несколько недель мы пройдемся по самым простым вещам, а затем начнем вспоминать чуть менее тривиальные понятия и аспекты матстата.
Начнем с того, что с ростом любой компании растет и объем генерируемых данных. Но какой толк от данных, если их не анализировать?
Анализом данных, как вы и сами знаете, занимаются аналитики данных. Но что на самом деле он из себя представляет? Давайте вспомним азы статистики, на которых зиждется весь анализ, чтобы эта терминология у вас отскакивала от зубов, а все понятия прочно и однозначно закрепились в голове. Как говорится, чтобы если вас ночью разбудили и спросили, вы ответили без запинки.Или, что более вероятно, если вас спросят об этом на собеседовании в компанию мечты.
P.S. Если вам это все давно хорошо знакомо, то этим постом лучше поделиться с другом, ведь лучший подарок —книга пост из канала @leftjoin.
#основы_статистики
Друзья, мы перезапускаем нашу самую любимую рубрику из закрытого проекта FULL JOIN — основы статистики. В ближайшие несколько недель мы пройдемся по самым простым вещам, а затем начнем вспоминать чуть менее тривиальные понятия и аспекты матстата.
Начнем с того, что с ростом любой компании растет и объем генерируемых данных. Но какой толк от данных, если их не анализировать?
Анализом данных, как вы и сами знаете, занимаются аналитики данных. Но что на самом деле он из себя представляет? Давайте вспомним азы статистики, на которых зиждется весь анализ, чтобы эта терминология у вас отскакивала от зубов, а все понятия прочно и однозначно закрепились в голове. Как говорится, чтобы если вас ночью разбудили и спросили, вы ответили без запинки.
P.S. Если вам это все давно хорошо знакомо, то этим постом лучше поделиться с другом, ведь лучший подарок —
#основы_статистики
🔥74👍14❤11🤩1💯1
Фишки, которые должен знать каждый пользователь ClickHouse
ClickHouse славится тем, что не тормозит и поддерживает SQL. Но не все знают, что правильная архитектура базы может ускорить выполнение запросов до немыслимого уровня.
В своем докладе генеральный директор компании Altinity (которая занимается консалтингом по использованию и настройке ClickHouse) Роберт Ходжес расскажет несколько лайфхаков, которые могут вам пригодиться при проектировании базы данных.
Мы хотим выделить 2 лайфхака, которые показались нам особенно полезными:
🔵 Во-первых — трассировка запроса. Оптимизировать запрос крайне непростая задача, которая требует богатого опыта и интуиции. Не всегда понятно до конца, какие действия производит СУБД во время обработки запроса. К счастью, в ClickHouse есть возможность увидеть трассировку запроса, то есть последовательность действий, которые были выполнены системой.
🔵 Другой лайфхак может помочь при построении таблицы для данных, у которых структура не очень строгая. Если заранее не известно, какой набор полей будет в каждой записи, можно воспользоваться массивами. В одно поле записывается массив названий различных показателей, в другое - массив значений этих показателей. Такое архитектурное решение удобно за счет богатого арсенала функций для работы с массивами.
Остальное, как всегда, в самом докладе на блестящем английском!
#краткий_пересказ
ClickHouse славится тем, что не тормозит и поддерживает SQL. Но не все знают, что правильная архитектура базы может ускорить выполнение запросов до немыслимого уровня.
В своем докладе генеральный директор компании Altinity (которая занимается консалтингом по использованию и настройке ClickHouse) Роберт Ходжес расскажет несколько лайфхаков, которые могут вам пригодиться при проектировании базы данных.
Мы хотим выделить 2 лайфхака, которые показались нам особенно полезными:
Остальное, как всегда, в самом докладе на блестящем английском!
#краткий_пересказ
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12👍6👾2👀1
☕️ Под утренний кофе: еженедельный дайджест о технологиях, данных и аналитике 🗞
🔵 Dataform для BigQuery в общем доступе
Dataform – это сервис для аналитиков и инженеров данных, который дает возможность творить SQL-чудеса в BigQuery. Ранее доступ к нему был ограничен. Теперь же и вы можете контролировать версии с помощью Git и CI/CD, обновлять таблицы без ковыряний в инфраструктуре и управлять жизненным циклом кода.
🔵 Falcon 40B LLM – новая языковая модель от AWS
AWS представила новую модель, рейтинг которой на Hugging Face уже в числе самых высоких. Натренировали «соколика» на Amazon SageMaker с помощью 1000Б токенов. Модель с 40 миллиардами параметров и открытым кодом, так что ждем новых сервисов и продуктов на ее основе!
🔵 Vision Pro: $3,499 за очки дополненной реальности — будущее уже здесь?
Apple анонсировала новый продукт, пространственный компьютер для дополненной реальности Vision Pro, который способен филигранно обогащать реальную обстановку цифровым контентом. И интернет уже, конечно, переполнен обсуждениями этого релиза…
Личное мнение
Это крутой продукт с абсолютно новым подходом и парадигмой к набившему оскомину VR. Все предыдущие попытки создать шлемы VR исходили из идеи погружения нас в альтернативную цифровую реальность, Apple же идет другим путем — их аквалангная маска расширяет присутствие цифрового контента и в большей степени конкурирует с очень крутыми мониторами, на которых можно смотреть контент.
Но не без «но»
Смущают две вещи (естественно, помимо цены):
1) Два часа работы — это как-то очень мало, у розетки что ли с ним сидеть?
2) В концепции фильмосмотрения — это, конечно, идеальный девайс для социопата-эгоиста, который смотрит кино в одиночку.
Рекламные ролики, конечно, ввергают несколько в шок, особенно в моментах, где человек с надетым шлемом на голову общается с детьми — как-то это кринжово. И, в целом, эффект сериала «Черное зеркало» достигнут.
А у вас какие мысли на счет нового продукта? Будущее ли это? Интересно было бы попробовать? (мне — очень) 😎
Dataform – это сервис для аналитиков и инженеров данных, который дает возможность творить SQL-чудеса в BigQuery. Ранее доступ к нему был ограничен. Теперь же и вы можете контролировать версии с помощью Git и CI/CD, обновлять таблицы без ковыряний в инфраструктуре и управлять жизненным циклом кода.
AWS представила новую модель, рейтинг которой на Hugging Face уже в числе самых высоких. Натренировали «соколика» на Amazon SageMaker с помощью 1000Б токенов. Модель с 40 миллиардами параметров и открытым кодом, так что ждем новых сервисов и продуктов на ее основе!
Apple анонсировала новый продукт, пространственный компьютер для дополненной реальности Vision Pro, который способен филигранно обогащать реальную обстановку цифровым контентом. И интернет уже, конечно, переполнен обсуждениями этого релиза…
Личное мнение
Это крутой продукт с абсолютно новым подходом и парадигмой к набившему оскомину VR. Все предыдущие попытки создать шлемы VR исходили из идеи погружения нас в альтернативную цифровую реальность, Apple же идет другим путем — их аквалангная маска расширяет присутствие цифрового контента и в большей степени конкурирует с очень крутыми мониторами, на которых можно смотреть контент.
Но не без «но»
Смущают две вещи (естественно, помимо цены):
1) Два часа работы — это как-то очень мало, у розетки что ли с ним сидеть?
2) В концепции фильмосмотрения — это, конечно, идеальный девайс для социопата-эгоиста, который смотрит кино в одиночку.
Рекламные ролики, конечно, ввергают несколько в шок, особенно в моментах, где человек с надетым шлемом на голову общается с детьми — как-то это кринжово. И, в целом, эффект сериала «Черное зеркало» достигнут.
А у вас какие мысли на счет нового продукта? Будущее ли это? Интересно было бы попробовать? (мне — очень) 😎
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7❤6🌚4
Исчерпывающая лекция Андрея Карпаты, сооснователя OpenAI, о GPT 🎓
На форуме Microsoft Build 2023, который состоялся в этом мае, помимо презентаций новинок от Microsoft, были и другие заметные выступления. Например, с потрясающей лекцией «State of GPT» выступил Андрей Карпаты из OpenAI.
В своей презентации он рассказал о том, как тренировалась модель GPT и как создать ассистента, аналогичного ChatGPT. Он рассказал о токенизации, предварительной тренировке, fine-tuning и обучении с подкреплением на основе отзывов людей (RLHF).
Андрей — это, можно сказать, один из пап ChatGPT, поэтому послушать его лекцию, сопровожденную подробными слайдами, — настоящая находка для фаната языковых моделей. Лекция, если что, на английском 🇨🇦
На форуме Microsoft Build 2023, который состоялся в этом мае, помимо презентаций новинок от Microsoft, были и другие заметные выступления. Например, с потрясающей лекцией «State of GPT» выступил Андрей Карпаты из OpenAI.
В своей презентации он рассказал о том, как тренировалась модель GPT и как создать ассистента, аналогичного ChatGPT. Он рассказал о токенизации, предварительной тренировке, fine-tuning и обучении с подкреплением на основе отзывов людей (RLHF).
Андрей — это, можно сказать, один из пап ChatGPT, поэтому послушать его лекцию, сопровожденную подробными слайдами, — настоящая находка для фаната языковых моделей. Лекция, если что, на английском 🇨🇦
👍28❤4🔥4
Как случайность объясняет мир вокруг нас?
Давайте продолжим разговор про главный инструмент аналитиков данных и дата саентистов — про статистику.
Мы уже освежили в памяти базовые вещи, вспомнили, что такое выборка и генеральная совокупность, вспомнили как посчитать основные описательные статистики.
Сегодня давайте вспомним одну из самых главных вещей в статистике — центральную предельную теорему (ЦПТ). Если уже все про нее знаете, все равно просмотрите карточки — потом блеснете на собеседовании фундаментальными знаниями.
P.S. Помните, что никто не в силах вам запретить поставить забавную реакцию этому посту или переслать пост из канала @leftjoin лучшему другу.
#основы_статистики
Давайте продолжим разговор про главный инструмент аналитиков данных и дата саентистов — про статистику.
Мы уже освежили в памяти базовые вещи, вспомнили, что такое выборка и генеральная совокупность, вспомнили как посчитать основные описательные статистики.
Сегодня давайте вспомним одну из самых главных вещей в статистике — центральную предельную теорему (ЦПТ). Если уже все про нее знаете, все равно просмотрите карточки — потом блеснете на собеседовании фундаментальными знаниями.
P.S. Помните, что никто не в силах вам запретить поставить забавную реакцию этому посту или переслать пост из канала @leftjoin лучшему другу.
#основы_статистики
🔥61👾15👍9🐳7❤6