В Data Science не нужна математика (Почти)
Привет, чемпион!
Ребята с «вышкой» всё время умничают, что в Data Science нужна «математика», но стоит капнуть глубже, оказывается, что это не математика, а вышмат.
В реальной повседневной работе Data Scientist'а я каждый день использую знания математики. Притом очень часто это далеко не «вышмат». Никакие интегралы не считаю, детерминанты матриц не ищу, а нужные хитрые формулы и алгоритмы мне оперативнее просто загуглить.
Решил накидать чек-лист из простых математических приёмов, без понимания которых — тебе точно будет сложно в DS. Если ты только начинаешь карьеру в DS, то тебе будет особенно полезно. Мощь вышмата не принижаю, но для старта всё сильно проще, чем кажется. Важно прочитать до конца!
Читать: https://habr.com/ru/post/676114/
Привет, чемпион!
Ребята с «вышкой» всё время умничают, что в Data Science нужна «математика», но стоит капнуть глубже, оказывается, что это не математика, а вышмат.
В реальной повседневной работе Data Scientist'а я каждый день использую знания математики. Притом очень часто это далеко не «вышмат». Никакие интегралы не считаю, детерминанты матриц не ищу, а нужные хитрые формулы и алгоритмы мне оперативнее просто загуглить.
Решил накидать чек-лист из простых математических приёмов, без понимания которых — тебе точно будет сложно в DS. Если ты только начинаешь карьеру в DS, то тебе будет особенно полезно. Мощь вышмата не принижаю, но для старта всё сильно проще, чем кажется. Важно прочитать до конца!
Читать: https://habr.com/ru/post/676114/
👍8👎1
5 Steps to land a high paying data engineering job
Read: https://www.startdataengineering.com/post/n-steps-high-pay-de-job/
Read: https://www.startdataengineering.com/post/n-steps-high-pay-de-job/
👍1
Данные и где они обитают: 10 вопросов о ЦОДах, облаках и Big Data
Мы собрали 10 правдивых (и не очень) фактов и готовы проверить вашу эрудицию!
Читать: «Данные и где они обитают: 10 вопросов о ЦОДах, облаках и Big Data»
Мы собрали 10 правдивых (и не очень) фактов и готовы проверить вашу эрудицию!
Читать: «Данные и где они обитают: 10 вопросов о ЦОДах, облаках и Big Data»
👍1
DASтаточное решение: прямое подключение дисков для разных задач
Проблема хранения данных, и без того создающая массу головной боли архитекторам ЦОДов и системным администраторам, стала еще актуальнее в свете последних событий. В частности, к нам все чаще стали обращаться с запросами на различные форматы организации дополнительных хранилищ и расширения емкостей. Поэтому сегодня Юрий Алексеев, наш presale-эксперт по серверным решениям и системам хранения данных, расскажет о возможностях расширения уже существующего дискового пространства сервера с помощью подключения дисковых полок через DAS (то есть о прямом подключении). В посте мы поговорим о том, что для этого нужно, как это работает, и обсудим, может ли DAS заменить сетевые хранилища или системы высокой емкости.
Читать: https://habr.com/ru/post/676528/
Проблема хранения данных, и без того создающая массу головной боли архитекторам ЦОДов и системным администраторам, стала еще актуальнее в свете последних событий. В частности, к нам все чаще стали обращаться с запросами на различные форматы организации дополнительных хранилищ и расширения емкостей. Поэтому сегодня Юрий Алексеев, наш presale-эксперт по серверным решениям и системам хранения данных, расскажет о возможностях расширения уже существующего дискового пространства сервера с помощью подключения дисковых полок через DAS (то есть о прямом подключении). В посте мы поговорим о том, что для этого нужно, как это работает, и обсудим, может ли DAS заменить сетевые хранилища или системы высокой емкости.
Читать: https://habr.com/ru/post/676528/
👍1
Achieve fine-grained data security with row-level access control in Amazon Redshift
Read: https://aws.amazon.com/blogs/big-data/achieve-fine-grained-data-security-with-row-level-access-control-in-amazon-redshift/
Read: https://aws.amazon.com/blogs/big-data/achieve-fine-grained-data-security-with-row-level-access-control-in-amazon-redshift/
👍1
Optimize your Amazon Redshift query performance with automated materialized views
Read: https://aws.amazon.com/blogs/big-data/optimize-your-amazon-redshift-query-performance-with-automated-materialized-views/
Read: https://aws.amazon.com/blogs/big-data/optimize-your-amazon-redshift-query-performance-with-automated-materialized-views/
👍1
Introducing Embedded Analytics Data Lab to accelerate integration of Amazon QuickSight analytics into applications
Read: https://aws.amazon.com/blogs/big-data/introducing-embedded-analytics-data-lab-to-accelerate-integration-of-amazon-quicksight-analytics-into-applications/
Read: https://aws.amazon.com/blogs/big-data/introducing-embedded-analytics-data-lab-to-accelerate-integration-of-amazon-quicksight-analytics-into-applications/
👍1
Converting Columns to DateTime in Oracle Analytics Cloud
Oracle Analytics Cloud (OAC) offers powerful in-house data profiling capabilities. This blog describes how to convert a column from an attribute field to a DateTime field.
Read: https://blogs.oracle.com/analytics/post/converting-text-columns-to-datetime-in-oac
Oracle Analytics Cloud (OAC) offers powerful in-house data profiling capabilities. This blog describes how to convert a column from an attribute field to a DateTime field.
Read: https://blogs.oracle.com/analytics/post/converting-text-columns-to-datetime-in-oac
Oracle
Converting Columns to DateTime in Oracle Analytics Cloud
Oracle Analytics Cloud (OAC) offers powerful in-house data profiling capabilities. This blog describes how to convert a column from an attribute field to a DateTime field.
👍1
В чем проблема с базами данных «ключ-значение» и как ее решают Wide-column-хранилища
Базы данных «ключ-значение» великолепные — ультрабыстрые, простые, почти линейно масштабируемые по количеству узлов. Но с ними все не так просто. Команда VK Cloud Solutions перевела статью о том, какие у таких баз есть проблемы и как их решить с помощью Wide-column-хранилищ.
Проблемы с базами данных «ключ-значение»
Основная концепция базы данных «ключ-значение» в том, что сами значения ее не беспокоят. Ее работа основана на некоторых допущениях, например, как у Redis, но на структуру данных она вообще не обращает внимания. Из-за этого могут возникнуть три проблемы.
Читать: https://habr.com/ru/post/675556/
Базы данных «ключ-значение» великолепные — ультрабыстрые, простые, почти линейно масштабируемые по количеству узлов. Но с ними все не так просто. Команда VK Cloud Solutions перевела статью о том, какие у таких баз есть проблемы и как их решить с помощью Wide-column-хранилищ.
Проблемы с базами данных «ключ-значение»
Основная концепция базы данных «ключ-значение» в том, что сами значения ее не беспокоят. Ее работа основана на некоторых допущениях, например, как у Redis, но на структуру данных она вообще не обращает внимания. Из-за этого могут возникнуть три проблемы.
Читать: https://habr.com/ru/post/675556/
👍1
The Data Founder Story: Singularity Data
Read: https://www.dataengineeringweekly.com/p/the-data-founder-story-singularity
Read: https://www.dataengineeringweekly.com/p/the-data-founder-story-singularity
👍2
Национализация ваших данных происходит прямо сейчас
Национализация ваших данных государством продолжается семимильными шагами. Ожил "замерший" новый законопроект Минцифры и летит к принятию. Это один из самых радикальных подходов к данным со стороны государства, который я когда-либо видел. Он заберёт все ваши данные у компаний, не спросив вас, и раздаст всем желающим.
Согласно ему государство вправе бесплатно забрать у бизнеса любые персональные данные граждан в некую "информационную систему". Потом их "обезличат" чтобы с ними могли работать "ведомства и разработчики ИИ". Прямо так и написано. Разрешения гражданина не потребуется - хотя ещё в апреле Минцифры явно говорило, что оно будет нужно. Разрешение, как предполагали в первых версиях проекта, нужно будет спрашивать только у силовиков.
Поражает здесь то, что государство просто собирается признать своим всё, что крупные компании строили за деньги инвесторов, неся риски, столько лет - например, тот же "Яндекс". Весь его бизнес - это данные и продажа таргетинга на основе них. Это был барьер от конкурентов, создаваемое годами технологическое преимущество, ценнейший актив компании.
Если Яндексу придётся передать все подобные данные государству - это принципиальный удар по бизнес-модели. Его данные, даже в обезличенном виде, теперь будут доступны сотням компаний. Кстати, дальше эти данные "защищает" государство. Утечки, проблемы - теперь наказывать государство будет само себя.
Горелкин из айти-комитета госдумы подтверждает смысл закона: мол, несправедливо, когда у гигантов столько данных, пусть ими пользуются все. А в обмен гиганты, типа, получат доступ к обезличенным данным друг друга.
Государство же даст возможность развивать технологии и гораздо менее крупным ИТ-компаниям, обеспечив им доступ к дата-сетам, которые сегодня они себе просто не могут позволить. - пишет он
То есть "отберём у всех больших и раздадим всем желающим". Нихрена ж себе революция.
Это может привести к полному изменению бизнес-моделей при активном вмешательстве государства.
И это продолжение курса на национализацию данных - неважно сколько сил и средств было вложено компаниями. Я уже писал про уже принятых новых закона - один позволяет государству забирать ваши биометрические данные у любого бизнеса без вашего разрешения, второй запрещает бизнесу без разрешения РКН отдавать данные куда-либо за рубеж, даже в системы аналитики. Их уже подписали и приняли.
Третий закон, если будет принят в таком виде, принудит бизнес просто отдавать всё, что он собирает. Это радикальная национализация пользовательских данных и полное перекраивание рынка. И плевок в приватность пользователей.
Читать: https://habr.com/ru/post/676778/
Национализация ваших данных государством продолжается семимильными шагами. Ожил "замерший" новый законопроект Минцифры и летит к принятию. Это один из самых радикальных подходов к данным со стороны государства, который я когда-либо видел. Он заберёт все ваши данные у компаний, не спросив вас, и раздаст всем желающим.
Согласно ему государство вправе бесплатно забрать у бизнеса любые персональные данные граждан в некую "информационную систему". Потом их "обезличат" чтобы с ними могли работать "ведомства и разработчики ИИ". Прямо так и написано. Разрешения гражданина не потребуется - хотя ещё в апреле Минцифры явно говорило, что оно будет нужно. Разрешение, как предполагали в первых версиях проекта, нужно будет спрашивать только у силовиков.
Поражает здесь то, что государство просто собирается признать своим всё, что крупные компании строили за деньги инвесторов, неся риски, столько лет - например, тот же "Яндекс". Весь его бизнес - это данные и продажа таргетинга на основе них. Это был барьер от конкурентов, создаваемое годами технологическое преимущество, ценнейший актив компании.
Если Яндексу придётся передать все подобные данные государству - это принципиальный удар по бизнес-модели. Его данные, даже в обезличенном виде, теперь будут доступны сотням компаний. Кстати, дальше эти данные "защищает" государство. Утечки, проблемы - теперь наказывать государство будет само себя.
Горелкин из айти-комитета госдумы подтверждает смысл закона: мол, несправедливо, когда у гигантов столько данных, пусть ими пользуются все. А в обмен гиганты, типа, получат доступ к обезличенным данным друг друга.
Государство же даст возможность развивать технологии и гораздо менее крупным ИТ-компаниям, обеспечив им доступ к дата-сетам, которые сегодня они себе просто не могут позволить. - пишет он
То есть "отберём у всех больших и раздадим всем желающим". Нихрена ж себе революция.
Это может привести к полному изменению бизнес-моделей при активном вмешательстве государства.
И это продолжение курса на национализацию данных - неважно сколько сил и средств было вложено компаниями. Я уже писал про уже принятых новых закона - один позволяет государству забирать ваши биометрические данные у любого бизнеса без вашего разрешения, второй запрещает бизнесу без разрешения РКН отдавать данные куда-либо за рубеж, даже в системы аналитики. Их уже подписали и приняли.
Третий закон, если будет принят в таком виде, принудит бизнес просто отдавать всё, что он собирает. Это радикальная национализация пользовательских данных и полное перекраивание рынка. И плевок в приватность пользователей.
Читать: https://habr.com/ru/post/676778/
😱4😢3
Выявление и сбор требований к ПО — ultimate guide
Какие бывают требования к ПО и как их собирать. Пост полностью освещает все аспекты сбора и структурирует информацию для тестировщиков.
Читать: «Выявление и сбор требований к ПО — ultimate guide»
Какие бывают требования к ПО и как их собирать. Пост полностью освещает все аспекты сбора и структурирует информацию для тестировщиков.
Читать: «Выявление и сбор требований к ПО — ultimate guide»
👍1
Custom packages and hot reload of dictionary files with Amazon OpenSearch Service
Read: https://aws.amazon.com/blogs/big-data/custom-packages-and-hot-reload-of-dictionary-files-with-amazon-opensearch-service/
Read: https://aws.amazon.com/blogs/big-data/custom-packages-and-hot-reload-of-dictionary-files-with-amazon-opensearch-service/
👍1
Accelerate resize and encryption of Amazon Redshift clusters with Faster Classic Resize
Read: https://aws.amazon.com/blogs/big-data/accelerate-resize-and-encryption-of-amazon-redshift-clusters-with-faster-classic-resize/
Read: https://aws.amazon.com/blogs/big-data/accelerate-resize-and-encryption-of-amazon-redshift-clusters-with-faster-classic-resize/
👍1
Обучение алгоритма генерации текста на основе высказываний философов и писателей
Наверняка вы мечтали поговорить с великим философом: задать ему вопрос о своей жизни, узнать его мнение или просто поболтать. В наше время это возможно за счет чат-ботов, которые поддерживают диалог, имитируя манеру общения живого человека. Подобные чат-боты создаются благодаря технологиям разработки естественного языка и генерации текста. Уже сейчас существуют обученные модели, которые неплохо справляются с данной задачей.
Узнать больше!
Читать: https://habr.com/ru/post/677032/
Наверняка вы мечтали поговорить с великим философом: задать ему вопрос о своей жизни, узнать его мнение или просто поболтать. В наше время это возможно за счет чат-ботов, которые поддерживают диалог, имитируя манеру общения живого человека. Подобные чат-боты создаются благодаря технологиям разработки естественного языка и генерации текста. Уже сейчас существуют обученные модели, которые неплохо справляются с данной задачей.
Узнать больше!
Читать: https://habr.com/ru/post/677032/
👍2
What is AB testing? 2
Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/07/what-is-ab-testing-2.html
Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/07/what-is-ab-testing-2.html
👍3
Migrate a large data warehouse from Greenplum to Amazon Redshift using AWS SCT – Part 1
Read: https://aws.amazon.com/blogs/big-data/part-1-migrate-a-large-data-warehouse-from-greenplum-to-amazon-redshift-using-aws-sct/
Read: https://aws.amazon.com/blogs/big-data/part-1-migrate-a-large-data-warehouse-from-greenplum-to-amazon-redshift-using-aws-sct/
👍1
Migrate a large data warehouse from Greenplum to Amazon Redshift using AWS SCT – Part 2
Read: https://aws.amazon.com/blogs/big-data/part-2-migrate-a-large-data-warehouse-from-greenplum-to-amazon-redshift-using-aws-sct/
Read: https://aws.amazon.com/blogs/big-data/part-2-migrate-a-large-data-warehouse-from-greenplum-to-amazon-redshift-using-aws-sct/
👍1
Работа над неразмеченными данными с QGIS и opentripmap на практике
В этом посте я хочу поделиться интересным опытом работы с неразмеченными данными при помощи открытого ресурса opentripmap.
Задача
По исходным данным определить является ли конкретное фото, сделанное пользователем туристическим или нет. А так же масштабировать и автоматизировать алгоритм решения на любой регион Российской Федерации, избегая ручную работу.
Читать: https://habr.com/ru/post/677298/
В этом посте я хочу поделиться интересным опытом работы с неразмеченными данными при помощи открытого ресурса opentripmap.
Задача
По исходным данным определить является ли конкретное фото, сделанное пользователем туристическим или нет. А так же масштабировать и автоматизировать алгоритм решения на любой регион Российской Федерации, избегая ручную работу.
Читать: https://habr.com/ru/post/677298/
👍2
Пишем первую программу по машинному обучению до 50 строк с помощью Scikit-Learn
Сегодня мы воспользуемся возможностями машинного обучения для анализа шоколадного печенья.
Читать о печеньках и ML
Читать: https://habr.com/ru/post/677274/
Сегодня мы воспользуемся возможностями машинного обучения для анализа шоколадного печенья.
Читать о печеньках и ML
Читать: https://habr.com/ru/post/677274/
👍2
Глубокое погружение в рекомендательную систему Netflix
Как Netflix добился 80 процентов от всего своего стримингового времени благодаря персонализации
Читать: https://habr.com/ru/post/677396/
Как Netflix добился 80 процентов от всего своего стримингового времени благодаря персонализации
Читать: https://habr.com/ru/post/677396/
👍1