Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20.1K subscribers
633 photos
38 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
#javanoscript

const arr = [. . . new Set ( [ 3, 1, 2, 3, 4 ] ) ];
console. Log ( arr . Length, arr [2]);

Что выведется в консоль?

5,1 - 4
👍👍 6%
4,3 - 7
👍👍 11%
4,2 - 52
👍👍👍👍👍👍👍👍 81%
5,3 - 1
👍 2%
👥 64 человека уже проголосовало.
⬆️ Правильный ответ ⬆️

4,2
PyCharm лидер рынка с языком программирования Python в 2020 году


Из года в год разработчики всего мира все больше и больше убеждаться в том что PyCharm — лучшая среда для работы с языком программирования Python в 2020 году от Jetbrains. С помощью этой системы можно редактировать стили web-документов, файлы имеющие язык разметки HTML, скрипты Coffeenoscript и естественно Javanoscript.
​​Как обучаются алгоритмы и от чего это зависит

Казалось бы, когда бизнес-цель четко сформулирована, а все метрики определены, остается выдать специалисту накопленные данные, он найдет и обучит подходящую модель, и все будут счастливы. Так процесс описывают в статьях о том, «как мы научили машину делать то-то», которые появляются на просторах интернета по несколько раз в месяц. Но есть одно но: ваши данные должны содержать достаточно ценной информации, отвечающей условиям задачи. Иначе велик шанс, что на вопрос о том, кому еще мы можем предложить наш продукт, модель выдаст многозначительное: «42».
То, какие данные вы накопили в своем проекте, и то, что вы можете достать внутри компании или у партнеров, зависит от вас, а не от дата-сайентиста. Согласитесь, вы не можете прийти к строителю с грудой досок и попросить построить из них каменный дворец. Аналогично нельзя требовать от специалиста по данным додумать то, чего нет в ваших данных. Поэтому так важно хотя бы базово понимать, как ваши ресурсы соотносятся с вашими возможностями и какие подходы обеспечат нужный результат.
Разобраться в подходах к машинному обучению довольно просто: изучите эту сравнительную таблицу — и вы лучше поймете, выполнима ли задача, которую вы описали в предыдущем модуле, на данных, которые у вас есть.
Почему простые числа образуют спирали?

Все мы слышали об удивительных закономерностях и паттернах в математике. Некоторые из них настолько красивы и необъяснимы, что люди с радостью приписывают им мистический смысл. Но стоит разобраться получше, и оказывается, всё дело во вполне понятных, хоть и сложных, свойствах самих чисел. Грант с канала 3Blue1Brown, например, предлагает разобраться, как таинственные спирали на полярном графике связаны с одной из фундаментальных особенностей простых чисел.
Облако идет к вам

Все предыдущие годы развития облачных технологий сейчас кажутся подготовкой к тому глобальному вызову, на который пришлось отвечать в этом году, и ведущие провайдеры публичных облаков с этим вызовом успешно справились, замечают аналитики Forrester. Действительно, без облачных приложений, средств коммуникации, инструментов разработки и инфраструктурных сервисов очень многим бизнесам и корпоративным ИТ было бы гораздо сложнее (если вообще возможно) адаптироваться к работе в условиях тотального локдауна и самоизоляции. Облака уже не первый год позиционируются как ключевая платформа цифровизации, а теперь их востребованность резко возрастет, уверены аналитики, поскольку без них нереализуема не только удаленная работа, но и, прежде всего, гибкая, способная адаптироваться к любым изменениям ИТ-инфраструктура.
Именно поэтому рынок публичных облачных сервисов растет и будет расти еще больше. Аналитики Forrester прогнозируют 35-процентный рост для мировых облачных гиперскейлеров (Google, Amazon, Microsoft Azure и Alibaba) в 2021 году, возрастет спрос на платформы контейнеров для разработки приложений в публичных облаках и мультиоблачных средах. По данным IDC, в будущем году 80% корпораций реализуют инициативы по переходу к инфраструктурам на базе облака. А в Gartner повторяют прошлогодний прогноз о появлении распределенных облаков — сред, в которых облачные сервисы реализуются в различных физических точках, но под управлением одного провайдера.
Облачный рынок растет и в России, значительно активизировались в этом году и не планируют останавливаться местные провайдеры облачных сервисов, которые в силу геополитических и регуляторных причин имеют очевидные преимущества на отечественном рынке перед западными. Хотя проникновение облаков в инфраструктуры российских компаний остается относительно низким в сравнении с мировыми показателями, ситуация меняется, кризис побуждает российский бизнес обращаться к облачным сервисам. Аналитики IDC в России и СНГ отмечают, что организации в стране расширяют спектр технологий, которые они готовы потреблять из облака. Это уже не только SaaS для определенных бизнес-функций, но и аналитика больших данных и машинное обучение, решения для Интернета вещей, контейнеры, инструменты для поддержки процессов DevOps, нереляционные базы данных и др.
Важно также то, что российские провайдеры начинают развивать облачные сервисы на основе контейнерной виртуализации, и это, как считают в IDC, может изменить структуру потребления облаков в России. Если сейчас наиболее востребованы предложения SaaS, то в будущем фокус может сместиться к инфраструктурным (IaaS) и платформенным (PaaS) сервисам.
Эти знания будут полезны любому, кого интересует область Data Science.
#data_scientist
#data_structures
Массивы (Arrays)
Ряд чисел 1234 — это простой массив с размерностью 4. У каждой цифры есть свой индекс, который, как правило, начинается с 0 — в нашем примере мы обратимся по этому адресу, если нам понадобится единица. Особенность массива как структуры данных в том, что время доступа ко всем его элементам одинаково — в каждом случае вы работаете с индексом, который вычисляется за одинаковый период.
Основные операции над массивом — взаимодействие с его элементами через добавление, чтение, удаление данных. В своей работе data scientist применяет эти действия, чтобы ранжировать элементы по весу, объединять несколько массивов в один, определять значение нужной ячейки.
#SQLзыдачи

Что такое представление VIEW? Ответ подразумевает стандартную реализацию SQL

Обьект, являющийся результатом выполнения запроса к БД, определенного с помощью ALTER TABLE - 6
👍👍 10%
Реальная таблица, содержимое которой определяется запросом - 6
👍👍 10%
Тип таблицы, чье содержимое выбирается из других таблиц с помощью выполнения запроса - 50
👍👍👍👍👍👍👍👍 81%
👥 62 человека уже проголосовало.
⬆️ Правильный ответ ⬆️

Представления иногда называет "Виртуальными таблицами" Представление доступно для пользователя как таблица, но само оно не содержит данных,
а извлекает их из таблиц в момент обращения к нему.
Эти знания будут полезны любому, кого интересует область Data Science.
#data_scientist
#data_structures
Стек (Stack)
Когда в школе вы всем классом садились за сочинение, учитель мог попросить тех, кто закончил, сразу нести ему свои работы. Далее он брал бы тетрадки одну за другой, каждый раз поднимая верхнюю в стопке. Очевидно, каждый раз это будет сочинение того из учеников, который положил текст на стол последним.
Понимает учитель или нет, но такая проверка сочинений напоминает работу со стеком данных. Правило обращения к информации, по которому первой освобождается последняя ячейка, называется LIFO (Last-In-First-Out, «последний зашёл — первый вышел»).
Программист может отправлять команды по перемещению элементов стека вверх или вниз, проверять его заполненность. По этому принципу работают функции отмены последнего действия или ведения истории браузера.
Как называется свойство алгоритма, означающее, что он всегда приводит к результату через конечное, возможно, очень большое число шагов?

Понятность
▫️ 0%
Результативность - 86
👍👍👍👍👍👍👍👍 90%
Массовость - 1
👍 1%
Дискретность - 9
👍👍 9%
👥 96 человек уже проголосовало.
⬆️ Правильный ответ ⬆️

РЕЗУЛЬТАТИВНОСТЬ - получение результата через конечное число шагов.
Эти знания будут полезны любому, кого интересует область Data Science.
#data_scientist
#data_structures
Очередь (Queue)
Эта структура — зеркальное отражение стека, поскольку в ней данные освобождаются по принципу FIFO (First-In-First-Out, «первый зашёл — первый вышел»). За примерами из реальной жизни далеко ходить не надо — очереди в магазинах, больницах и прочих ведомствах, увы, ещё не ушли в прошлое.
Разработчики применяют очереди, когда им нужно наладить совместное использование ресурсов несколькими процессами. Таким образом обеспечиваются мультизадачность, определение доступа к процессору, запись и чтение информации на жёстком диске.
Операции с очередями включают добавление новых или удаление старых элементов. На практике это используется, чтобы, например, сформировать стек, выстроить данные в том или ином порядке, сгенерировать некий ряд чисел.
​​Он наконец-то заканчивается!

2020 год был непростым, и вы точно заслужили классный подарок🎁

Подкидываем вам идею, как побаловать себя и встретить следующий год с пользой. Начните заниматься английским!

Сейчас в сервисе Puzzle English (@puzzleng) действует скидка 50% на ежемесячную подписку. Полный доступ к тысячам упражнений по грамматике и аудированию, видеоурокам, играм, песням и книгам за 499 рублей в месяц.

Узнать больше о сервисе и оформить подписку➡️ https://u.to/y4_HGg
 Эти знания будут полезны любому, кого интересует область Data Science.
#data_scientist
#data_structures
Связный список (Linked List)
Чаще всего люди учат стихотворение, запоминая одну строфу за другой. В процессе у читателя появляются ассоциации, которые вытягивают из памяти следующую строчку, пока человек не вспомнит весь стих. Это пример работы со связным списком, где каждый элемент (узел) связан со следующим, что позволяет перемещаться по структуре от одного блока к другому.
Эту конструкцию также можно сравнить с поездом: у него каждый вагон связан с двумя своими соседями. Два исключения — первый и последний вагоны, у которых по одной связи (ссылке). Если вы пройдёте поезд насквозь, вы фактически совершите путешествие по связному списку сидящих в нем пассажиров (согласно купленным билетам). В последнем вагоне выходная дверь будет закрыта — для оператора работы со списком это сигнал о достижении финального элемента.
Метод связных списков применяется при низкоуровневом управлении памятью: компьютер записывает данные в ячейки, запоминая порядок в цепочке, и обращается к нужным блокам по известному ему порядку.
Если на собеседовании на вакансию data scientist вас спросят, чем такая структура уступает массиву данных, скажите, что простые связные списки затрудняют случайный доступ к данным, равно как и их эффективное индексирование. В некоторых случаях базовые операции вроде определения последней ячейки занимают излишние ресурсы — ведь для этого нужно пройти по всей структуре.
С другой стороны, элементы связного списка можно легко добавлять и удалять без необходимости перестраивать весь объём данных. Поэтому эта структура активно используется в динамических операциях вроде отслеживания объекта, который постоянно меняет свое положение.
Эти знания будут полезны любому, кого интересует область Data Science.
#data_scientist
#data_structures
 Дерево (Tree)
С этой структурой программист знакомится на первых страницах своего первого учебника — именно деревья структурно соответствуют алгоритмам. Каждый последующий шаг такой цепочки зависит от принятого ранее решения. Если я поступлю в институт, то стану дата-сайентистом и совершу технологическую революцию, а провалю экзамен — научусь смазывать автомат и делать поправку на ветер.
Как нетрудно догадаться, операции с деревьями составляют значительную часть работы эксперта по data science — именно они лежат в основе рекомендательных систем и моделей искусственного интеллекта. Это оптимальный способ найти решение сложной задачи, которое зависит от нескольких параметров или условий.
Деревья делятся на множество типов — бинарные и n-арные, ориентированные и неориентированные, сбалансированные, даже красно-чёрные. Разницу между категориями определяют такие факторы, как количество развилок (узлов) на дереве, количество возможных на каждой ступени вариантов (дуг) и так далее. На собеседовании вас могут попросить найти высоту дерева, посчитать узлы на пути к заданной точке, определить связи между элементами.
Кому и зачем нужны Data Engineer?
По мере того как данные становились стратегически важной составляющей бизнеса, а их сбор и анализ помогали получать все больше полезных инсайтов, наука о данных обрастала сразу несколькими сложными и похожими специализациями. На первый взгляд, они могут показаться дублирующими профессиями со смежными функциями: Data Scientist или исследователь данных, аналитик, Data Engineer или инженер данных, инженер по машинному обучению, администратор баз данных и др. Все эти специалисты используют в своей работе основной ресурс — данные, и их функции действительно пересекаются, но если приглядеться, то переплетающиеся роли довольно четко разделены, а с развитием Data Science и ее ответвлений они получат еще более ясное разграничение.
Data Scientist vs. Data Engineer
Возьмем, например, исследователя данных и инженера данных. Один другому просто необходим. Первый умеет анализировать данные, выстраивать модели и создавать хранилища данных. Но оказавшись лицом к лицу с поставленной бизнес-задачей, ему понадобятся именно те данные, с помощью которых он смог бы найти решение. К его большому сожалению, готовых к использованию данных в его распоряжении не будет, но они будут скрыты в различных хранилищах, и их еще нужно будет собрать и очистить. Вот здесь-то ему и понадобится помощь дата-инженера. Data Engineer отвечает за создание, обработку и поддержку каналов или пайплайнов данных, которые необходимы Data Scientist для анализа и решения бизнес-задач.
​​Что такое Arenadata Hadoop

Arenadata Hadoop (ADH) – это полноценный дистрибутив распределенной платформы хранения больших данных на базе Apache Hadoop, адаптированный для корпоративного использования и зарегистрированный в государственном реестре программ для ЭВМ. ADH позволит вам быстро и просто в автоматическом режиме развернуть безопасный отказоустойчивой кластер для хранения и обработки больших данных как локально, так и в «облаках». Благодаря средствам мониторинга и управления конфигурацией кластера вы сможете быстро оптимизировать производительность всех компонентов своей Big Data системы.

Arenadata Hadoop является первой отечественной платформой Hadoop с открытым исходным кодом для распределенного хранения больших данных и параллельных вычислений. Благодаря регистрации продуктов Arenadata в Едином реестре российских программ, эти решения соответствуют политике импортозамещения и отлично подходят для использования в проектах цифровизации государственных организаций и частных компаний РФ.
 Что из перечисленного верно для индекса в SQL

CREATE INDEX ID; - 63
👍👍👍👍👍👍👍👍 93%
CHANGE INDEX ID; - 2
👍 3%
ADD INDEX ID; - 3
👍 4%
👥 68 человек уже проголосовало.
⬆️ Правильный ответ ⬆️

CREATE INDEX ID
Эти знания будут полезны любому, кого интересует область Data Science.
#data_scientist
#data_structures
Префиксное дерево (Trie)
Отдельный вид деревьев представляет собой структуру, в которой путь до нужного элемента оказывается не последовательностью индексов, а неким «сообщением». Фактическую ценность представляет не содержание последней ячейки в цепочке, а процесс определения маршрута к ней.
Проще всего это понять на примере системы Т9. Вы вводите «м» — вам предлагается «а», «у» или «о». Нажмите «а», программа поймет, что вам не нужны ни «мука», ни «молоко», и подскажет слово «мама». Абсолютно также работают любые механизмы, которые предлагают варианты по мере ввода информации.
Именно на таких задачах можно объяснить, в чем заключается профессия исследователя данных. Этот метод также помогает определить географический адрес, подсчитать количество слов в языке или создать портрет типичного жителя какого-то региона.