R4marketing | канал Алексея Селезнёва | Язык R – Telegram
R4marketing | канал Алексея Селезнёва | Язык R
4.27K subscribers
59 photos
11 files
1.21K links
Автор канала Алексей Селезнёв, украинский аналитик, автор ряда курсов по языку R и пакетов расширяющих его возможности.

В канале публикуются статьи, доклады, новости, уроки и заметки по языку R.

Для связи: @AlexeySeleznev
Реклама: http://bit.ly/39MwJCY
Download Telegram
​​Сегодня в 16:00 по Москве пройдёт 12ый воскресный скRинкаст от Георгия Мороза и Ивана Позднякова.

https://zoom.us/j/94858080264?pwd=R1FZbGRXVmxsbXJEa3gwdXlKanV5QT09
​​Чат вакансий для русскоязычных Rщиков.

Ссылка: https://news.1rj.ru/str/rlang_ru_jobs
Материалы по Data Science: книги, лекции, статьи🚀

Присоединяйся — https://news.1rj.ru/str/ds_notes
​​Подкаст "Злая Книга", в котором Руслан Назаров еженедельно рассказывает о том, как он учится на специалиста по Data Science.

Этот выпуск называется "Учу матанализ и язык R, рассуждаю о выгорании".

Содержание:
- зачем нужен язык R для Data Science;
- как устроено обучение языку R на DataCamp;
- зачем нужен матанализ специалисту Data Science;
- лучший курс по матанализу - учебник Фихтенгольца;
- сколько нужно учиться в день;
- выгорание и что с этим делать.

Никогда ранее мне русскоязычные подкасты по R не попадались, напишите своё мнение в комментариях, нравится ли вам такой материал?

Ссылки:
- YouTube

#подкасты_по_R
Ранее, в одной из своих публикаций на Хабре, я уже рассказывал про пакет lgr, который по моему мнению является наиболее удобным для реализации логирования процесса выполнения R скриптов.

Для тех, кто предпочитает разбираться в теме не по статьям, а по видео урокам я записал видео "Логирование процесса выполнения скриптов на языке R (пакеты lgr / lgrExtra)".

Тайм коды:
1. Корневой логгер в lgr (0:47)
2. Структура объектов пакета lgr (1:52)
3. Инициализация записей в журналы (3:45)
4. Создание своих логгеров (5:03)
5. Уровни критичности событий и детализация логгеров (7:35)
6. Как событие попадает в журнал (15:24)
7. JSON обработчик (17:19)
8. Запись логов в базы данных (21:19)
9. Как добавить фильтр в логгер или обработчик (27:49)
10. Совместное использование пакета lgr с конструкцией tryCatch (31:03)
11. Обработка ошибок случившихся при инициализации записи события в журналы функция defaultexceptionhandler() (37:54)

Общая продолжительность: 40:46

Ссылки:
- Видео на YouTube
- Подписаться на YouTube
- Статья на Хабре

#видео_уроки_по_R
Какие из перечисленных ниже инструментов или технологий вы регулярно используете в работе? Вы можете выбрать несколько вариантов.
Anonymous Poll
55%
R
36%
Python
25%
Power BI
12%
Tableau
5%
Qlik View / Qlik Sense
17%
Google Data Studio
46%
SQL
65%
Excel / Google Spreadsheets
8%
Другие
​​Сегодня в 19:15 пройдёт очередной (#13) воскресный скRинкаст.

Сегодня у нас датасет Plastic Pollution. Мы будем пробовать делать sankey diagram/alluvial diagram

https://www.data-to-viz.com/graph/sankey.html

Ссылка на зум: https://zoom.us/j/94776313787
​​Об IT-бизнесе от профи IT-бизнеса читайте на канале @growthfactory.

Никаких рассказов о том, как сетапить CRM или делать лендинг в тильде.

Авторы канала собрали нишевых экспертов и публикуют их советы и материалы по настройке потока заказов в IT-компании, о работе с финансами и стратегией, о создании команды.

Подписывайтесь на канал @growthfactory и растите свою IT-компанию.
​​Друзья, ближайшие две недели я буду в отпуске, поэтому в канале будет не особо много новых материалов. Но на период отпуска я подготовил посты в которых отобрал наиболее полезный на свой взгляд материалы, из ранее опубликованных.

По возможности, конечно, буду постить и свежие материалы.

—————————————
И так марафон наиболее полезных материалов я решил открыть своим курсом "Язык R для пользователей Excel".

О курсе:
Курс посвящён введению в манипуляцию данных на языке R средствами библиотеки tidyverse, и входящих в неё пакетов: dplyr, tidyr, ggplot2, forcats и так далее.

К каждому уроку есть тест, предназначенный для проверки полученных в ходе урока знаний. Найти ссылку на тест можно в описании видео на YouTube, или в статье на Хабре.

Требований к уровню подготовки нет, я думаю что в курсе для себя найдут что то полезное как совсем новички, так и те, кто уже имеет опыт работы с R.

Видео уроки:
1. Установка языка R и среды разработки RStudio
2. Структуры данных в R
3. Загрузка данных из csv, tsv, excel файлов и Google таблиц в R
4. Фильтрация строк, выбор и переименование столбцов, пайпланы в R
5. Добавление вычисляемых столбцов в таблицу на языке R
6. Группировка и агрегация данных на языке R
7. Вертикальное и горизонтальное объединение таблиц на языке R
8. Оконные функции в R
9. Вращение таблиц или аналог сводных таблиц в R
10. Загрузка JSON файлов в R и преобразование списков в таблицы
11. Простейшая визуализация данных, пакет ggplot2 и функции qplot
12. Построение графиков слой за слоем на языке R с помощью ggplot2
13. Изменение элементов графика и темы в ggplot2

Ссылки:
- плейлист на YouTube
- подписаться на YouTube канал
- статья о курсе на Хабре

#курс_R
​​Лемматиза́ция — процесс приведения словоформы к лемме — её нормальной (словарной) форме.

Зачастую лематизацию использую в анализе текстов, например при построении облака слов.

Как в R провести лемматизацию русского текста?

Для этого вы можете использовать пакет SnowballC. Пакет поддерживает слудующие языки: датский, голландский, английский, финский, французский, немецкий, венгерский, итальянский, норвежский, португальский, румынский, русский, испанский, шведский и турецкий.

Пример приведения русских слов к нормальной форме с помощью SnowballC.

wordStem(c('молодёжный', "молодёжного", "молодёжном",
"года", "году", "участники", "участников"), language='ru')


Результат:
[1] "молодёжн" "молодёжн" "молодёжн" "год" "год" "участник" "участник"


В статье "Обработка естественно-языковых текстов в R: облако слов" Александр Мартунич более подробно описал работу с SnowballC.

От автора:
В этой публикации вы познакомитесь с базовыми инструментами анализа, основанного на данных о частоте встречаемости слов. В частности, мы рассмотрим функции из расширений tm и wordcloud: подготовим текстовые документы для частотного анализа и сделаем на их основе облако слов.

Ссылки:
- статья

#статьи
👍1
​​Знаешь об IT всё?

А что насчет управленческой стороны? Каково это руководить IT-бизнесом?

Об этом честно и без "успешного успеха" пишет Павел Обод, основатель Growth Factory и Sloboda Studio.

Он начинал как обычный айтишник, а сейчас уже IT-предприниматель, который последние 10 лет создает различные компании, развивает их и активно инвестирует.

Про свой путь, фейлы в $50 000, критерии, по которым отбирает сотрудников, выстрелившие идеи и просто о буднях предпринимателей пишет на своем канале.

Подписывайтесь, читайте и перенимайте опыт.
​​Сегодня в 14:00 по Московскому времени пройдёт очередной воскресный скRинкаст.

Ссылка для подключения к конференции: https://zoom.us/j/98484167680?pwd=NDM5UEdGSUdMbDllalFRSjNObzk2dz09

#вебинары_по_R
​​Как узнать количество пакетов, опубликованных на CRAN?

Функция available.packages() возвращает матрицу, с информацией об опубликованных на CRAN пакетах.

Матрица содержит следующие столбцы:

- Package
- Version
- Priority
- Depends
- Imports
- LinkingTo
- Suggests
- Enhances
- License
- License_is_FOSS
- License_restricts_use
- OS_type
- Archs
- MD5sum
- NeedsCompilation
- File
- Repository

Соответственно, посчитав количество строк этой матрицы вы узнаете количество опубликованных в CRAN пакетов.

nrow(available.packages())
[1] 16987

#заметки_по_R
👍1
В январе я зарелизил актуализированный rvkstat, пакет для работы с API Вконтакте. И обещал записать серию видео уроков по работе с ним.

Сегодня опубликовал первый урок, который посвящён авторизации в API Вконтакте.

Тайм коды:
1. Введение (00:06)
2. Простая авторизация через вшитое в пакет приложение (00:40)
3. Установка и использование опций пакета rvkstat (03:34)
4. Авторизация через собственное приложение (05:22)
5. Используем переменные среды для хранения опций пакета, Sys.setenv() и файл .Renviron (09:02)
6. Создаём переменные среды в Windows (11:55)
7. Заключение (13:34)

Не забываете подписываться на YouTube канал.

Ссылки:
- видео
- подписаться на YouTube
- код рассмотренный в видео

#видео_уроки_по_R
​​Продолжаем марафон наиболее полезных русскоязычных материалов по языку R.

Бесплатная онлайн книга Сергея Мастицкого (@syarzhuk) "Анализ временных рядов с помощью R".

От автора:
Эта свободно распространяемая книга представляет собой небольшое пособие по использованию языка программирования и системы статистических вычислений R для анализа временных рядов. Упор сделан на решение нескольких стандартных задач, включая прогнозирование, выявление структурных изменений и аномалий в данных, а также кластеризацию временных рядов. Описание соответствующих подходов и программного обеспечения сопровождается многочисленными примерами кода в применении к данным из реального мира. Книга рассчитана на опытных пользователей R, которым знакомы принципы построения предсказательных моделей, ряд стандартных методов статистики (регрессия, метод главных компонент, кластерный анализ), а также основы байесовской статистики.

Так же вы можете приобрести PDF версию этой книги по ссылке.
​​Как в R быстро узнать индекс нужного элемента вектора по заданному логическому выражению, индекс наибольшего или наименьшего элемента вектора?

Для этих целей в базовом R есть ряд функций:

- which() - получить индекс элемента по логическому выражению
- which.min() - получить индекс минимального элемента
- which.max() - получить индекс максимального элемента

Пример использования:
 
# создаём тестовый вектор
x <- c(4, 6, 1, 12, 15, 9, 2)

# получить индексы нужных элементов по
# заданному логическому выражению
which(x < 7)

# получить индекс максимального значения
which.max(x)

# получить индекс минимального значения
which.min(x)


#заметки_по_R
Сегодня в 18:00 по Московскому времени пройдёт очередной митап по R от Европейского Университета в СПб.

Митап начнем с решения "домашнего задания":
1) Попробовать создать свой собственный репозиторий
2) Создать файл со скриптом там
3) Сделать в нем изменения
4) Закоммитить их
5) Запушить
6) Откатиться назад на любой комит

Если вы не принимали участие, то вы можете посмотреть презентацию и попробовать самостоятельно проделать все шаги. Не переживайте! В любом случае, мы начнем с разбора проблем и ошибок.

Если не получилось создать собственный проект, то можно коммитить сюда.

Для участия заполните форму (она закроется в 17:00 13.02).

#вебинары_по_R
​​Как добавить видео из TikTok в свой Rmd файл?

Не так давно Гаррик Аден-Буйе написал пакет tiktokrmd, который и позволяет вам добавить видео из TikTok в ваш Rmd файл.

Для добавления видео следуйте инструкции:

1. Установите пакет: remotes::install_github("gadenbuie/tiktokrmd")

2. Подключите пакет: library(tiktokrmd)

3. Создаёте объект tiktok_embed, передав ссылку на нужное видео функции tiktok_embed().

4. С помощью функций tiktok_md() или tiktok_html() сгенерируйте Markdown или HTML код.

5. Вставьте сгенерированный на прошлом шаге код в ваш Rmd файл.


Пример кода для генерации Markdown и HTML кода:

library(tiktokrmd)

tt_url <- "https://www.tiktok.com/@aquickspoonful/video/6890681375431691526"
tt <- tiktok_embed(tt_url)

# Markdown
tiktok_md(tt)

# HTML
tiktok_html(tt, include_player = FALSE)


#заметки_по_R