Data, Stories and Languages – Telegram
Data, Stories and Languages
2.98K subscribers
64 photos
7 videos
478 links
Канал о Data Science, изучении иностранных языков, книгах и жизни.
Контакт с автором https://news.1rj.ru/str/Erlemar
Download Telegram
Channel name was changed to «Data, Stories and Languages»
Всем привет!
Меня зовут Андрей Лукьяненко, и я решил завести свой канал. Я работаю в сфере DS уже больше 6 лет (до этого 4 года в сфере ERP-консалтинга) - телеком, банки, super app, startups. В настоящее время работаю в Careem в Дубае (направление anti-fraud), до этого работал в MTS AI в Москве (lead nlp, cv), ещё раньше был в Теле2. Kaggle Competition Master, Notebook top-1. У меня есть персональный сайт, где веду блог: https://andlukyane.com/blog/
Из актуальных хобби - изучение иностранных языков, чтение, компьютерные игры, спорт (в настоящий момент плавание).

Основные темы, которые я буду затрагивать:

• Data Science: читаю статьи и пишу обзоры на них. Также буду делиться своими мыслями, новостями (без особого плагиата), кейсами с работы (включая ERP). #datascience #paperreview
• Иностранные языки: помимо английского языка я также знаю испанский (~B1-B2) и изучаю немецкий. #languages
• Книги: я прочитал много классических произведений, сколько-то книг по саморазвитию и по DS, в последние годы читаю больше фэнтези.
• Про жизнь. #life
👍171
Data, Stories and Languages pinned «Всем привет! Меня зовут Андрей Лукьяненко, и я решил завести свой канал. Я работаю в сфере DS уже больше 6 лет (до этого 4 года в сфере ERP-консалтинга) - телеком, банки, super app, startups. В настоящее время работаю в Careem в Дубае (направление anti-fraud)…»
​​Первый ресурс, который я хотел бы поделиться в контексте изучения иностранных языков, это https://www.languagetransfer.org/

Этот бесплатный сайт (с возможностью пожертвований через Patreon) предлагает курсы нескольких языков (в настоящее время 8). Курсы состоят из диалогов между учителем и учеником. Обучение начинается с нуля с акцентом на понимании материала, а не на запоминании. Учитель объясняет концепции, проводит параллели между различными языками, приводит понятные примеры и помогает научиться говорить и формулировать мысли на изучаемом языке с самого начала.

Я прошел два курса. Курс испанского языка очень большой (90 уроков) и покрывает практически всю грамматику. Он мне очень сильно помог и дал ощутимый прогресс. После его прохождения я смог без особых проблем формулировать мысли на испанском. Я бы сказал, что это один из самых лучших способов изучения испанского (если не считать работы с репетитором).

Курс немецкого языка короче (50 уроков) и не охватывает все темы, но тем не менее, он тоже был мне очень полезен.

#languages
👍31
​​Contrastive Feature Masking Open-Vocabulary Vision Transformer

Contrastive Feature Masking Vision Transformer (CFM-ViT): a new approach for image-text pretraining that is optimized for open-vocabulary object detection. Unlike traditional masked autoencoders, which typically operate in the pixel space, CFM-ViT uses a joint image-text embedding space for reconstruction. This approach enhances the model's ability to learn region-level semantics. Additionally, the model features a Positional Embedding Dropout to better handle scale variations that occur when transitioning from image-text pretraining to detection finetuning. PED also enables the model to use a "frozen" ViT backbone as a region classifier without loss of performance.

In terms of results, CFM-ViT sets a new benchmark in open-vocabulary object detection with a 33.9 APr score on the LVIS dataset, outperforming the closest competitor by 7.6 points. The model also demonstrates strong capabilities in zero-shot detection transfer. Beyond object detection, it excels in image-text retrieval, outperforming the state of the art on 8 out of 12 key metrics. These features and results position CFM-ViT as a significant advancement in the field of computer vision and machine learning.

Paper link: https://arxiv.org/abs/2309.00775

My overview of the paper:
https://andlukyane.com/blog/paper-review-cfmvit
https://artgor.medium.com/paper-review-contrastive-feature-masking-open-vocabulary-vision-transformer-4639d1bf7043

#paperreview
🔥1
​​https://ai.meta.com/blog/dinov2-facet-computer-vision-fairness-evaluation/

Как-то незаметно появилась новость о том, что у DINOv2 теперь лицензия Apache 2.0 (можно использовать в коммерческих целях). Плюс доступно больше моделей на основе DINOv2, демо можно пощупать тут: https://dinov2.metademolab.com/.

Помимо этого Meta опубликовала новый бенчмарк FACET для оценки fairness: https://ai.meta.com/datasets/facet/
👍2🔥1
​​McKinsey опубликовала отчет об использовании Generative AI компаниями. В опросе участвовали 1694 человека (менеджеры разных уровней), из которых 913 заявили, что хотя бы в одном из направлений компании используется AI. Понятно, что под AI можно записать почти все, что угодно, но под этим имеется ввиду именно Generative AI - то есть ChatGPT и прочее.

Из интересного:

• 22% говорят, что регулярно используют Gen AI для работы. Доля использующих больше всего в IT секторе (ну кто бы сомневался);
• пока не так много компаний борется с возможными рисками от использования Gen AI;
• успешные компании активнее используют Gen AI по сравнению с остальными. Что интересно, в менее успешных компаниях предпочитают использовать AI для уменьшения затрат, а в более успешных - для создания новых направлений бизнеса и источников дохода. Что еще интереснее, в менее успешных компаниях основные сложности с поиском ресурсов для внедрения AI и определения стратегии использования AI (видимо топ-менеджеры не понимают пользы), а в более успешных - основные сложности с использованием, развертыванием и мониторингом моделей;
• нанимать нужных специалистов стало проще - больше новых людей выходит на рынок, и массовые увольнения в крупных компаниях помогли;
• пока нет ожиданий того, что автоматизация с помощью AI сильно сократит количество сотрудников, но некоторое уменьшение, особенно в обслуживании, все же ожидается.

Сам отчёт: https://www.mckinsey.com/capabilities/quantumblack/our-insights/the-state-of-ai-in-2023-generative-ais-breakout-year
🔥6👍3
​​Один из отличных способов изучения языков - языковой обмен. Существует множество приложений, где можно найти партнера для изучения иностранного языка. Обычно подобные встречи организованы таким образом, что вы сначала говорите на одном языке, затем на другом, помогая друг другу исправлять ошибки. Другой вариант - сообщества, которые проводят регулярные встречи для этого. В первом полугодии этого года я стал ходить на подобные встречи, и это было весьма интересно и полезно - мне удалось практиковать испанский язык с людьми из Венесуэлы, Испании и других стран. К сожалению, на время Рамадана встречи приостановились... и не возобновились.

Но на этой неделе я нашел новую группу для языкового обмена и сходил вчера на встречу. Было примерно 15 человек из самых разных стран - Гватемала, Мексика, Китай, Иран и многих других. Я смог попрактиковать испанский язык с людьми из трех разных стран. Проблем с пониманием не было, формулировать мысли тоже получалось, но время от времени делал грамматические ошибки. Потом наступила моя очередь помочь - было трое, изучающих русский язык. Когда говоришь на русском языке, то особо и не думаешь, сложный он или нет, а когда общаешься с теми, кто его изучает, понимаешь, сколько в нём нюансов. Из общения с этими людьми я увидел, что для них основная сложность заключается в правильном использовании окончаний слов - в русском языке существительные, прилагательные и другие части речи имеют много вариантов окончаний, и их все сложно запомнить и применять правильно. У меня самого сейчас подобные же сложности с окончаниями слов в немецком языке.

#languages
👍5🔥21
​​Я увидел интересное исследование с красивыми интерактивными визуализациями (от независимой организации ODI при участии IKEA foundation), которое рассказывает о том, как европейцы в разных странах воспринимают иммигрантов. К сожалению, нет разбивки по странам, из которых приезжают люди, а это было бы важно.

Интересные факты:
• в 2015 году произошел большой приток беженцев из Сирии в Германию. Вначале немцы считали это проблемой (топ-2 по стране), но довольно быстро отношение к иммигрантам стало лучше;
• с 2002 года в Германии люди всё позитивнее воспринимают иммигрантов, но в 2022 году ситуация резко изменилась в противоположную сторону;
• в 2000-2009 годах в Испанию приезжало много иммигрантов благодаря экономическому росту, в следующей декаде приезжающих было мало, но в последние лет 5 интерес к переезду туда снова возрос;
• испанцы в большинстве относятся к миграции позитивно, но некоторое время назад третьей по размерам партией в парламенте стала Vox, которая продвигает анти-иммигрантскую повестку;
• англичане всё позитивнее относятся к иммигрантам и было довольно большое изменение в 2016 году, видимо после голосования за Brexit;
• приток мигрантов в Италию после второй мировой войны был значительным, но с годами он становится всё меньше и меньше. Итальянцы до сих пор думают, что у них очень много мигрантов - в 2017 году они считали, что в стране 24.6% мигрантов не-европейцев, хотя их было всего 7%;
• в последние годы приток иммигрантов по Францию довольно стабилен. В 2015 году очень многие боялись притока беженцев, но его не произошло;
• французы долгое время негативно относились к иммигрантам, но с 2015 года отношение стало изменяться к лучшему. Волнует, насколько иммигранты смогут интегрироваться в общество;
• в Швецию приезжает много мигрантов и отношение к ним в целом позитивное, но в последнюю декаду недовольства растут;
• в Данию приезжало много мигрантов, но в последнее время они сильно ограничивают поток приезжих и очень жестко обрабатывают беженцев;
• население Дании в целом позитивно относится к мигрантам, но многие партии высказываются негативно по поводу приезжих;
• в Ирландию приезжало и приезжает много мигрантов, хотя после финансового кризиса 2008 года люди прям бежали из страны. Отношение к мигрантам весьма позитивное, но в 2022 был резкий приток беженцев из-за войны, и это осложняет ситуацию;
• Греция является транзитной страной для большинства беженцев и мигрантов, поэтому отношение к ним довольно негативное;
• в Португалии отношение к иммигрантам в целом позитивное и прагматичное.

Ссылка на сам сайт: https://heartsandminds.odi.digital/
Если хочется почитать глубже, то вот пример подробного отчёта по Германии: https://odi.org/en/publications/public-narratives-and-attitudes-towards-refugees-and-other-migrants-germany-country-profile/

#visualization
👍6
Channel photo updated
​​Explaining grokking through circuit efficiency

The paper explores the phenomenon of "grokking" in neural networks, where a network that initially performs poorly on new data eventually excels without any change in training setup. According to the authors, grokking occurs when two conditions are present: a memorizing solution and a generalizing solution. The generalizing solution takes longer to learn but is more efficient in terms of computational resources. The authors propose a "critical dataset size" at which the efficiencies of memorizing and generalizing are equal, providing a pivot point for the network to switch from memorization to generalization.

Furthermore, the paper introduces two new behaviors: "ungrokking" and "semi-grokking." Ungrokking describes a situation where a well-performing network reverts to poor performance when trained on a smaller dataset. Semi-grokking refers to a scenario where the network, instead of achieving full generalization, reaches a state of partial but improved performance.

Paper link: https://arxiv.org/abs/2309.02390

My overview of the paper:
https://andlukyane.com/blog/paper-review-un-semi-grokking
https://artgor.medium.com/paper-review-explaining-grokking-through-circuit-efficiency-1f420d6aea5f

#paperreview
🔥6👍1
​​Навыки коммуникации - это один из тех навыков, которые крайне необходимы, но практиковать их достаточно сложно, поскольку цена ошибки может быть высокой. Если нужно обсудить нейтральную или положительную ситуацию, это скорее всего не так страшно. Однако, если необходимо обсудить конфликтную ситуацию или какую-то ошибку (подчиненный допустил грубую ошибку, начальник вел себя оскорбительно, коллега предлагает нелепые идеи), то впервые это обсуждать может быть нервно, и есть риск, что разговор станет эмоциональным и не конструктивным.

Я обнаружил интересный симулятор подобных ситуаций по ссылке https://huggingface.co/spaces/mangiucugna/difficult-conversations-bot. В нём можно выбрать свою роль и роль собеседника, описать ситуацию и характер собеседника (есть несколько готовых примеров). Фактически, это обёртка над GPT 3.5, и вы можете написать свои собственные промтп/инструкции для этого, но здесь уже есть готовый интерфейс.

Блогпост автора: https://www.stefanobaccianella.com/p/how-to-prepare-for-difficult-conversations

#softskills
🔥6👍1
​​TSMixer: An All-MLP Architecture for Time Series Forecasting

Time-series datasets in real-world scenarios are inherently multivariate and riddled with intricate dynamics. While recurrent or attention-based deep learning models have been the go-to solution to address these complexities, recent discoveries have shown that even basic univariate linear models can surpass them in performance on standard academic benchmarks. As an extension of this revelation, the paper introduces the Time-Series Mixer TSMixer. This innovative design, crafted by layering multi-layer perceptrons, hinges on mixing operations across both time and feature axes, ensuring an efficient extraction of data nuances.

Upon application, TSMixer has shown promising results. Not only does it hold its ground against specialized state-of-the-art models on well-known benchmarks, but it also trumps leading alternatives in the challenging M5 benchmark, a dataset that mirrors the intricacies of retail realities. The paper's outcomes emphasize the pivotal role of cross-variate and auxiliary data in refining time series forecasting.

Paper link: https://arxiv.org/abs/2303.06053
Code link: https://github.com/google-research/google-research/tree/master/tsmixer

A detailed unofficial overview of the paper:
https://andlukyane.com/blog/paper-review-tsmixer

#paperreview #deeplearning #timeseries #mlp
👍3🔥1
​​Я заметил, что два популярных IT-ресурса получили небольшие обновления.

Stack Overflow начал тестирование OverflowAI Search - улучшение поиска. В июле был опубликован блогпост об этом: https://stackoverflow.blog/2023/07/27/announcing-overflowai/ Говорят, что теперь будет использоваться semantic поиск вместо lexical. Ну что ж, посмотрим, насколько им это поможет - с момента публикации ChatGPT Stack Overflow стал резко терять популярность, что и неудивительно: люди годами жаловались на токсичность, закрытие топиков и прочие проблемы. А теперь

Leetcode обновил интерфейс: теперь у него Material Design и responsive layout - легче двигать окна, размер текста динамически меняется и т.д. Выглядит вполне мило.
🔥2
​​Вчера я снова посетил встречу по языковому обмену. Общение на испанском языке было довольно интересным. Например, мы обсуждали смешные или странные обычаи и суеверия в разных странах. Затем я попробовал говорить на немецком... и это оказалось полным провалом. Я едва-едва смог сформулировать пару фраз и больше не мог продолжать разговор, хотя понимал, что говорят мои собеседники. Было ощущение, что испанский путался с немецким в моей голове и не давал возможности думать на нём. Придется практиковаться в формулировании мыслей на немецком языке, прежде чем снова попытаться говорить.

После этого я снова помогал другим изучать русский язык. Был интересный случай с Родриго из Гватемалы. Он очень серьезно относится к изучению языков. У него была книжка с диалогами на русском и английском языках. Мы вместе разбирали ситуацию, когда человек приходит в банк и оформляет карточку (что довольно сложно). Он читал предложения, выделял в них грамматические конструкции и придумывал фразы с их использованием. Это медленный, но очень эффективный способ изучения языков.

#languages
👍2🔥2