Data, Stories and Languages – Telegram
Data, Stories and Languages
2.98K subscribers
65 photos
8 videos
485 links
Канал о Data Science, изучении иностранных языков, книгах и жизни.
Контакт с автором https://news.1rj.ru/str/Erlemar
Download Telegram
​​https://github.com/Xwin-LM/Xwin-LM

Говорят, что появилась модель (на основе LLAMA 2), которая лучше, чем GPT-4 на AlpacaEval: https://tatsu-lab.github.io/alpaca_eval/

#datascience
🔥2
Forwarded from Данные люди
Привет, друзья! 🐕

Мы рады сообщить вам, что открываем новый сезон!
Встретимся уже 28 сентября в 19.00 по мск.

Гость выпуска: Андрей Лукьяненко, Senior Data Scientist @ Careem.

Поговорим о пути грандмастера, отличиях между российскими и иностранными командами, а также о том, как менялась область Data Science за последние годы.

Ну и конечно, разыграем приз за лучший вопрос 😉

Подключайтесь!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥73👍2
​​Anki: интервальные повторения для изучения слов

Существует множество подходов к изучению языков, и большая часть из них связана с запоминанием слов и грамматических конструкций (за исключением полного погружения). Я знаю, что многие не любят структурированные методы и не хотят запоминать списки слов. Их идея заключается в том, что если слово важно, то оно встретится достаточное количество раз для запоминания. Однако я придерживаюсь мнения, что лучше изучать слова целенаправленно, особенно когда они релевантны, но встречаются редко.

Базовый вариант такого подхода - составление списков слов и их заучивание, а затем возврат к этим спискам через несколько дней для проверки знаний.

Следующий шаг - создание карточек. Идея довольно проста: на одной стороне карточки написано слово на изучаемом языке, а на другой стороне - на родном языке. Мы смотрим на одну сторону карточки и пытаемся вспомнить, что находится на другой стороне.

Как продолжение, ещё в прошлом веке была придумана идея интервальных повторений (система Лейтнера): карточки перемещаются между несколькими коробками в процессе обучения. Изначально все карточки находятся в первой коробке. Если мы успешно угадываем слово, то перемещаем карточку в следующую коробку, если же ошибаемся, то кладем ее в самую первую коробку. Чем дальше коробка, тем больше времени проходит до повторного использования карточки.

В наше время, конечно, существуют различные программы, которые облегчают этот процесс. Одна из самых популярных - Anki. В этой программе можно создавать карточки в любом виде и стиле (в том числе с использованием HTML в полях), настраивать частоту повторений и другие параметры. Также имеется огромное количество готовых колод с карточками для самых разных языков, но обычно рекомендуется создавать свои собственные.

Главное, как и в любом методе, - быть последовательным и не превращать его в самоцель.

#languages
👍4🔥2
​​Anki для помощи в изучении программирования

В комментариях к прошлому посту задали вопрос о том, стоит ли использовать Anki для помощи в прохождении coding interview. Я лично такой подход не пробовал, но это интересный вопрос.

Важно понимать, что карточки обычно создаются таким образом, чтобы на заданный вопрос был конкретный и желательно короткий ответ. Если ответом будет полный код и разбор задачек литкода, то формат карточек не подходит.
Однако, есть множество примеров успешного использования Anki для запоминания идей и терминов, связанных с программированием. Приведу некоторые из них:

- 1200+ карточек с вопросами типа "What is the base case of a recursion?" или "What is Thrift?"
- Algodeck - платные колоды, но, возможно, полезные.
- Колода по алгоритмам, включая асимптотику

Также есть подробные блогпосты, где люди делятся своим опытом:

- Старый пост с конкретными примерами карточек разного типа
- Статья о Janki-методе. Автор пишет о стандартных проблемах изучения нового материала - быстрое забывание, сложность изучения нового вне контекста и т. д. Он также даёт советы о том, как создавать карточки и вести свою мини-базу знаний.

#algorithms
👍5
​​Презентации с ICML

Наткнулся на ссылку со всеми презентациями конференции ICML (International Conference on Machine Learning) 2023.

https://slideslive.com/icml-2023

#datascience
🔥3
​​FreeU: Free Lunch in Diffusion U-Net

In this paper, the untapped capabilities of diffusion U-Net are explored, revealing a significant potential referred to enhance generation quality dynamically. The authors introduce "FreeU," a simplistic yet highly effective method designed to amplify generation quality without the necessity for additional training or fine-tuning.

The essence of FreeU is in its strategic re-weighting of the contributions from the U-Net's skip connections and backbone feature maps, allowing for a harmonious balance between the strengths of both components of the U-Net architecture. The method has demonstrated promising results in image and video generation tasks, proving its seamless integrative capability with existing diffusion models like Stable Diffusion, DreamBooth, ModelScope, Rerender, and ReVersion to elevate generation quality by simply adjusting two scaling factors during inference.

Paper link
Project link
Code link

My overview of the paper:
Personal blog
Medium
Linkedin Pulse

#paperreview
🔥2
​​Как рекрутёры привлекают DS

Получил тут письмо с вакансией, а в конце письма был мемасик.

#datascience
😁8🔥1
​​В каких-то странах бродячих котиков любят и уважают. А вот в Дубае кормить котиков - нарушение законов. Поэтому в некоторых местах висят такие таблички.

#dubai
😱3🤬3😢2
​​DreamLLM: Synergistic Multimodal Comprehension and Creation

DreamLLM introduces a novel learning framework designed for the robust integration of multimodal comprehension and creation in Multimodal Large Language Models. This model stands out by utilizing two primary principles. Firstly, it focuses on generative modeling for both language and image facets by directly sampling in the untapped raw multimodal domain. This method effectively sidesteps the constraints and data loss tied to traditional external feature extractors such as CLIP, leading to a deeper and more comprehensive grasp of multimodal data.

Secondly, DreamLLM emphasizes the generation of raw, interleaved documents, capturing both textual and visual elements as well as their free-form layouts. This strategy equips DreamLLM to adeptly learn all the nuances of conditional, marginal, and joint multimodal distributions. As a testament to its advanced capabilities, DreamLLM is highlighted as the pioneering MLLM to produce free-form interleaved content.

Paper link
Project link
Code link

My overview of the paper:
Personal blog
Medium
Linkedin Pulse

#paperreview
🔥4👍1
​​Speak plugin in ChatGPT for practicing languages

Я сегодня открыл для себя plugin Speak в ChatGPT - он предназначен для практики любых языков. Я попробовал - в целом выглядит любопытно, можно использовать, когда хочешь попрактиковать какую-то конкретную тему.

#languages
🔥7
​​Необычные идеи пет-проектов

Иногда я вижу вопросы о том, как придумать оригинальную идею пет-проекта или просто анализа данных и сетования на то, что простые идеи все разобрали, а для сложных надо много данных и железа.

Вот сегодня я увидел прекрасное исследование данных - маленький датасет, простой анализ, но оригинальность зашкаливает 😁

https://juliasilge.com/blog/roy-kent/

#datascience
😁5👍2
​​Занимательная сатирическая статья со "сравнением" бойфренда и прекрасного GhadGPT.

https://jabde.com/2023/09/25/replacing-boyfriend-with-generative-ai/

#datascience
🔥3
​​Duolingo leagues

Duolingo - одно из самых популярных приложений для изучения иностранных языков. О плюсах и минусах Duolingo можно говорить много, но сейчас я хотел бы поговорить о геймификации.

Когда мы выполняем действия на Duolingo, например, проходим уроки, мы получаем опыт. Раньше каждый язык имел уровни, и максимальный уровень был 25. Сейчас основная роль у опыта - мотивировать людей участвовать в лигах.

Если у вас есть публичный профиль, вы автоматически участвуете в лигах. Каждую неделю вы попадаете в группу с людьми, которые имеют схожий темп обучения, и соревнуетесь по количеству заработанного опыта. Если вы оказываетесь в топе, вы попадаете в следующую лигу и получаете немного gems/lingots. Если нет, то остаётесь в текущей лиге или откатываетесь в предыдущую. На данный момент существует 10 лиг: Bronze, Silver, Gold, Sapphire, Ruby, Emerald, Amethyst, Pearl, Obsidian и Diamond.

Кроме того, если вы попадаете в Алмазную лигу, у вас будет возможность участвовать в турнире. Если в течение трёх недель вы удерживаетесь в топ-10, вы получаете красивую достижение (и отдельное достижение, если заняли первое место).

Я однажды смог достичь первого места в турнире (во многом благодаря удаче)... и не рекомендую так делать. Как обычно, в системе с геймификацией найдутся люди, которые будут стремиться победить любой ценой. Есть люди, которые используют ботов - эти боты выполняют простейшие задания множество раз и накапливают опыт. Есть люди, которые делят один аккаунт с несколькими людьми. И, конечно, есть люди, которые просто тратят много времени на Duolingo.

Для наглядности вот скриншот с моим участием в турнире на этой неделе. Как видно, у первых двух участников за неделю набрано в 6+ раз больше опыта, чем у остальных. Не могу сказать за других, но я обычно уделяю Duolingo 1-1.5 часа в день (правда теперь планирую заниматься на Duolingo значительно меньше, ибо получаю все меньше пользы), так что для набора 70к опыта мне пришлось бы сидеть на Duolingo по полдня.

#languages
👏2😱2🔥1
​​DALL-E 3 в Bing

Неожиданно, но похоже, что моделька DALL-E 3 сейчас стала доступна в Bing

Ссылка: https://www.bing.com/images/create/
Обсуждение: https://news.ycombinator.com/item?id=37725498

#datascience
🔥6
​​DALL-E 3 - hands are still too complex

Link

#datascience
😁9
LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion Models

This work introduces LaVie, a novel text-to-video generative model designed to synthesize visually realistic and temporally coherent videos, building on the foundation of a pre-trained text-to-image model. The endeavor aims to not only achieve high-quality video synthesis but also to preserve the robust creative generation capabilities inherent in the pre-trained T2I model. LaVie operates on cascaded video latent diffusion models, including a base T2V model, a temporal interpolation model, and a video super-resolution model. The incorporation of simple temporal self-attentions and rotary positional encoding are key innovations, enabling the model to adequately capture the temporal correlations inherent in video data.

To bolster LaVie's performance, a comprehensive and diverse video dataset named Vimeo25M has been contributed, consisting of 25 million text-video pairs that emphasize quality, diversity, and aesthetic appeal. The model has undergone extensive experiments, demonstrating state-of-the-art performance both quantitatively and qualitatively. The process of joint image-video fine-tuning has been validated as pivotal in producing high-quality and creative outcomes. Additionally, the versatility of pre-trained LaVie models is showcased in various applications, including long video generation and personalized video synthesis, highlighting the model's broad applicability and advanced capabilities in the field of video generation technology.

Paper link
Project link
Code link

My overview of the paper:
Personal blog
Medium
Linkedin Pulse

#paperreview
👍3🔥1
​​Inside the Matrix: Visualizing Matrix Multiplication, Attention and Beyond

Красивые визуализации матричных операций от команды PyTorch. Они сделаны с помощью инструмента для визуализаций https://bhosmer.github.io/mm/ref.html
Начинают с визуализации простых операций, заканчивают визуализацией attention и даже LoRA.

https://pytorch.org/blog/inside-the-matrix/
🔥3
XGBoost 2

Удивительно, но нигде не увидел новости о том, что вышла версия XGBoost 2.0.0 - а это ведь одна из самых популярных библиотек для ML.

Самые интересные штуки:
• multi-target regression, multi-label classification и multi-class - до этого подобное я видел только в pyboost
• тренировка на батчах с помощью external memory
добавили Learning to rank
• улучшенная работа с Pyspark
И много всякого другого.

https://github.com/dmlc/xgboost/releases

#datascience
🔥11
​​Instruction Tuning Vol. 1

Известный Sebastian Ruder начал выкладывать серию постов про Instruction Tuning. В этот раз выложил ссылки на популярные/важные датасеты. Рекомендую почитать.

https://nlpnewsletter.substack.com/p/instruction-tuning-vol-1

#datascience
👍5🔥2
​​QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models

Recent years have seen significant advancements in LLMs. These models excel in numerous language-understanding tasks. However, their extensive computational requirements pose challenges, particularly when deploying on edge devices.

To address this, the paper introduces the Quantization-Aware Low-Rank Adaptation algorithm. This method is rooted in balancing the degrees of freedom between quantization and adaptation using group-wise operators. With QA-LoRA, during the fine-tuning phase, LLM weights are efficiently quantized, reducing both time and memory consumption. Post fine-tuning, these weights seamlessly integrate into a quantized model without compromising accuracy. The effectiveness of QA-LoRA has been demonstrated on the LLaMA and LLaMA2 model families across various datasets and applications.

Paper link
Code link

My overview of the paper:
Personal blog
Medium
Linkedin Pulse

#paperreview
🔥4
​​Картинки в ChatGPT

Сегодня у меня появилась возможность загружать картинки в ChatGPT. По совету знакомых попробовал таким образом решить задачку с литкода https://leetcode.com/problems/3sum-closest/
ChatGPT решил её с первой попытки. Я сделал submit - сработало. 🤯

#datascience
🔥6😱4