NEW BOT Телеграм, страница

Data, Stories and Languages

Speak plugin in ChatGPT for practicing languages

Я сегодня открыл для себя plugin Speak в ChatGPT - он предназначен для практики любых языков. Я попробовал - в целом выглядит любопытно, можно использовать, когда хочешь попрактиковать какую-то конкретную тему.

#languages

🔥7

281 views14:40

Data, Stories and Languages

Необычные идеи пет-проектов

Иногда я вижу вопросы о том, как придумать оригинальную идею пет-проекта или просто анализа данных и сетования на то, что простые идеи все разобрали, а для сложных надо много данных и железа.

Вот сегодня я увидел прекрасное исследование данных - маленький датасет, простой анализ, но оригинальность зашкаливает 😁

https://juliasilge.com/blog/roy-kent/

#datascience

😁5👍2

360 views08:10

Data, Stories and Languages

Занимательная сатирическая статья со "сравнением" бойфренда и прекрасного GhadGPT.

https://jabde.com/2023/09/25/replacing-boyfriend-with-generative-ai/

#datascience

🔥3

356 views04:52

Data, Stories and Languages

Duolingo leagues

Duolingo - одно из самых популярных приложений для изучения иностранных языков. О плюсах и минусах Duolingo можно говорить много, но сейчас я хотел бы поговорить о геймификации.

Когда мы выполняем действия на Duolingo, например, проходим уроки, мы получаем опыт. Раньше каждый язык имел уровни, и максимальный уровень был 25. Сейчас основная роль у опыта - мотивировать людей участвовать в лигах.

Если у вас есть публичный профиль, вы автоматически участвуете в лигах. Каждую неделю вы попадаете в группу с людьми, которые имеют схожий темп обучения, и соревнуетесь по количеству заработанного опыта. Если вы оказываетесь в топе, вы попадаете в следующую лигу и получаете немного gems/lingots. Если нет, то остаётесь в текущей лиге или откатываетесь в предыдущую. На данный момент существует 10 лиг: Bronze, Silver, Gold, Sapphire, Ruby, Emerald, Amethyst, Pearl, Obsidian и Diamond.

Кроме того, если вы попадаете в Алмазную лигу, у вас будет возможность участвовать в турнире. Если в течение трёх недель вы удерживаетесь в топ-10, вы получаете красивую достижение (и отдельное достижение, если заняли первое место).

Я однажды смог достичь первого места в турнире (во многом благодаря удаче)... и не рекомендую так делать. Как обычно, в системе с геймификацией найдутся люди, которые будут стремиться победить любой ценой. Есть люди, которые используют ботов - эти боты выполняют простейшие задания множество раз и накапливают опыт. Есть люди, которые делят один аккаунт с несколькими людьми. И, конечно, есть люди, которые просто тратят много времени на Duolingo.

Для наглядности вот скриншот с моим участием в турнире на этой неделе. Как видно, у первых двух участников за неделю набрано в 6+ раз больше опыта, чем у остальных. Не могу сказать за других, но я обычно уделяю Duolingo 1-1.5 часа в день (правда теперь планирую заниматься на Duolingo значительно меньше, ибо получаю все меньше пользы), так что для набора 70к опыта мне пришлось бы сидеть на Duolingo по полдня.

#languages

👏2😱2🔥1

285 views11:23

Data, Stories and Languages

DALL-E 3 в Bing

Неожиданно, но похоже, что моделька DALL-E 3 сейчас стала доступна в Bing

Ссылка: https://www.bing.com/images/create/
Обсуждение: https://news.ycombinator.com/item?id=37725498

#datascience

🔥6

324 views14:14

Data, Stories and Languages

DALL-E 3 - hands are still too complex

Link

#datascience

😁9

382 views04:48

Data, Stories and Languages

LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion Models

This work introduces LaVie, a novel text-to-video generative model designed to synthesize visually realistic and temporally coherent videos, building on the foundation of a pre-trained text-to-image model. The endeavor aims to not only achieve high-quality video synthesis but also to preserve the robust creative generation capabilities inherent in the pre-trained T2I model. LaVie operates on cascaded video latent diffusion models, including a base T2V model, a temporal interpolation model, and a video super-resolution model. The incorporation of simple temporal self-attentions and rotary positional encoding are key innovations, enabling the model to adequately capture the temporal correlations inherent in video data.

To bolster LaVie's performance, a comprehensive and diverse video dataset named Vimeo25M has been contributed, consisting of 25 million text-video pairs that emphasize quality, diversity, and aesthetic appeal. The model has undergone extensive experiments, demonstrating state-of-the-art performance both quantitatively and qualitatively. The process of joint image-video fine-tuning has been validated as pivotal in producing high-quality and creative outcomes. Additionally, the versatility of pre-trained LaVie models is showcased in various applications, including long video generation and personalized video synthesis, highlighting the model's broad applicability and advanced capabilities in the field of video generation technology.

Paper link
Project link
Code link

My overview of the paper:
Personal blog
Medium
Linkedin Pulse

#paperreview

GitHub

GitHub - Vchitect/LaVie: [IJCV 2024] LaVie: High-Quality Video Generation with Cascaded Latent Diffusion Models

[IJCV 2024] LaVie: High-Quality Video Generation with Cascaded Latent Diffusion Models - Vchitect/LaVie

👍3🔥1

311 viewsedited 05:27

Data, Stories and Languages

Inside the Matrix: Visualizing Matrix Multiplication, Attention and Beyond

Красивые визуализации матричных операций от команды PyTorch. Они сделаны с помощью инструмента для визуализаций https://bhosmer.github.io/mm/ref.html
Начинают с визуализации простых операций, заканчивают визуализацией attention и даже LoRA.

https://pytorch.org/blog/inside-the-matrix/

0:09

🔥3

457 views12:49

Data, Stories and Languages

XGBoost 2

Удивительно, но нигде не увидел новости о том, что вышла версия XGBoost 2.0.0 - а это ведь одна из самых популярных библиотек для ML.

Самые интересные штуки:
• multi-target regression, multi-label classification и multi-class - до этого подобное я видел только в pyboost
• тренировка на батчах с помощью external memory
• добавили Learning to rank
• улучшенная работа с Pyspark
И много всякого другого.

https://github.com/dmlc/xgboost/releases

#datascience

GitHub

Releases · dmlc/xgboost

Scalable, Portable and Distributed Gradient Boosting (GBDT, GBRT or GBM) Library, for Python, R, Java, Scala, C++ and more. Runs on single machine, Hadoop, Spark, Dask, Flink and DataFlow - dmlc/x...

🔥11

1.07K views05:01

Data, Stories and Languages

Instruction Tuning Vol. 1

Известный Sebastian Ruder начал выкладывать серию постов про Instruction Tuning. В этот раз выложил ссылки на популярные/важные датасеты. Рекомендую почитать.

https://nlpnewsletter.substack.com/p/instruction-tuning-vol-1

#datascience

👍5🔥2

488 views15:36

Data, Stories and Languages

QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models

Recent years have seen significant advancements in LLMs. These models excel in numerous language-understanding tasks. However, their extensive computational requirements pose challenges, particularly when deploying on edge devices.

To address this, the paper introduces the Quantization-Aware Low-Rank Adaptation algorithm. This method is rooted in balancing the degrees of freedom between quantization and adaptation using group-wise operators. With QA-LoRA, during the fine-tuning phase, LLM weights are efficiently quantized, reducing both time and memory consumption. Post fine-tuning, these weights seamlessly integrate into a quantized model without compromising accuracy. The effectiveness of QA-LoRA has been demonstrated on the LLaMA and LLaMA2 model families across various datasets and applications.

Paper link
Code link

My overview of the paper:
Personal blog
Medium
Linkedin Pulse

#paperreview

🔥4

536 views05:08

Data, Stories and Languages

Картинки в ChatGPT

Сегодня у меня появилась возможность загружать картинки в ChatGPT. По совету знакомых попробовал таким образом решить задачку с литкода https://leetcode.com/problems/3sum-closest/
ChatGPT решил её с первой попытки. Я сделал submit - сработало. 🤯

#datascience

🔥6😱4

442 views10:51

Data, Stories and Languages

Я прошёл курс немецкого языка на Duolingo

Я изучал немецкий язык в 2006-2008 годах в университете. Затем, в 2013-2015 годах, я изучал его самостоятельно. Как раз тогда я присоединился к Duolingo и прошёл курс немецкого. Мне особенно нравился раздел с переводами, жаль, что его убрали.

Грамматику я изучал по книге “German: An Essential Grammar” by Bruce Donaldson. Помимо этого я читал новости на Deutsche Welle и делал много других вещей. Мой любимый метод - это читать книги на английском и слушать их на немецком одновременно. Таким образом, я достиг уровня B2 (я проверил это на онлайн-тесте на DW). После этого сделал долгий перерыв в 2016-2023 годах и совсем не использовал немецкий.

В апреле 2023 я снова начал изучать немецкий и среди прочего использовал Duolingo. Вскоре после этого был большой редизайн курса, впечатления от него были смешанные, но я продолжил использовать приложение.

Недавно был еще один редизайн курса Duolingo, и мне всё это надоело. Главная проблема для меня - я слишком часто встречаю простые предложения (клавиатура на телефоне часто подсказывает все предложение после всего двух слов), но сложные были редки. На Duolingo можно пройти тест и пропустить несколько units, и успешно проскочил... ~20-30 уроков до последнего. Недавно я завершил курс полностью и разблокировал последний раздел - в нем шесть случайных ежедневных легендарных заданий.

Думаю, я потихоньку пройду все легендарные задания, а затем остановлюсь (или переключусь на испанский).

В итоге хочу сказать, что Duolingo определенно полезен до уровня ~A2 или раннего B1, но затем его полезность резко снижается.

Подробнее о том, как я изучал языки, я писал в своём блогпосте.

#languages

👍9❤1

608 views13:26

Data, Stories and Languages

Think before you speak: Training Language Models With Pause Tokens

Language models traditionally generate responses by producing tokens sequentially, with each token being a result of manipulating a set of hidden vectors from preceding tokens. This study introduces a novel approach by allowing the model to process additional hidden vectors before producing the next token. This is achieved by adding a "pause token" to the input, and the model's outputs are extracted only after the last pause token is processed, giving the model extra computational time before finalizing an answer.

Empirical evaluations were conducted on decoder-only models with sizes of 1B and 130M parameters, using causal pretraining on C4. The results on various tasks, including reasoning, question-answering, and fact recall, showed promising improvements. Specifically, the 1B model displayed gains on 8 out of 9 tasks, with a notable 18% EM score increase on the SQuAD QA task.

Paper link

My overview of the paper:
Personal blog
Medium
Linkedin Pulse

#paperreview

🔥5

414 views04:56

Data, Stories and Languages

A Survey of Large Language Models for Healthcare: from Data, Technology, and Applications to Accountability and Ethics

Огромная статья с обзором LLM в здравоохранении. Анализируют подходы, данные, использование. Рассматривают особенности использования моделей в медицине с учётом прозрачности, этики и прочего.

Выложили много материалов и ссылок на Github.

#datascience

🔥5

762 views15:59

Data, Stories and Languages

Кейс из ERP: как появляются пропущенные данные

Когда мы работаем с данными для их последующего анализа или тренировки моделей, мы часто сталкиваемся с ошибками, пропущенными значениями, расхождениями и другими проблемами. Я хочу поделиться старой историей, которая произошла где-то в 2012 году.

Я тогда работал на своей первой работе в ERP-консалтинге. Мы внедряли и поддерживали российскую систему Галактика - вполне милая и симпатичная система, но, как и любая другая, с некоторыми недостатками.

Через пару месяцев работы меня стали отправлять к клиентам, чтобы помогать им. И к этому всегда нужно было серьезно относиться: одеваться в полный костюм с галстуком, всегда общаться вежливо и никогда не спорить.

В какой-то момент меня отправили в отдел бухгалтерии предприятия ВПК и дали наставления: это очень важный клиент и очень важный человек, обязательно помоги ей и ни о чём не спорь.

Прихожу, аккуратно расспрашиваю, что за ситуация и как я могу помочь. Она показывает - мол, создает она документ в системе, но "данные не вводятся". Точные детали проблемы не помню, но суть заключалась в том, что у них было две системы на предприятии - наша и старая. В одной системе разделитель между целой и дробной частью числа был запятой, в другой - точкой. Она в нашей системе пыталась вводить данные так, как ей это привычно, но у нее это не получалось… и она просто не создавала документ в системе и переходила к следующему.

Вот такой жизненный пример того, почему в системе могут отсутствовать данные.

#data #story

🔥5😁2

559 views06:48

Data, Stories and Languages

Mistral 7B

Mistral 7B is a new language model designed for exceptional performance and efficiency. It notably outshines the Llama 2 13B in all tested benchmarks and surpasses the Llama 1 34B in reasoning, mathematics, and code generation.

The model employs advanced techniques such as grouped-query attention to speed up inference and sliding window attention to manage sequences of varying length while minimizing inference costs. Additionall Mistral 7B – Instruct has been fine-tuned for instruction-following tasks demonstrating superior performance over the Llama 2 13B – Chat model.

Paper link
Code link
Project link

My overview of the paper:
Personal blog
Medium
Linkedin Pulse

#paperreview

🔥4👍1

316 views04:39

Data, Stories and Languages

Startup team demonstrates differentiable Swift compiler outrunning TensorFlow by 322X

Увидел тут пост, который кажется слишком хорошим, чтобы быть реальностью.

Linkedin

Reddit

В треде они дают такое пояснение:

 current frameworks typically use runtime interpretation of python graphs and dispatch, such that much of the compute time is wasted on dispatch. That is the big limitation of existing frameworks. In fact, dispatch is so heavy, that 95% of Tensorflows code base is dedicated to "op coalescing" to reduce dispatch time, but that is an infinite pursuit of combinatorics.

However if you use a compiler ahead of time (compilers are designed to optimize code), and run code native, no heavy dispatch, cache optimization, code dwell... all the things you'd expect out of a systems language.

Что думаете?

#datascience

🔥🏁🔥 PassiveLogic’s latest AI speed training results are in: PassiveLogic’s compiler efforts set a new bar for world’s fastest AI…

🔥🏁🔥 PassiveLogic’s latest AI speed training results are in: PassiveLogic’s compiler efforts set a new bar for world’s fastest AI training🔥🏁🔥

In benchmark comparisons training a heterogeneous neural net, PassiveLogic’s differentiable #Swift compiler outperformed…

🤔5🔥2

369 views06:20

Data, Stories and Languages

All of ChatGPT's System Prompts

Добрые люди вытащили из ChatGPT список промптов и опубликовали их, можно посмотреть и потом, при желании, модифицировать.

Что забавно, некоторые промпты прям вежливые:

 Instruction
Please evaluate the following rubrics internally and then perform one of the actions below:

Так что, товарищи, помните, что вежливыми полезно быть даже с роботами.

Direct link
Ycombinator discussion

#datascience

🔥6😁2

425 views12:17

Data, Stories and Languages

InstructRetro: Instruction Tuning post Retrieval-Augmented Pretraining

Pretraining LLMs with retrieval has been shown to enhance their perplexity and factual accuracy by tapping into external databases. However, the size constraints of current pretrained retrieval-augmented LLMs, like Retro with its 7.5B parameters, curtail the potential of instruction tuning and zero-shot generalization. Addressing this, the study introduces Retro 48B, a groundbreaking LLM that's pretrained with retrieval before instruction tuning. By continuing the pretraining of the 43B GPT model on an extra 100 billion tokens and retrieving from a massive 1.2 trillion tokens, Retro 48B significantly surpasses the original 43B GPT in terms of perplexity.

Post instruction tuning, the InstructRetro model exhibits marked improvement in zero-shot question answering (QA) tasks compared to a tuned GPT. On average, InstructRetro betters its GPT counterpart by 7% across short-form QA tasks and by 10% in more complex long-form tasks. Interestingly, the research also reveals that the encoder in the InstructRetro framework can be removed, letting the decoder backbone take the lead, without sacrificing performance. This suggests that retrieval-driven pretraining equips the decoder to adeptly integrate context for QA, pointing towards a promising approach to enhance GPT decoders for QA via prolonged pretraining with retrieval prior to instruction tuning.

Paper link

My overview of the paper:
Personal blog
Medium
Linkedin Pulse

#paperreview

👍4❤2

421 views04:58

Data, Stories and Languages

KindleVocabToAnki app — importing words from your Kindle to Anki for language learning

Сегодня я хочу поделиться своим пет-проектом для помощи в изучении иностранных языков.

Один из лучших способов прокачивать уровень языка - чтение книг. В последний год я большую часть книг читаю на девайсе Kindle Oasis. Одной из его фичей является возможность нажать на слово и увидеть всплывающее окно с переводом. Все просмотренные слова добавляются в словарь, который затем можно экспортировать.

Теперь нужно как-то запомнить эти слова. Обычно для запоминания слов я использую Anki - программу для интервальных повторений. Вопрос только в том, как перенести слова из словаря в Anki.

Естественно, уже существует ряд приложений для этого, но какие-то не работают на Mac, какие-то требуют кучу шагов, в каких-то не хватает кастомизации. В итоге я сделал своё приложение, которое сегодня и публикую.

App link
Blogpost link
Blogpost link 2

#languages

Streamlit

Kindle Vocabulary to Anki converter

This is an app to process Kindle vocabulary files and convert them to Anki decks. You can find mo...

🔥7

559 views04:44

About

Blog

Apps

Platform