Data, Stories and Languages – Telegram
Data, Stories and Languages
2.98K subscribers
65 photos
8 videos
485 links
Канал о Data Science, изучении иностранных языков, книгах и жизни.
Контакт с автором https://news.1rj.ru/str/Erlemar
Download Telegram
​​MADLAD-400

Google Research/Mind выложили в открытый доступ огромный (7.2T токенов) датасет на основе CommonCrawl аж на 419 языках. Есть версия с фильтрами и без. Ну точно madlads 😁.

Датасет
Статья

#datascience
😁5🔥3
И ещё раз про разработку медицинского чат-бота

https://community.analyticsvidhya.com/c/datahour/medical-chat-bot-the-history-of-our-attempt

Я уже пару раз рассказывал про то, как делал медицинского чат-бота в MTS AI (потому что это один из моих любимых проектов), теперь 22 ноября расскажу снова, на этот раз для Analytics Vidhya.

В ожидании доклада можно перечитать мой блогпост на хабре.

#datascience
👍4
​​AI-помощники в приложениях для ведения заметок

Я активно использую Evernote и Notion для ведения заметок: в Evernote веду дневник, в Notion трекаю разные активности и веду заметки без привязки к дням. И вот, в последнее время, в обоих приложениях выкатили “AI-поиск”. Я решил попробовать, и пока впечатления смешанные.

В Notion у меня заметки более структурированные, поэтому поиск работает вполне неплохо, успешно отвечает на вопросы типа “сколько раз я делал такую-то активность в такой-то день” или “выдай рандомные пункты из такой-то заметки”. Будет ли хорошо работать на более сложных текстах - не знаю, но Notion AI мне в целом нравится.

В Evernote у меня просто дневник, заметки без какой-либо структуры, плюс они на четырёх языках (обычно одна заметка на одном языке, но бывает и на двух). В результате помощник работает плохо. Поиск происходит только по заметкам совпадающего языка - то есть, если у меня заметки были на английском, а запрос я пишу на русском, результата не будет. Пробовал спросить “what are my highlights of 2022?”, получил несколько пунктов, из которых пара правильных, пара совершенно мелких и незначительных и парочка ошибочных/выдуманных.

Кстати, несколько месяцев назад я пробовал натренировать простенькую языковую модель с нуля на своём дневнике - тоже провалилось из-за того, что они на нескольких языках.

А вы пробовали использовать таких помощников?

#datascience #life
👍32
​​CogVLM: Visual Expert for Pretrained Language Models

CogVLM is introduced as a novel open-source visual language foundation model that advances beyond the commonly used shallow alignment methods in visual language processing. Unlike traditional models that superficially map image features to a language model's input space, CogVLM integrates a trainable visual expert module within the attention and FFN layers of a pretrained language model. This structure allows for a more profound fusion of visual and language features, enabling the model to process complex vision-language tasks without compromising its natural language processing capabilities. CogVLM-17B variant achieves state-of-the-art results on an array of ten classic cross-modal benchmarks.

---
Personally, I liked this paper. Even though the model is trained on huge datasets and with huge resources (4096 A100 days) it still uses common approaches (which were widely used on Kaggle): increasing image size while training; warmup; decreasing learning rate by the end of the training, EMA etc.

Paper link
Code link

My overview of the paper:
Personal blog
Medium

#paperreview
👍2
Google Cloud demonstrates the world’s largest distributed training job for large language models across 50000+ TPU v5e chips

Статья от Гугла о том, как тренировали огромные модели, в том числе PaLM. Будет полезно тем, кто собирается тренировать свою следующую модель на 50к TPU. Тут ведь есть такие, да? 😅

https://cloud.google.com/blog/products/compute/the-worlds-largest-distributed-llm-training-job-on-tpu-v5e

#datascience
😁6🔥1
​​Встречи по языковому обмену и культурный обмен

Я продолжаю ходить на встречи по обмену языками, они интересны не только в плане языков, но и в плане узнавания нового.

Если говорить про языки, то интересно видеть как много разных подходов существует в зависимости от предпочтений людей. Кто-то использует приложения типа Duolingo или Anki, кто-то полностью от них отказывается; кто-то изучает грамматику, кто-то составляет списки слов на нескольких языках; кто-то учится по учебникам, кто-то старается говорить как можно раньше; кто-то читает книги, кто-то слушает подкасты. Исходя из опыта общения с несколькими десятками людей из разных стран, я бы сказал, что целенаправленное изучение грамматики всё-таки необходимо. Бесконечное зубрение, как в школах/вузах, излишне, но всё-таки надо прикладывать усилия, чтобы её изучать.

Из дополнительного забавного:
• играть в “Мафию” с людьми из разных стран сложно и интересно, потому что очень сложно понять, кто и как блефует из-за различий в культуре, темпераменте и т. д.;
• в Германии есть игра "Werewolf", практически повторяющая "Мафию", только там жители деревни и оборотни. Плюс есть несколько опциональных дополнительных ролей, которые рекомендуется использовать лишь в больших группах;
• если вы сидите в темноте и нет нормального источника света, можно включить на телефоне фонарик, положить его фонариком вверх и поставить на него бутылку воды - будет приятное освещение;
• один парень из Гватемалы показывал всем желающим (и не очень желающим) видео того, как его ручной геккон ловит и съедает огромных тараканов;
• обсуждали, что при изучении других языков могут возникать сложности с произношением звуков, которых нет в родном языке. Например, я помогал парню из Перу тренироваться произносить “ы”, ему это было довольно сложно;

#languages
4👍1🔥1
​​Spoken Question Answering and Speech Continuation Using Spectrogram-Powered LLM

This novel approach introduces a significant advancement in adapting pre-trained LLMs for QA and speech continuation tasks. Spectron integrates a pre-trained speech encoder into the LLM, enabling the model to accept speech inputs and produce speech outputs. This integration allows for a more streamlined architecture, as the entire system is trained end-to-end and operates directly on spectrograms, simplifying the overall design and functionality.

A key aspect of this approach is its unique training objective, which jointly supervises speech recognition, text continuation, and speech synthesis. This is accomplished using paired speech-text pairs, facilitating a 'cross-modal' chain-of-thought within a single decoding pass. The method demonstrates superiority over existing spoken language models, particularly in maintaining speaker characteristics and ensuring semantic coherence. Furthermore, it shows a remarkable improvement in retaining the knowledge embedded in the original LLM, as evidenced by its performance on spoken QA datasets.

---
The main problem of this approach is the inference speed: spectrogram frames are computed with a rate of 12.5 ms.

Paper link
Project link

My overview of the paper:
Personal blog
Medium
Linkedin Pulse

#paperreview
🔥1
​​GraphCast: AI model for faster and more accurate global weather forecasting

Интересная статья от Google про предсказание погоды на графах.
Модель берет данные с шагом в 6 часов, может предсказывать погоду аж на 10 дней вперёд. Эта модель "глобальная", поэтому предсказывает погоду для квадратов 28х28 километров. И результаты SOTA.


Блогпост
Статья
Обсуждение

#datascience
🔥4
​​Новый 4x Grandmaster на Kaggle
На каггле появился ещё один 4xGrandmaster - https://www.kaggle.com/theoviel
Довольно известная личность, аж 17 золотых медалей. Работает в NVIDIA - неудивительно, что получилось, там шикарные возможности нарабатывать опыт и отличное железо.

#datascience
🔥10👏4
​​Deep Learning for Day Forecasts from Sparse Observations

MetNet-3 represents a significant advancement in the field of weather forecasting using deep neural networks. Unlike traditional models, it can make predictions in less than a second once data becomes available, showcasing an impressive combination of high temporal (up to every 2 minutes) and spatial (1 km) resolution. This performance is a result of its ability to learn directly from atmospheric observations, which are the highest fidelity and lowest latency data available. Until now, neural models trained with atmospheric data have only achieved commendable performance for up to twelve hours of lead time, and only for precipitation.

In a major breakthrough, MetNet-3 extends the capabilities of neural models both in terms of lead time and the range of weather variables it can predict accurately. It can forecast up to 24 hours ahead for variables including precipitation, wind, temperature, and dew point. A key innovation in MetNet-3 is its densification technique, which enables it to generate spatially dense forecasts despite being trained on extremely sparse data. This advanced model outperforms leading single- and multi-member Numerical Weather Prediction models, such as HRRR and ENS, particularly over the CONUS region for up to a full day ahead. Moreover, MetNet-3 has been integrated into Google Search, making its advanced forecasts widely accessible.

Paper link
Blogpost link

My overview of the paper:
Personal blog
Medium
Linkedin Pulse

#paperreview
🔥2👍1
Forwarded from Generative Ai
X-LLM. Новая библиотека для обучения LLM в экосистеме Huggingface.

Она поддерживает все современные методы (QLoRA, Flash Attention 2, Gradient checkpointing, GPTQ квантизацию, W&B, обучение на нескольких GPU с помощью DeepSpeed, даже каждый чекпоинт сохраняет сразу в Huggingface Hub). Подходит как для быстрого прототипирования, так и для production-ready решений.

Репозиторий, внутри много примеров: https://github.com/BobaZooba/xllm

Colab с обучением 7B модели: ссылка

Open source модель: https://huggingface.co/BobaZooba/Shurale7B-v1

Интерактивная текстовая игра (с моделью выше) с динамическими персонажами и историями: @TaleQuestBot (да, бот в телеграм)
👍4
​​USearch: faster embedding search

Я тут наткнулся на репо с Usearch, по уверениям намного лучше FAISS. Выглядит впечатляюще.

Repo

#datascience
❤‍🔥8🔥3
​​LLM Comparison/Test: 2x 34B Yi (Dolphin, Nous Capybara) vs. 12x 70B, 120B, ChatGPT/GPT-4

На реддите идёт бурное обсуждение, автор поста утверждает, что есть моделька на уровне GPT-4. Показывает примеры кучи тестов, много ссылок. Кажется, что стоит изучить.

Ещё и обсуждения в комментариях интересные. 👀

Ссылка

#datascience
🏆1
​​Генерация работающего кода на основе mockup и описаний

Подобные продукты уже были, но это выглядит реально впечатляюще.

https://twitter.com/andreasklinger/status/1725213534806794285?s=20

#datascience
🔥2
​​Дубай во время дождя: даже и не поесть
В некоторых странах во время непогоды люди активно используют сервисы для доставки еды, однако в Дубае/ОАЭ так не принято. Основные сервисы приостанавливают доставку, чтобы не подвергать доставщиков опасности. Да и государство наверняка следит.

#dubai
🤔6👍2
​​Кгда нт врмени пичатат всё правльно

Увидел тут прикольную идею - если вы вошли в состояние потока и активно пишете текст, при этом делая ошибки, то можно потом попросить Chat GPT расшифровать написанное, чтобы не прерывать состояние потока для красивых записей.

Link

#datascience #life
4👍4❤‍🔥1
​​Chain-of-Note: Enhancing Robustness in Retrieval-Augmented Language Models

RAG хорошо улучшают качество LLM, но у них есть некоторые проблемы с точностью, особенно в условиях неопределенности. Chain-of-Noting (CoN) генерит заметки для каждого документа для оценки его релевантности. Показывает SOTA результаты, и даже может ответить на вопрос "не знаю", если решает, что не хватает информации.

Статья

Мои обзоры:
Personal blog
Medium

#paperreview
🔥8
Технические новинки: Stable Video Diffusion и голосовое общение в ChatGPT

Stability выпустила Stable Diffusion для видео. Выложили и статью, и код. Примеры на сайте в целом симпатичные. Для доступа к генерации видео в веб-версии надо записаться в очередь.

Обсуждение

Ещё я узнал, что в ChatGPT есть голосовое общение. Точнее, оно было и раньше, но теперь доступно и для не-подписчиков. Я установил приложение на телефон и попробовал - реально работает. Что мне особенно нравится - это прекрасный инструмент для изучения языков: можно болтать с ботом на любом языке, просить исправлять ошибки, получать фидбек и советы.

Обсуждение

#datascience
🔥2👍1
​​Orca 2: Teaching Small Language Models How to Reason

Orca 2 учится использовать разнообразные reasoning techniques (step-by-step, recall then generate, recall-reason-generate, direct answer, etc.) с целью самостоятельно определять наиболее эффективную стратегию решения для каждой задачи. В результате Orca 2 значительно превосходит модели аналогичного размера и достигает сопоставимые результаты с моделями в 5-10 раз больше.

Статья
Проект

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
🔥6
​​Analytics Vidhya: статистика по докладу

Какое-то время назад я писал о том, что буду делать доклад для Analytics Vidhya про медицинский чат-бот. Доклад прошёл успешно, но что интересно - теперь организаторы присылают статистику по итогам доклада, это было любопытно.

#datascience
👍5❤‍🔥11