NEW BOT Телеграм, страница

Data, Stories and Languages

Дубай во время дождя: даже и не поесть
В некоторых странах во время непогоды люди активно используют сервисы для доставки еды, однако в Дубае/ОАЭ так не принято. Основные сервисы приостанавливают доставку, чтобы не подвергать доставщиков опасности. Да и государство наверняка следит.

#dubai

🤔6👍2

472 views07:47

Data, Stories and Languages

Кгда нт врмени пичатат всё правльно

Увидел тут прикольную идею - если вы вошли в состояние потока и активно пишете текст, при этом делая ошибки, то можно потом попросить Chat GPT расшифровать написанное, чтобы не прерывать состояние потока для красивых записей.

Link

#datascience #life

❤4👍4❤‍🔥1

558 views13:59

Data, Stories and Languages

Chain-of-Note: Enhancing Robustness in Retrieval-Augmented Language Models

RAG хорошо улучшают качество LLM, но у них есть некоторые проблемы с точностью, особенно в условиях неопределенности. Chain-of-Noting (CoN) генерит заметки для каждого документа для оценки его релевантности. Показывает SOTA результаты, и даже может ответить на вопрос "не знаю", если решает, что не хватает информации.

Статья

Мои обзоры:
Personal blog
Medium

#paperreview

🔥8

493 views05:32

Data, Stories and Languages

Технические новинки: Stable Video Diffusion и голосовое общение в ChatGPT

Stability выпустила Stable Diffusion для видео. Выложили и статью, и код. Примеры на сайте в целом симпатичные. Для доступа к генерации видео в веб-версии надо записаться в очередь.

Обсуждение

Ещё я узнал, что в ChatGPT есть голосовое общение. Точнее, оно было и раньше, но теперь доступно и для не-подписчиков. Я установил приложение на телефон и попробовал - реально работает. Что мне особенно нравится - это прекрасный инструмент для изучения языков: можно болтать с ботом на любом языке, просить исправлять ошибки, получать фидбек и советы.

Обсуждение

#datascience

Stability AI

Introducing Stable Video Diffusion — Stability AI

Stable Video Diffusion is a proud addition to our diverse range of open-source models. Spanning across modalities including image, language, audio, 3D, and code, our portfolio is a testament to Stability AI’s dedication to amplifying human intelligence.

🔥2👍1

511 views03:22

Data, Stories and Languages

Orca 2: Teaching Small Language Models How to Reason

Orca 2 учится использовать разнообразные reasoning techniques (step-by-step, recall then generate, recall-reason-generate, direct answer, etc.) с целью самостоятельно определять наиболее эффективную стратегию решения для каждой задачи. В результате Orca 2 значительно превосходит модели аналогичного размера и достигает сопоставимые результаты с моделями в 5-10 раз больше.

Статья
Проект

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview

🔥6

522 views05:46

Data, Stories and Languages

Analytics Vidhya: статистика по докладу

Какое-то время назад я писал о том, что буду делать доклад для Analytics Vidhya про медицинский чат-бот. Доклад прошёл успешно, но что интересно - теперь организаторы присылают статистику по итогам доклада, это было любопытно.

#datascience

👍5❤‍🔥1❤1

450 views09:08

Data, Stories and Languages

Keras 3.0: использовать или нет

Я помню, что первые свои нейронки я писал на Numpy и Theano, но это было совсем давно. Потом я какое-то время использовал Keras, и это было намного приятнее. Но с 2017-2018 я пересел на PyTorch, и он мне понравился значительно больше - синтаксисом, гибкостью и многим другим.

За эти годы Keras полностью объединился с TensorFlow, но вот теперь планируется версия 3.0, которая, по уверениям, сможет использовать основные фреймворки как backend: TensorFlow, PyTorch, JAX.

Лично мне это не кажется особо полезным и востребованным. Если кто-то тренирует нейронки на TF + Keras, то для него ничего не изменится; если пишет свои велосипеды на PyTorch - обертка не нужна; если использует существующие обертки - не очень понятно зачем переходить с Lightning/Ignite/etc на Keras. 🤷‍♂️

Что думаете?

Одно из обсуждений

#datascience

😁4👍1

626 views07:29

Data, Stories and Languages

Diffusion Model Alignment Using Direct Preference Optimization

В новом подходе Diffusion-DPO используют DPO для тренировки text-to-image diffusion models в соответствии с человеческими предпочтениями. Это представляет собой альтернативу методам RLHF, используемым в LLMs. Используя Pick-a-Pic (851 тысяча парных предпочтений пользователей), авторы значительно улучшили модель Stable Diffusion XL-1.0, повысив её визуальную привлекательность и точность соответствия изображений текстовым запросам. Кроме этого, они смогли натренировать модель, использующую AI Feedback, и получили сопоставимые результаты.

Статья

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview

👍4

748 views05:13

Data, Stories and Languages

Странные обращения от случайных людей

Время от времени мне пишут люди со странными запросами. Иногда смешно, иногда плакать хочется, иногда просто странно. Иногда бывает странным содержание сообщения, иногда его форма. Сегодня получил обращение, которое побило рекорд за долгое время.

Какой-то человек написал мне в... Instragram с предложением "cooperate with you in the field of a joint project, so that we can write an article in the field of language models in artificial intelligence". Перечислил свои достижения, среди прочего - "currently working on large language models". И попытался мне позвонить прямо в Instagram. Это было очень неожиданно.

#datascience

🥴5😁3🤔1

451 views11:45

Data, Stories and Languages

Diffuse, Attend, and Segment: Unsupervised Zero-Shot Segmentation using Stable Diffusion

DiffSeg - новый метод создания качественных масок сегментации изображений с использованием self-attention Stable Diffusion. Этот подход не требует обучения или не зависит от какого-то конкретного языка. Основная идея - использовать итеративный процесс merging, основанный на измерении дивергенции KL divergence между attention maps, для формирования эффективных масок сегментации. На COCO-Stuff-27 DiffSeg показал улучшение на 26% in pixel accuracy и на 17% в mean IoU по сравнению с предыдущими подходами к unsupervised zero-shot.

Статья
Проект

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview

🔥5

646 views05:12

Data, Stories and Languages

"Шок-новость": для файн-тюнинга LLM важна обработка данных

https://twitter.com/eugeneyan/status/1729689262331978071

#datascience

😁9🔥1

556 views12:00

Data, Stories and Languages

Adversarial Diffusion Distillation

Adversarial Diffusion Distillation - новый метод обучения, который позволяет быстро и эффективно генерировать изображения высокого качества с использованием моделей stable diffusion за 1-4 шага. Он применяет score distillation и сочетание с adversarial loss для сохранения точности изображения даже при минимальном количестве шагов. Эксперименты показывают, что ADD значительно превосходит существующие методы, такие как GANs и Latent Consistency Models, уже на первом шаге, и достигает уровня лучших современных моделей, таких как SDXL, всего за четыре шага. Новая SOTA!

Проект

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview

Stability AI

Adversarial Diffusion Distillation — Stability AI

We introduce Adversarial Diffusion Distillation (ADD), a novel training approach that efficiently samples large-scale foundational image diffusion models in just 1–4 steps while maintaining high image quality.

👍3🔥3

764 views08:43

Data, Stories and Languages

🔥3

422 views08:43

Data, Stories and Languages

Duolingo: The results of 2023

В Duolingo появилась возможность посмотреть результаты года. В этом году я активно изучал испанский и немецкий. Курс немецкого удалось завершить полностью (в том числе все legendaries), но курс испанского намного длиннее. Плюс, один раз я уже его закончил в этом году, но потом курс обновился, и пришлось проходить его заново. Сейчас польза от этого уже небольшая, поэтому просто использую Duolingo как небольшую дополнительную практику.

#languages

🔥7👍3🎉3🤯1

455 views14:50

Data, Stories and Languages

2023 Duolingo Language Report

И снова о Duolingo: компания выпустила очередной ежегодный отчёт. Детали можно почитать по ссылке, а пока то, что мне показалось интересным:
• Английский язык остаётся самым популярным для изучения, что совсем не удивительно;
• Португальский язык вытеснил Русский язык с десятого места: интерес к русскому языку упал из-за войны, а интерес к португальскому вырос благодаря популярности Португалии и Бразилии у туристов;
• Активнее всего языки изучают люди из Беларуси, Японии, Венгрии, России и Украины. Думаю, что как минимум для трёх из этих пяти стран мотивация вполне понятна - изучить язык новой страны проживания;

Report

#languages

Duolingo Blog

2023 Duolingo Language Report

Our annual report looks at the biggest trends and changes in language over the year. In 2023, there were a few surprises!

👍6

491 views07:03

Data, Stories and Languages

Translatotron 3: Speech to Speech Translation with Monolingual Data

Translatotron 3 - новый подход к обучению модели прямого перевода speech-to-speech, использующий только monolingual речевые и текстовые наборы данных в полностью unsupervised режиме. Модель использует себе masked autoencoder, unsupervised embedding mapping и back-translation. В экспериментах по переводу речи между испанским и английским языками Translatotron 3 превзошёл базовую каскадную систему, показав улучшение на 18.14 BLEU на синтезированном Unpaired-Conversational датасете. Кроме того, Translatotron 3 не теряет такие аспекты речи, как как паузы, темп речи и идентичность говорящего.

Проект
Статья

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview

🔥2

444 views05:19

Data, Stories and Languages

Конкуренция между AI

Увидел я сегодня новость о том, что JetBrains запускает AI Assistant в своих продуктах. Заинтересовался и обновил PyCharm. Запускаю и вижу сообщение, что мол, моя компания не даёт возможность включить AI Assistant. Учитывая, что лицензию покупал я сам - очень удивился. Читаю дальше... и оказывается, что это конфликт с GitHub Copilot. Оба использовать нельзя - либо одно, либо другое. Прийдётся страдать муками выбора.

#datascience

😁10

413 views11:49

Data, Stories and Languages

Purple Llama от Meta AI

Meta запустила новый проект про безопасный AI.

CyberSec Eval - cybersecurity safety evaluation benchmarks for LLMs.

Llama Guard - классификация данных на безопасность.

Эта инициатива от недавно объявленного AI Alliance.

Почему Purple? Скрещение blue team (defense) и red team (attack).

#datascience

🔥1

766 views14:44

Data, Stories and Languages

Hetzner прекращает обслуживание клиентов из России

Ещё в одном сервисе теперь нельзя арендовать, если ты из России.

#datascience

🤬4😢2🫡2🔥1😱1

598 views12:16

Data, Stories and Languages

BG3 - заслуженно получила очередные награды

BG3 - игра года!

#life

🗿5👍2

573 views13:10

Data, Stories and Languages

🔥5

581 views13:10

About

Blog

Apps

Platform