Перевод с технического языка на полу-технический
На ycombinator сейчас идёт обсуждение ChatGPT for Teams, позабавило как в комментах один человек рассказывает, что он локально запустил mixtral-8x7 и ему он нравится значительно больше, чем chatgpt-4.5. Но пост так усыпан терминами, что другой добрый человек расшифровал его. А третий использовал chatgpt, чтобы переписать первый пост более понятно для обывателя. Объяснения получились значительно длиннее оригинала 😁
#datascience
На ycombinator сейчас идёт обсуждение ChatGPT for Teams, позабавило как в комментах один человек рассказывает, что он локально запустил mixtral-8x7 и ему он нравится значительно больше, чем chatgpt-4.5. Но пост так усыпан терминами, что другой добрый человек расшифровал его. А третий использовал chatgpt, чтобы переписать первый пост более понятно для обывателя. Объяснения получились значительно длиннее оригинала 😁
#datascience
👍5😁3
В интернете слишком много автоматически переведённых статей
Статья от Amazona предупреждает о том, что в интернете слишком много текстов, которые были переведены с помощью Machine Translation, и это может быть проблемой для мультиязычных моделей.
Основные результаты анализа:
• если текст был переведён на один язык, скорее всего это было сделано вручную. Если же текст был переведён на много языков, скорее всего использовали MT
• для многих языков (в основном менее распространённых) большая часть контента получена с помощью MT с плохим качеством
• при этом есть биас: большая часть этого контента - простые, короткие тексты, переведённые массово. От этого возникает биас в плане тем этих текстов
• в результате, если не чистить датасеты, модели будут хуже и в плане метрик, и в плане fluency
• в качестве решения авторы выложили свой собственный датасет на 6.4B предложений на 90 языках с использованием дедупликации
Статья
Код для сбора датасета
#datascience #languages
Статья от Amazona предупреждает о том, что в интернете слишком много текстов, которые были переведены с помощью Machine Translation, и это может быть проблемой для мультиязычных моделей.
Основные результаты анализа:
• если текст был переведён на один язык, скорее всего это было сделано вручную. Если же текст был переведён на много языков, скорее всего использовали MT
• для многих языков (в основном менее распространённых) большая часть контента получена с помощью MT с плохим качеством
• при этом есть биас: большая часть этого контента - простые, короткие тексты, переведённые массово. От этого возникает биас в плане тем этих текстов
• в результате, если не чистить датасеты, модели будут хуже и в плане метрик, и в плане fluency
• в качестве решения авторы выложили свой собственный датасет на 6.4B предложений на 90 языках с использованием дедупликации
Статья
Код для сбора датасета
#datascience #languages
🔥2🤔1
Ferret: Refer and Ground Anything Anywhere at Any Granularity
Apple опубликовала свою MLLM - Ferret (если точнее, веса выложили в декабре). Сравнили с GPT-4V - в целом даёт схожие результаты. Получше на мелких объектах, похуже на более общих вопросах. Помимо модельки авторы выложили ещё и датасет. В целом весьма интересная работа.
Paper link
Code link
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview
Apple опубликовала свою MLLM - Ferret (если точнее, веса выложили в декабре). Сравнили с GPT-4V - в целом даёт схожие результаты. Получше на мелких объектах, похуже на более общих вопросах. Помимо модельки авторы выложили ещё и датасет. В целом весьма интересная работа.
Paper link
Code link
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview
🔥4
Подход к изучению иностранных языков Listening–Reading и как он мне помогает
В настоящее время существует много подходов к изучению иностранных языков, и сегодня я хочу рассказать о методе Listening-Reading.
Оригинальный блогпост, к сожалению, перестал работать много лет назад, но есть много более современных описаний, например здесь.
Есть много вариаций этого метода, но главная суть - читать текст на известном языке и одновременно слушать тот же самый текст на изучаемом языке (точнее, желательно либо читать чуть быстрее, либо заранее знать текст).
Благодаря этому подходу мы погружаемся в язык, набираем словарный запас, запоминаем грамматику и так далее. Я предпочитаю начитать использовать этот подход примерно от уровня B1.
Существующие варианты этого подхода:
• использовать параллельные тексты (на известном и на изучаемом языке) - в таком варианте этот подход можно использовать даже на ранних стадиях изучения языка (A1, A2);
• использовать и текст, и аудио на изучаемом языке - чтобы лучше понимать разговорную речь;
• повторять чтение и прослушивание отрывков по несколько раз - для улучшения запоминания (лично мне лень);
• пытаться повторять услышанное - для тренировки произношения (это мне тоже лень делать);
Могу привести свежий пример пользы этого подхода для меня:
Летом я пробовал слушать две аудиокниги на немецком (одна была переведена с английского, другая - с русского), но бросил, потому что слишком многое было непонятно. После этого я стал использовать вышеописанный подход (книга на английском и аудиокнига на немецком) с серией из 7 английских книг. Сегодня я закончил их слушать - в сумме эти книги составили около 80 часов. Когда я слушал первую книгу, я часто что-то не понимал, но к концу последней книги я в целом мог даже не смотреть в текст!
Теперь я ради интереса запустил аудиозаписи тех двух книг, которые вызвали у меня сложности полгода назад... и я понимал 90-95%, даже не смотря в текст.
Для дополнительного теста я включил аудио версию немецкой книги (не перевод), которую я никогда не слышал раньше. Это было сложнее, но я всё равно смог понять где-то 80%+ и сложности были лишь с отдельными словами, а суть происходящего была вполне понятно
Конечно, параллельно я практиковал язык и другими способами, но, кажется, именно этот метод сыграл основную роль.
#languages
В настоящее время существует много подходов к изучению иностранных языков, и сегодня я хочу рассказать о методе Listening-Reading.
Оригинальный блогпост, к сожалению, перестал работать много лет назад, но есть много более современных описаний, например здесь.
Есть много вариаций этого метода, но главная суть - читать текст на известном языке и одновременно слушать тот же самый текст на изучаемом языке (точнее, желательно либо читать чуть быстрее, либо заранее знать текст).
Благодаря этому подходу мы погружаемся в язык, набираем словарный запас, запоминаем грамматику и так далее. Я предпочитаю начитать использовать этот подход примерно от уровня B1.
Существующие варианты этого подхода:
• использовать параллельные тексты (на известном и на изучаемом языке) - в таком варианте этот подход можно использовать даже на ранних стадиях изучения языка (A1, A2);
• использовать и текст, и аудио на изучаемом языке - чтобы лучше понимать разговорную речь;
• повторять чтение и прослушивание отрывков по несколько раз - для улучшения запоминания (лично мне лень);
• пытаться повторять услышанное - для тренировки произношения (это мне тоже лень делать);
Могу привести свежий пример пользы этого подхода для меня:
Летом я пробовал слушать две аудиокниги на немецком (одна была переведена с английского, другая - с русского), но бросил, потому что слишком многое было непонятно. После этого я стал использовать вышеописанный подход (книга на английском и аудиокнига на немецком) с серией из 7 английских книг. Сегодня я закончил их слушать - в сумме эти книги составили около 80 часов. Когда я слушал первую книгу, я часто что-то не понимал, но к концу последней книги я в целом мог даже не смотреть в текст!
Теперь я ради интереса запустил аудиозаписи тех двух книг, которые вызвали у меня сложности полгода назад... и я понимал 90-95%, даже не смотря в текст.
Для дополнительного теста я включил аудио версию немецкой книги (не перевод), которую я никогда не слышал раньше. Это было сложнее, но я всё равно смог понять где-то 80%+ и сложности были лишь с отдельными словами, а суть происходящего была вполне понятно
Конечно, параллельно я практиковал язык и другими способами, но, кажется, именно этот метод сыграл основную роль.
#languages
🔥10❤2❤🔥1
Kickstarter Campaign: Animating Cradle: Bestselling Fantasy Novels Come to Life!
Хотел бы поделиться ссылкой на компанию на Kickstarter. Одна из моих любимых fantasy серий может получить адаптацию. Автор книги договорился с Jay Oliva, кто не знает, у него огромный список успешных работ. Очень надеюсь, что автор сможет набрать достаточно денег :)
Link
Хотел бы поделиться ссылкой на компанию на Kickstarter. Одна из моих любимых fantasy серий может получить адаптацию. Автор книги договорился с Jay Oliva, кто не знает, у него огромный список успешных работ. Очень надеюсь, что автор сможет набрать достаточно денег :)
Link
❤1🔥1
Scalable Pre-training of Large Autoregressive Image Models
Статья от Apple представляет AIM - серию моделей компьютерного зрения, претренированных авторегрессионно по подобию LLM. AIM демонстрируют, что они могут успешно скейлиться (как и LLM) с увеличением размера датасета, размера моделей и продолжительностт тренировки.
В итоге натренировали модель на 7B параметров, которая получила 84% на ImageNet-1k с тюнингом только головы. Графики показывают, что предел качества не достигнут, и при увеличении размера модели качество будет продолжать рости. При этом нет необходимости как-то специально стабилизировать обучение.
Paper link
Code link
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview
Статья от Apple представляет AIM - серию моделей компьютерного зрения, претренированных авторегрессионно по подобию LLM. AIM демонстрируют, что они могут успешно скейлиться (как и LLM) с увеличением размера датасета, размера моделей и продолжительностт тренировки.
В итоге натренировали модель на 7B параметров, которая получила 84% на ImageNet-1k с тюнингом только головы. Графики показывают, что предел качества не достигнут, и при увеличении размера модели качество будет продолжать рости. При этом нет необходимости как-то специально стабилизировать обучение.
Paper link
Code link
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview
🔥6
Lumiere: A Space-Time Diffusion Model for Video Generation
Lumiere - text-to-video diffusion model от Google для синтеза реалистичных и разнообразных движений в видео. Она использует архитектуру Space-Time U-Net, которая генерирует видео за один проход, в отличие от традиционных моделей, создающих keyframes с последующим улучшением. Lumiere сочетает пространственное и временное down- and up-sampling, а также использует предварительно обученную text-to-image diffusion model для генерации видео в full-frame-rate и низком разрешении, обрабатывая его на нескольких пространственно-временных масштабах. Модель демонстрирует SOTA результаты в генерации текста в видео и поддерживает широкий спектр задач создания контента и видеомонтажа, включая image-to-video, video inpainting и stylized generation.
Paper link
Project link
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview
Lumiere - text-to-video diffusion model от Google для синтеза реалистичных и разнообразных движений в видео. Она использует архитектуру Space-Time U-Net, которая генерирует видео за один проход, в отличие от традиционных моделей, создающих keyframes с последующим улучшением. Lumiere сочетает пространственное и временное down- and up-sampling, а также использует предварительно обученную text-to-image diffusion model для генерации видео в full-frame-rate и низком разрешении, обрабатывая его на нескольких пространственно-временных масштабах. Модель демонстрирует SOTA результаты в генерации текста в видео и поддерживает широкий спектр задач создания контента и видеомонтажа, включая image-to-video, video inpainting и stylized generation.
Paper link
Project link
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview
🔥3
Kaggle vs Interview pipeline
Я тут увидел твит от известного Bojan Tunguz (4x Kaggle GM) о том, что какой-то Competition Grandmaster не прошёл скрининг в Гугл. В комментах идёт срачик о том обоснованно это или нет.
С одной стороны, лычка Kaggle GM - красиво. С другой стороны, процессы крупной компании не побороть. Что думаете?
Link
#datascience
Я тут увидел твит от известного Bojan Tunguz (4x Kaggle GM) о том, что какой-то Competition Grandmaster не прошёл скрининг в Гугл. В комментах идёт срачик о том обоснованно это или нет.
С одной стороны, лычка Kaggle GM - красиво. С другой стороны, процессы крупной компании не побороть. Что думаете?
Link
#datascience
😁7🔥1😱1
Temporary Holds: Leveraging Machine Learning Models To Reduce Fraud While Improving Customer Experience
Сегодня в корпоративном блоге моей компании опубликовали блогпост, который я написал ещё в августе (машина бюрократии движется медленно).
По ссылке можно почитать историю проекта, а здесь опишу кратко:
Один из самых распространённых типов фрода в ride-hailing компаниях - когда компания не может получить оплату поездки после её окончания. Например, у клиента привязана банковская карта к приложению, но она украдена/фальшивая/на ней недостаточно денег или есть другие проблемы. Для борьбы с этим часто используется так называемая pre-authorization - предоплата. Но применять её ко всем клиентам нехорошо, поэтому надо как-то находить подозрительных. В компании было много правил для выявления таких клиентов, но было решено заменить на модель.
С момента начала разработки и до успешной выкатки на всех клиентов прошло примерно 9 месяцев (родил модель 😅) с учётом анализа данных, работы с инфраструктурой, других проектов и прочего. Зато теперь модель работает real-time на всех рынках и успешно уменьшает потери. Качество получилось заметно лучше, чем у правил.
Ссылка
#datascience
Сегодня в корпоративном блоге моей компании опубликовали блогпост, который я написал ещё в августе (машина бюрократии движется медленно).
По ссылке можно почитать историю проекта, а здесь опишу кратко:
Один из самых распространённых типов фрода в ride-hailing компаниях - когда компания не может получить оплату поездки после её окончания. Например, у клиента привязана банковская карта к приложению, но она украдена/фальшивая/на ней недостаточно денег или есть другие проблемы. Для борьбы с этим часто используется так называемая pre-authorization - предоплата. Но применять её ко всем клиентам нехорошо, поэтому надо как-то находить подозрительных. В компании было много правил для выявления таких клиентов, но было решено заменить на модель.
С момента начала разработки и до успешной выкатки на всех клиентов прошло примерно 9 месяцев (родил модель 😅) с учётом анализа данных, работы с инфраструктурой, других проектов и прочего. Зато теперь модель работает real-time на всех рынках и успешно уменьшает потери. Качество получилось заметно лучше, чем у правил.
Ссылка
#datascience
1🔥12👍4❤1
Kaggle: Best Solution Write-up Authors of 2023
Админы каггла в прошлом году объявили, что будут награждать людей за качественные описания их решений. Сегодня список победителей был опубликован. По ссылке можно почитать описания их решений. Некоторые тексты лаконичны, некоторые очень подробны. В любом случае, изучить их интересно и полезно
Link
#datascience
Админы каггла в прошлом году объявили, что будут награждать людей за качественные описания их решений. Сегодня список победителей был опубликован. По ссылке можно почитать описания их решений. Некоторые тексты лаконичны, некоторые очень подробны. В любом случае, изучить их интересно и полезно
Link
#datascience
🔥9
Про обилие и разнообразие материалов для изучения японского языка
Недавно я решил снова изучать японский язык. Смотрю какие новые материалы доступны (я прекратил заниматься японским 8 лет назад) и в очередной раз поразился тому, сколько же их есть.
Конечно, для любых популярных языков есть много ресурсов, но их разнообразие для японского просто зашкаливает.
Возможно, что он такой сложный, что просто необходимо иметь много подходов, возможно японский привлекает людей с определенными интересами, и они любят делиться знаниями. В любом случае, можно найти варианты на любой вкус.
Стандартный вариант изучения грамматики в виде учебников, естественно, доступен. Есть множество гайдов с разной степенью погружения в грамматику - от поверхностного, то такого, что стандартные учебники просто курят в сторонке. Есть даже видео на youtube, где анимированная девочка рассказывает про грамматику и поезда. И бесконечные колоды в Anki.
Для изучения слов есть много сайтов с разными вариантами геймификации, есть колоды в Anki, есть популярные списки слов и так далее.
Для изучения самих иероглифов есть минимум 3 разных подхода. Плюс множество вариантов для практики их рисования.
И, конечно, в целом огромное количество программ, большинство их них для извлечения слов из текстов/аниме/манги/игр для дальшейшего запоминания.
И есть множество историй успеха: традиционное обучение, годы практики, годы попыток или speedrun за пару лет. Самая запомнившаяся была о том, как у парня основной способ изучения и практики японского заключался в прохождении эротических игр.
В общем, найдётся вариант на любой вкус.
#datascience
Недавно я решил снова изучать японский язык. Смотрю какие новые материалы доступны (я прекратил заниматься японским 8 лет назад) и в очередной раз поразился тому, сколько же их есть.
Конечно, для любых популярных языков есть много ресурсов, но их разнообразие для японского просто зашкаливает.
Возможно, что он такой сложный, что просто необходимо иметь много подходов, возможно японский привлекает людей с определенными интересами, и они любят делиться знаниями. В любом случае, можно найти варианты на любой вкус.
Стандартный вариант изучения грамматики в виде учебников, естественно, доступен. Есть множество гайдов с разной степенью погружения в грамматику - от поверхностного, то такого, что стандартные учебники просто курят в сторонке. Есть даже видео на youtube, где анимированная девочка рассказывает про грамматику и поезда. И бесконечные колоды в Anki.
Для изучения слов есть много сайтов с разными вариантами геймификации, есть колоды в Anki, есть популярные списки слов и так далее.
Для изучения самих иероглифов есть минимум 3 разных подхода. Плюс множество вариантов для практики их рисования.
И, конечно, в целом огромное количество программ, большинство их них для извлечения слов из текстов/аниме/манги/игр для дальшейшего запоминания.
И есть множество историй успеха: традиционное обучение, годы практики, годы попыток или speedrun за пару лет. Самая запомнившаяся была о том, как у парня основной способ изучения и практики японского заключался в прохождении эротических игр.
В общем, найдётся вариант на любой вкус.
#datascience
🔥1😁1
Lag-Llama: Towards Foundation Models forProbabilistic Time Series Forecasting
Lag-Llama - это новая foundation model для прогнозирования временных рядов, использующая архитектуру на основе decoder-only transformer, обученная на большом наборе данных из разных доменов. Модель демонстрирует выдающиеся способности zero-shot и при fine-tuning на новых данных достигает лучших показателей, чем предыдущие подходы, становясь лучшей универсальной моделью по средним показателям.
Выглядит довольно интересно, веса и всё остальное выложили.
Paper link
Code link
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview
Lag-Llama - это новая foundation model для прогнозирования временных рядов, использующая архитектуру на основе decoder-only transformer, обученная на большом наборе данных из разных доменов. Модель демонстрирует выдающиеся способности zero-shot и при fine-tuning на новых данных достигает лучших показателей, чем предыдущие подходы, становясь лучшей универсальной моделью по средним показателям.
Выглядит довольно интересно, веса и всё остальное выложили.
Paper link
Code link
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview
🔥5❤1
Kaggle profile redesign
На Kaggle очередной редизайн - обновился дизайн профиля. И теперь можно свои pronouns указывать. Хочешь - "he/she/they", хочешь - "Sir Competition GM" 😁
#datascience
На Kaggle очередной редизайн - обновился дизайн профиля. И теперь можно свои pronouns указывать. Хочешь - "he/she/they", хочешь - "Sir Competition GM" 😁
#datascience
😁8🥰3👍2
Graph Machine Learning by Xavier Bresson
Xavier Bresson (очень известный человек в графовых сетках и не только) скоро выложит свой курс в открытый доступ.
https://twitter.com/xbresson/status/1757697452596224212
#datascience
Xavier Bresson (очень известный человек в графовых сетках и не только) скоро выложит свой курс в открытый доступ.
https://twitter.com/xbresson/status/1757697452596224212
#datascience
X (formerly Twitter)
Xavier Bresson (@xbresson) on X
I will be sharing soon my course material on Graph Machine Learning from last year.
Initially, I planned to wait for a 2nd iteration of the course for polishing and improving, but considering I may not teach it again, I have decided to share the first version…
Initially, I planned to wait for a 2nd iteration of the course for polishing and improving, but considering I may not teach it again, I have decided to share the first version…
🔥8
Thomas Wolf показывает шустрый инференс STT-TTS на Mac M3
Thomas Wolf (если кто не знает, это со-основатель HuggingFace) выложил в твиттере интересный пост о том, как он сделал простенький пайплайн speech-to-text-to-speech с инференсом на Mac M3.
whisper + Zephyr (in LM studio) + an Openvoice TTS. Скорость работы примерно 2 секунды. Код выложен.
Довольно круто, что такое работает на open source и достигает такой скорости без особых оптимизаций
https://twitter.com/Thom_Wolf/status/1758140066285658351
#datascience
Thomas Wolf (если кто не знает, это со-основатель HuggingFace) выложил в твиттере интересный пост о том, как он сделал простенький пайплайн speech-to-text-to-speech с инференсом на Mac M3.
whisper + Zephyr (in LM studio) + an Openvoice TTS. Скорость работы примерно 2 секунды. Код выложен.
Довольно круто, что такое работает на open source и достигает такой скорости без особых оптимизаций
https://twitter.com/Thom_Wolf/status/1758140066285658351
#datascience
🔥4
LiRank: Industrial Large Scale Ranking Models at LinkedIn
Это статья про LiRank - recommender system от LinkedIn. Статья скорее техническая, с деталями того, как делали фреймворк. Описывают новые техники калибровки, подходы для explore/exploit задач, способы оптимизации модели и архитектуру (Residual DCN, Dense Gating, Transformers).
В итоге заметно улучшили метрики: увеличение сессий пользователей на 0.5%, квалифицированных откликов на вакансии на 1.76% и CTR объявлений на 4.3%.
Выглядит довольно интересно и полезно.
Paper link
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview
Это статья про LiRank - recommender system от LinkedIn. Статья скорее техническая, с деталями того, как делали фреймворк. Описывают новые техники калибровки, подходы для explore/exploit задач, способы оптимизации модели и архитектуру (Residual DCN, Dense Gating, Transformers).
В итоге заметно улучшили метрики: увеличение сессий пользователей на 0.5%, квалифицированных откликов на вакансии на 1.76% и CTR объявлений на 4.3%.
Выглядит довольно интересно и полезно.
Paper link
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview
👍9🔥3
Hetzner - теперь и с GPU
Hetzner - одна из самых известных платформ для долгосрочной аренды серверов. До недавнего времени предлагались только сервера с CPU, но недавно это изменилось.
Например, сейчас можно арендовать машинку с Nvidia RTX 4000 примерно за 184 евро в месяц (налоги зависят от страны). Звучит вполне интересно.
https://robot.hetzner.com/
#datascience
Hetzner - одна из самых известных платформ для долгосрочной аренды серверов. До недавнего времени предлагались только сервера с CPU, но недавно это изменилось.
Например, сейчас можно арендовать машинку с Nvidia RTX 4000 примерно за 184 евро в месяц (налоги зависят от страны). Звучит вполне интересно.
https://robot.hetzner.com/
#datascience
🔥6
Google Gemma
Google выпускает новую группу моделей - Gemma. Gemma вдохновлена Gemini, но меньшего размера - 2B и 7B.
Пиарят мощно - даже с NVIDIA объединились для этого.
Есть блогпост от Google, есть блогпост от NVIDIA.
Модели выложили на HuggingFace, на Kaggle, на NVIDIA Playground.
Есть интеграция с NVIDIA NeMo and TensorRT-LLM. Есть ноутбуки на Colab и Kaggle
#datascience
Google выпускает новую группу моделей - Gemma. Gemma вдохновлена Gemini, но меньшего размера - 2B и 7B.
Пиарят мощно - даже с NVIDIA объединились для этого.
Есть блогпост от Google, есть блогпост от NVIDIA.
Модели выложили на HuggingFace, на Kaggle, на NVIDIA Playground.
Есть интеграция с NVIDIA NeMo and TensorRT-LLM. Есть ноутбуки на Colab и Kaggle
#datascience
Google
Gemma: Introducing new state-of-the-art open models
Gemma is a family of lightweight, state-of-the art open models built from the same research and technology used to create the Gemini models.
🔥7🤔2😐1