Forwarded from Надеждин@
14 миллионов рублей на 71 000 подписей
Уже стабильно собираем по 7000 подписей в день. На сегодня у нас есть 28 752 подписи из необходимых 100 000.
Радуют и темпы сбора пожертвований. Вы невероятные! Нам осталось собрать всего 13.8 млн рублей.
Чем быстрее мы закроем сбор, тем легче нам будет справляться с наплывом освободивших от работы и учебы людей, которые придут ставить подпись в выходные дни. Обязательно приходите в наши штабы и точки сбора!
Вместе мы справимся со всем!
Отправить пожертвование можно на сайте:
https://nadezhdin2024.ru/#donate
Уже стабильно собираем по 7000 подписей в день. На сегодня у нас есть 28 752 подписи из необходимых 100 000.
Радуют и темпы сбора пожертвований. Вы невероятные! Нам осталось собрать всего 13.8 млн рублей.
Чем быстрее мы закроем сбор, тем легче нам будет справляться с наплывом освободивших от работы и учебы людей, которые придут ставить подпись в выходные дни. Обязательно приходите в наши штабы и точки сбора!
Вместе мы справимся со всем!
Отправить пожертвование можно на сайте:
https://nadezhdin2024.ru/#donate
❤104🤮48🤡29👍24👎16 8 4🔥3😁3 2
если можно попытаться что то сделать - я сделаю.
❤125🤡49 20 13👍7🤮5🔥4👏1 1
Альфа геометри
Как говорил мой препод по олимп-матеше - любите геому, вы можете посчитать ее. Всегда.
https://teletype.in/@alexwortega/RN2O2QtH1nQ
Как говорил мой препод по олимп-матеше - любите геому, вы можете посчитать ее. Всегда.
https://teletype.in/@alexwortega/RN2O2QtH1nQ
❤79 11 9👎2😁1
Forwarded from Антон Чехов. Лайфстайл
Я банкрот... Денег, хоть удавите, нет... Просто хоть в альфонсы нанимайся.
1886 год, 19 января
26 лет
1886 год, 19 января
26 лет
🔥46😢15 11 6 4
во всей истории с agi не понятно почему челы из stability не комитяться на AGI от слова совсем
#чтивонаночь
Model soups: averaging weights of multiple fine-tuned models
improves accuracy without increasing inference time
Забавная работа - давайте помержим линейно модели так чтобы они показывали лучший accuracy. иииииии это работает?
ну по крайней мере на несколько процентов улучшает точность.
папир
Model soups: averaging weights of multiple fine-tuned models
improves accuracy without increasing inference time
Забавная работа - давайте помержим линейно модели так чтобы они показывали лучший accuracy. иииииии это работает?
ну по крайней мере на несколько процентов улучшает точность.
папир
Мы релизнули вихрь💨 Нормально.
Проблемы: мы не очень уверены что оно точно аутперформит mistral и saiga mistral. Формально - да, все хорошо.
Цитируя классику
Если вам интересно что мы сделали: хабр
А еще оформили все в красивую HF репу: https://huggingface.co/Vikhrmodels
Проблемы: мы не очень уверены что оно точно аутперформит mistral и saiga mistral. Формально - да, все хорошо.
Цитируя классику
Если вам интересно что мы сделали: хабр
А еще оформили все в красивую HF репу: https://huggingface.co/Vikhrmodels
🔥68🤮5 5👍4❤1🤔1
Forwarded from Dealer.AI
Полет над гнездом LLM - Detect AI Generated Text.
Тут давече закончился сорев по детекции сгенерированных LLM сочинений vs писания кожАных мешков.
По этому сореву я вел некоторые мастер классы для студентов. Об этом уже было выше.
Кстати вот те советы , которым мы делились с комьюнити:
1. В лучшем паблик ноутбуке для моделей logreg/SGD использовать нормализацию при помощи из sklearn: standart scaling.
Примечание: В данном сореве хорошо заходили классик методы аля tfidf поверх bbpe/bpe словарей от энкодеров.
2. Добавить код с ошибками и опечатками как фичу в бустинг.
Примечание: Тут была гипотеза, что ошибки которые допускает человек и LLM при генерации имеют смещение друг относительно друга.
3. Добавить фичу Vectara hallucinations из huggingface model.
Примечание: Данная модель может оценивать степень галлюцинаций , была гипотеза что между моделями и человеком в скоре vectara есть также сигнал.
4. Добавить расчёт перплексии на моделях: qwen, llama2, falcon, mistral для моделей менее 10b и с уровнем точности fp16/int8. Пример на кекл.
Примечание: Данный пункт похож на предыдущие, тк по перплекссии мы можем оценить степень нормальности/естественности текста.
2-4 пункты это, как вы поняли, фичи в бустинг.
При этом, после беглого просмотра топ решений в discussion , были найдены хинты в тч из списка выше.
Самое важное в данном соревновании, что данные не были даны. Ну как. Были но 3 сэмпла. Все нужно было генерить самим) Поэтому грамотно собранный сет+валидация тоже имхо решали.
А вот к чему приводит собственный сбор , а не датка от оргов , см. ниже.
Тут давече закончился сорев по детекции сгенерированных LLM сочинений vs писания кожАных мешков.
По этому сореву я вел некоторые мастер классы для студентов. Об этом уже было выше.
Кстати вот те советы , которым мы делились с комьюнити:
1. В лучшем паблик ноутбуке для моделей logreg/SGD использовать нормализацию при помощи из sklearn: standart scaling.
Примечание: В данном сореве хорошо заходили классик методы аля tfidf поверх bbpe/bpe словарей от энкодеров.
2. Добавить код с ошибками и опечатками как фичу в бустинг.
Примечание: Тут была гипотеза, что ошибки которые допускает человек и LLM при генерации имеют смещение друг относительно друга.
3. Добавить фичу Vectara hallucinations из huggingface model.
Примечание: Данная модель может оценивать степень галлюцинаций , была гипотеза что между моделями и человеком в скоре vectara есть также сигнал.
4. Добавить расчёт перплексии на моделях: qwen, llama2, falcon, mistral для моделей менее 10b и с уровнем точности fp16/int8. Пример на кекл.
Примечание: Данный пункт похож на предыдущие, тк по перплекссии мы можем оценить степень нормальности/естественности текста.
2-4 пункты это, как вы поняли, фичи в бустинг.
При этом, после беглого просмотра топ решений в discussion , были найдены хинты в тч из списка выше.
Самое важное в данном соревновании, что данные не были даны. Ну как. Были но 3 сэмпла. Все нужно было генерить самим) Поэтому грамотно собранный сет+валидация тоже имхо решали.
А вот к чему приводит собственный сбор , а не датка от оргов , см. ниже.
Telegram
Dealer.AI
Новый NLP сорев на kaggle.
В век LLM встаёт вопрос детекции синтетики/сгенерированных текстов. И вот наконец-то докатилось и до моей любимой платформы соревнований.
Кстати советую почитать каналы:
1. Юрия Кашницкого
2. И Техножрицы
Всё на тему детекции…
В век LLM встаёт вопрос детекции синтетики/сгенерированных текстов. И вот наконец-то докатилось и до моей любимой платформы соревнований.
Кстати советую почитать каналы:
1. Юрия Кашницкого
2. И Техножрицы
Всё на тему детекции…
❤24 12👍4🤮3 2
джун отказавшийся писать на keras стал жертвой скуфской резни
Forwarded from еба́ные идеи для резерча
Собирать подписи за выдвижение эксперта в мое
👍51 22 9😁3❤2🤡2🤔1
давайте подарим админу тачку с 8h100, я разорюсь скоро такими темпами
Forwarded from Generative Anton (Anton Repushko)
Длинный текст про то, как я сходил с ума от отчаяния в последние 8 месяцев и начал учить древнегреческий.
Выше уже мелькали посты про непонятные белые буковки и шутки про ленивых древнегреческих писцов. Настало время собрать всё в цельную картинку и объясниться. Я не могу из-за правил публиковать и в деталях рассказать техническое решение (оно в процессе ревью), но порассказываю всякое другое.
Соревнование называется Vesuvius Challenge. Когда извергался Везувий и уничтожил Помпеи, он уничтожил еще и город Геркуланум, который находился тоже у его подножия. Нас интересует Геркуланум из-за того, что там откопали виллу, в которой была очень богатая библиотека. И в этой библиотеки уже нашли/ожидают найти около 4-5 тысяч свитков. Важное уточнение: до нас из Античности дошло очень небольшое количество текстов: Одиссея, Иллиада, вся философия — лишь небольшой процент от всех существовавших тогда текстов. Представьте, сколько знания и истории хранится в этих тысячах свитков. Но разумеется есть проблема: они выглядят как сгоревшая на углях картошка из-за консервации в лаве и пепле (но именно благодаря этому они и пролежали в земле 2000 лет).
На сцену выходит профессор из Кентуки Dr. Brent Seales, который всю карьеру потратил на пропихивание следующего метода: давайте мы сделаем этим свиткам МРТ, а потом как-то хитро попытаемся восстановить все и прочитать. План — надежный, как швейцарские часы, если бы не одно но: чернила, которые там были, не содержат металла (carbon-based) и на результатах МРТ не видны. Были еще попытки отсканировать один и тот же свиток с разной фазой пучка и вычтя результаты этого получить какие-то буковки. Буковок хватило на статью в Nature, но выглядит это довольно паршиво. Что же с этим делать дальше?
На сцену выходит ex-CEO Github’a Nat Freedman: меценат, организует всякие AI гранты и инвестриует в AI-стартапы. Очень приятный дядечка, который помог организовать это соревнование и завалил деньгами призовой фонд. Вот его частный фонд и вообще он мне пока кажется Илоном Маском здорового человека.
В феврале прошлого года стартует само соревнование с призовым фондом в 1M USD. Сначала на Kaggle, а потом это все продолжается в Дискорде. Есть МРТ-сканы свитков и нужно прочитать оттуда текст. Сам (предложенный организаторами) процесс виртуального разворачивания текста довольно сложный и хитрый, а данных сейчас уже примерно на 7-8Tb, что устанавливает довольно высокий технический барьер для входа.
После Kaggle’овского соревнования все немного затихло до момента, пока в августе два студента (один из штатов, второй из Берлина) независимо друг от друга глазками(!) нашли какие-то непонятные рельефы, которые подтвердили изначальную идею: не смотря на то, что чернилы не видны, бумага осталась деформированной в местах написанных букв. В итоге задачей стало пытаться программно научиться определять вот эти деформированные места (иногда глазу и незаметные) и читать буковки. Где-то в этот момент (начало августа) я и ушел в соревнование с головой.
Очень много бессонных ночей, переживаний и всего остального было на протяжении этих месяцев. Я приходил и надоедал к каждому, кто мог мне хоть как-то помочь советом/идеей (спасибо вам всем, друзья. Без вас я бы не справился). Когда обсуждал новости и произошедшее за день с девушкой, я десятки раз думал про то, что у меня не произошло вообще ничего: я решал свитки. Как и вчера. Как и продолжу завтра.
И не смотря на то, что я не смог выполнить официальные требования для главного приза (4 куска текста по 140 читаемых символов каждый), мне кажется, что никто не смог. Со слов организаторов, всего они получили около дюжины сабмишнов. И вот уже где-то месяц мы с другими участниками ждем результатов анализа папирологов. За эти полгода я познакомился с кучей интересных людей, выиграл промежуточный приз в 5200 USD, начал учить древнегреческий и сильно прокачался в решении таких вот непонятных проблем.
Выше уже мелькали посты про непонятные белые буковки и шутки про ленивых древнегреческих писцов. Настало время собрать всё в цельную картинку и объясниться. Я не могу из-за правил публиковать и в деталях рассказать техническое решение (оно в процессе ревью), но порассказываю всякое другое.
Соревнование называется Vesuvius Challenge. Когда извергался Везувий и уничтожил Помпеи, он уничтожил еще и город Геркуланум, который находился тоже у его подножия. Нас интересует Геркуланум из-за того, что там откопали виллу, в которой была очень богатая библиотека. И в этой библиотеки уже нашли/ожидают найти около 4-5 тысяч свитков. Важное уточнение: до нас из Античности дошло очень небольшое количество текстов: Одиссея, Иллиада, вся философия — лишь небольшой процент от всех существовавших тогда текстов. Представьте, сколько знания и истории хранится в этих тысячах свитков. Но разумеется есть проблема: они выглядят как сгоревшая на углях картошка из-за консервации в лаве и пепле (но именно благодаря этому они и пролежали в земле 2000 лет).
На сцену выходит профессор из Кентуки Dr. Brent Seales, который всю карьеру потратил на пропихивание следующего метода: давайте мы сделаем этим свиткам МРТ, а потом как-то хитро попытаемся восстановить все и прочитать. План — надежный, как швейцарские часы, если бы не одно но: чернила, которые там были, не содержат металла (carbon-based) и на результатах МРТ не видны. Были еще попытки отсканировать один и тот же свиток с разной фазой пучка и вычтя результаты этого получить какие-то буковки. Буковок хватило на статью в Nature, но выглядит это довольно паршиво. Что же с этим делать дальше?
На сцену выходит ex-CEO Github’a Nat Freedman: меценат, организует всякие AI гранты и инвестриует в AI-стартапы. Очень приятный дядечка, который помог организовать это соревнование и завалил деньгами призовой фонд. Вот его частный фонд и вообще он мне пока кажется Илоном Маском здорового человека.
В феврале прошлого года стартует само соревнование с призовым фондом в 1M USD. Сначала на Kaggle, а потом это все продолжается в Дискорде. Есть МРТ-сканы свитков и нужно прочитать оттуда текст. Сам (предложенный организаторами) процесс виртуального разворачивания текста довольно сложный и хитрый, а данных сейчас уже примерно на 7-8Tb, что устанавливает довольно высокий технический барьер для входа.
После Kaggle’овского соревнования все немного затихло до момента, пока в августе два студента (один из штатов, второй из Берлина) независимо друг от друга глазками(!) нашли какие-то непонятные рельефы, которые подтвердили изначальную идею: не смотря на то, что чернилы не видны, бумага осталась деформированной в местах написанных букв. В итоге задачей стало пытаться программно научиться определять вот эти деформированные места (иногда глазу и незаметные) и читать буковки. Где-то в этот момент (начало августа) я и ушел в соревнование с головой.
Очень много бессонных ночей, переживаний и всего остального было на протяжении этих месяцев. Я приходил и надоедал к каждому, кто мог мне хоть как-то помочь советом/идеей (спасибо вам всем, друзья. Без вас я бы не справился). Когда обсуждал новости и произошедшее за день с девушкой, я десятки раз думал про то, что у меня не произошло вообще ничего: я решал свитки. Как и вчера. Как и продолжу завтра.
И не смотря на то, что я не смог выполнить официальные требования для главного приза (4 куска текста по 140 читаемых символов каждый), мне кажется, что никто не смог. Со слов организаторов, всего они получили около дюжины сабмишнов. И вот уже где-то месяц мы с другими участниками ждем результатов анализа папирологов. За эти полгода я познакомился с кучей интересных людей, выиграл промежуточный приз в 5200 USD, начал учить древнегреческий и сильно прокачался в решении таких вот непонятных проблем.
🔥139👍3 3❤2👏1🤮1🤡1 1