Я всегда любил маленькие умные модели. Не очень сложно на большом масштабе получить хорошие результаты, а вот на маленьком - сложно.
Чуваки сделали 1.3b(mini llama based) в стиле llava модель, которая почти не уступает (3 цифра после запятой) 7b llava.
Hf
Чуваки сделали 1.3b(mini llama based) в стиле llava модель, которая почти не уступает (3 цифра после запятой) 7b llava.
Hf
👍62🔥9
Сколько. Ты. Зарабатываешь?
Anonymous Poll
25%
<1000usd
21%
1000-2000usd
27%
2000-4000
12%
4000-6000
5%
6000-8000
3%
8000-10000
8%
10000+
😢27 5
Forwarded from Нейрокузня | DreamForge
Человек, перевернувший Рим
Гай Юлий Цезарь — пожалуй, самый известный римлянин в истории. В ходе реконструкции внешности это было особенно заметно, ведь его бюстов великое множество и... Каждый будто изображает разного человека.
А всё дело в том, что большая часть сохранившихся скульптур является посмертной. Авторы достаточно вольно относились ко внешности диктатора, меняя её на основе собственных представлений. А может и фантазий, кто знает.
В любом случае, за основу мы взяли бюст Цезаря из Ватиканского музея, один из двух признанных портретов правителя.
Нейрокузня | DreamForge
Гай Юлий Цезарь — пожалуй, самый известный римлянин в истории. В ходе реконструкции внешности это было особенно заметно, ведь его бюстов великое множество и... Каждый будто изображает разного человека.
А всё дело в том, что большая часть сохранившихся скульптур является посмертной. Авторы достаточно вольно относились ко внешности диктатора, меняя её на основе собственных представлений. А может и фантазий, кто знает.
В любом случае, за основу мы взяли бюст Цезаря из Ватиканского музея, один из двух признанных портретов правителя.
Нейрокузня | DreamForge
👍21👏5🔥3
Хз, меня Саша попросил я нихуя не понял прикола.
Регулярно спрашиваю у Саши: а как ты сделал Х, почему так.
А ещё он торчит лекцию для better data community, давайте намекнем ему что стоит записать.
Регулярно спрашиваю у Саши: а как ты сделал Х, почему так.
А ещё он торчит лекцию для better data community, давайте намекнем ему что стоит записать.
🔥28❤1👍1
Приходит мужик к врачу:
-Доктор! Удалите мне пол мозга!
-Но... Это же невозможно! И очень опасно! Да и вообще, зачем вам это?
-Доктор, умоляю! Я так больше не могу! Я родился вундеркиндом, я закончил школу за 3 года, у меня нет друзей, нет девушки... Я постоянно решаю задачи, уравнения, доказываю теоремы... Я не могу, помогите мне! Удалите мне пол мозга!
Врач собрал консилиум, мужика обследовали - да, действительно, активность мозга такая, что он постоянно обрабатывает какую-то информацию, никогда не отдыхает. А если удалить половину мозга, то как раз оставшейся половины хватит на работу на уровне обычного человека. Провели операцию, удалили половину.
Мужик приходит через полгода:
-Доктор! Удалите мне ещё половину мозга!
-Но как?! Мы же вам уже удалили половину!
-Не помогло! Я теперь пишу стихи, поэмы, повести и романы! Я сочиняю музыку, пишу картины, ваяю статуи! Я так не могу, помогите! Удалите мне пол мозга!
Ну, делать нечего - удалили ещё половину от того что было.
Проходит опять полгода он приходит:
-Доктор, я так не могу! Помогите! Я теперь открываю новые химические элементы, новые законы физики, новые семейства растений в ботанике! Удалите мне весь мозг, пожалуйста!! Иначе я сойду с ума!
-Ну, я вас понимаю, конечно - ваша ситуация очень тяжелая.. Но я должен вас предупредить: если мы удалим вам весь оставшийся мозг вы станете LLM engineer...
-Доктор! Удалите мне пол мозга!
-Но... Это же невозможно! И очень опасно! Да и вообще, зачем вам это?
-Доктор, умоляю! Я так больше не могу! Я родился вундеркиндом, я закончил школу за 3 года, у меня нет друзей, нет девушки... Я постоянно решаю задачи, уравнения, доказываю теоремы... Я не могу, помогите мне! Удалите мне пол мозга!
Врач собрал консилиум, мужика обследовали - да, действительно, активность мозга такая, что он постоянно обрабатывает какую-то информацию, никогда не отдыхает. А если удалить половину мозга, то как раз оставшейся половины хватит на работу на уровне обычного человека. Провели операцию, удалили половину.
Мужик приходит через полгода:
-Доктор! Удалите мне ещё половину мозга!
-Но как?! Мы же вам уже удалили половину!
-Не помогло! Я теперь пишу стихи, поэмы, повести и романы! Я сочиняю музыку, пишу картины, ваяю статуи! Я так не могу, помогите! Удалите мне пол мозга!
Ну, делать нечего - удалили ещё половину от того что было.
Проходит опять полгода он приходит:
-Доктор, я так не могу! Помогите! Я теперь открываю новые химические элементы, новые законы физики, новые семейства растений в ботанике! Удалите мне весь мозг, пожалуйста!! Иначе я сойду с ума!
-Ну, я вас понимаю, конечно - ваша ситуация очень тяжелая.. Но я должен вас предупредить: если мы удалим вам весь оставшийся мозг вы станете LLM engineer...
❤144😁68 37👏5👍2🤡2
Forwarded from grokaem себя (Milana)
#grokaem_собес #grokaem_nlp
Я собрала 100 вопросов по NLP, которые мне задавали или задавала я. Надеюсь, что они будут полезны, чтобы освежить в памяти важные моменты.
*Notion будет пополняться*
Notion русская версия
В составлении вопросов помогали:
ds girl
канал Плюшевый Питон
Alexander Babiy
канал что-то на DL-ском
канал Dealer.AI
канал алиса олеговна
Часть вопросов:
8. Объясните разницу между косинусной близостью и косинусным расстоянием. Какое из этих значений может быть негативным? Как вы будете их использовать?
21. Что такое negative sampling и зачем он нужен?
30. Что такое затухающие градиенты для RNN?
41. Что используется в трансформере layer norm или batch norm и почему?
55. Объясните подходы для позициональных эмбеддингов и их плюсы и минусы.
75. В чем отличие оптимизатора Adam от AdamW?
86. Объясните концепции metric learning. Какие подходы вам известны?
88. Объясните виды sampling при генерации? top-k, top-p, nucleus sampling?
92. В чем отличие prefix tuning от p-tuning и от prompt tuning?
98. Объясните принцип работы KV cache, Grouped-Query Attention и MultiQuery Attention.
Я собрала 100 вопросов по NLP, которые мне задавали или задавала я. Надеюсь, что они будут полезны, чтобы освежить в памяти важные моменты.
*Notion будет пополняться*
Notion русская версия
В составлении вопросов помогали:
ds girl
канал Плюшевый Питон
Alexander Babiy
канал что-то на DL-ском
канал Dealer.AI
канал алиса олеговна
Часть вопросов:
8. Объясните разницу между косинусной близостью и косинусным расстоянием. Какое из этих значений может быть негативным? Как вы будете их использовать?
21. Что такое negative sampling и зачем он нужен?
30. Что такое затухающие градиенты для RNN?
41. Что используется в трансформере layer norm или batch norm и почему?
55. Объясните подходы для позициональных эмбеддингов и их плюсы и минусы.
75. В чем отличие оптимизатора Adam от AdamW?
86. Объясните концепции metric learning. Какие подходы вам известны?
88. Объясните виды sampling при генерации? top-k, top-p, nucleus sampling?
92. В чем отличие prefix tuning от p-tuning и от prompt tuning?
98. Объясните принцип работы KV cache, Grouped-Query Attention и MultiQuery Attention.
dynamic-epoch-4bb on Notion
100 questions about NLP | Notion
Один из кайфовых отработанных навыков - это задавать вопросы. Не знать ответ - это не плохо, плохо даже не загуглить.
👍33🔥13 11❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Дата пайпалайн любого ds: да не течёт у меня память, точно говорю
Meanwhile pipeline:
Meanwhile pipeline:
👍32😁17 9🤡1
С нг!
Чтобы торч всегда стоял, а трансформер всегда влезал!
Чтобы торч всегда стоял, а трансформер всегда влезал!
🔥144 55 39🤩6👏4😁3 3❤1👍1
#чтивонаночь
Task Contamination: Language Models May Not Be Few-Shot Anymore
Если вы собираете бенчи то обычно вы стартуете с парсинга какого то умного сайта.
Если вы собираете хороший претрен, то вы начинаете с парсинга какого то умного сайта.
И что может пойти не так?
Собственно в чем идея: LLM хорошо генерилизованы только на данных которые они видели в претрене, но даже сдвиг временной шкалы на том же наборе данных(перевод, классификация новостей и тд) убивает качество в разы (!)
Слышите треск? Это у меня ебало треснуло.
Папир
Task Contamination: Language Models May Not Be Few-Shot Anymore
Если вы собираете бенчи то обычно вы стартуете с парсинга какого то умного сайта.
Если вы собираете хороший претрен, то вы начинаете с парсинга какого то умного сайта.
И что может пойти не так?
Собственно в чем идея: LLM хорошо генерилизованы только на данных которые они видели в претрене, но даже сдвиг временной шкалы на том же наборе данных(перевод, классификация новостей и тд) убивает качество в разы (!)
Слышите треск? Это у меня ебало треснуло.
Папир
Forwarded from Алексей Хохлов
Пару дней назад я получил сообщение от профессора МИРЭА, доктора технических наук А.М.Романова. В нем он поднимает вопрос об этических границах при цитировании научных статей, который представляется довольно важным. С разрешения Алексея Михайловича привожу ниже сокращенный вариант его письма.
Сегодня мне случайно попалась статья, которая рекламировала новый сервис SciCite (https://habr.com/ru/articles/784242/ ). Прочитав ее, а также ознакомившись с их telegram-каналом, я, мягко говоря, ужаснулся.
По сути это автоматизированный сервис для создания ферм цитирования. Он позволяет одним ученым вывешивать объявления о тех работах, которые они хотят, чтобы другие процитировали, а другие получают виртуальную валюту за то, что цитируют эти "правильные" работы. И эту виртуальную валюту они могут тратить на то, чтобы просить цитировать нужные им работы. Более того, виртуальную валюту можно покупать, тем самым стимулируя цитировать свою работу за деньги.
По сути все это однозначно квалифицируется как манипулирование цитированием, которое прямо противоречит правилам COPE (Комитета по публикационной этике). Более того, сами авторы это прекрасно понимают и даже не скрывают.
В документах сервиса SciCite явно говорится, что взаимоцитирование молодыми учеными других молодых ученых не потому, что их работа достойна цитирования, а просто для того, чтобы разогнать друг другу показатели и получить грант - это хорошо, это называется ими «взаимодействие молодых ученых».
Можно было бы просто не обращать внимания на этот сервис, но он, очевидно, делает ставку на молодых ученых и аспирантов, рядом с которым может не оказаться наставника, который бы объяснил им, что так делать нельзя.
Что интересно, авторы проекта уже несколько преуспели в продвижении своих идей. Проект SciCite является победителем Всероссийского гранта Росмолодёжи, был отобран для участия в конкурсе «Лучший молодежный стартап союзного государства», презентовался в Сириусе на недавнем III Конгрессе молодых ученых. Я с трудом представляю, как проект по накручиванию цитирований может получить такую поддержку.
Сегодня мне случайно попалась статья, которая рекламировала новый сервис SciCite (https://habr.com/ru/articles/784242/ ). Прочитав ее, а также ознакомившись с их telegram-каналом, я, мягко говоря, ужаснулся.
По сути это автоматизированный сервис для создания ферм цитирования. Он позволяет одним ученым вывешивать объявления о тех работах, которые они хотят, чтобы другие процитировали, а другие получают виртуальную валюту за то, что цитируют эти "правильные" работы. И эту виртуальную валюту они могут тратить на то, чтобы просить цитировать нужные им работы. Более того, виртуальную валюту можно покупать, тем самым стимулируя цитировать свою работу за деньги.
По сути все это однозначно квалифицируется как манипулирование цитированием, которое прямо противоречит правилам COPE (Комитета по публикационной этике). Более того, сами авторы это прекрасно понимают и даже не скрывают.
В документах сервиса SciCite явно говорится, что взаимоцитирование молодыми учеными других молодых ученых не потому, что их работа достойна цитирования, а просто для того, чтобы разогнать друг другу показатели и получить грант - это хорошо, это называется ими «взаимодействие молодых ученых».
Можно было бы просто не обращать внимания на этот сервис, но он, очевидно, делает ставку на молодых ученых и аспирантов, рядом с которым может не оказаться наставника, который бы объяснил им, что так делать нельзя.
Что интересно, авторы проекта уже несколько преуспели в продвижении своих идей. Проект SciCite является победителем Всероссийского гранта Росмолодёжи, был отобран для участия в конкурсе «Лучший молодежный стартап союзного государства», презентовался в Сириусе на недавнем III Конгрессе молодых ученых. Я с трудом представляю, как проект по накручиванию цитирований может получить такую поддержку.
🤮35❤19👍10🤔10😡5 5 2🔥1😁1