gonzo-обзоры ML статей
Byte Latent Transformer: Patches Scale Better Than Tokens Artidoro Pagnoni, Ram Pasunuru, Pedro Rodriguez, John Nguyen, Benjamin Muller, Margaret Li, Chunting Zhou, Lili Yu, Jason Weston, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Ari Holtzman, Srinivasan…
То же самое в формате поста, где проще вставить картинки в релевантные места текста.
https://gonzoml.substack.com/p/blt-byte-latent-transformer
https://gonzoml.substack.com/p/blt-byte-latent-transformer
Gonzo ML
BLT: Byte Latent Transformer
Patches Scale Better Than Tokens
🔥28❤7👍7
Пока готовятся новые обзоры, вот вам прекрасное рождественское:
Introduction to Black Hole Thermodynamics
Edward Witten
https://arxiv.org/abs/2412.16795
Introduction to Black Hole Thermodynamics
Edward Witten
https://arxiv.org/abs/2412.16795
arXiv.org
Introduction to Black Hole Thermodynamics
These notes aim to provide an introduction to the basics of black hole thermodynamics. After explaining Bekenstein's original proposal that black holes have entropy, we discuss Hawking's discovery...
🥰20👍9❤🔥2❤2🤯2
Jeff Dean с апдейтом по теме ML for Systems, доклад на последнем NeurIPS.
https://x.com/nrehiew_/status/1868672595106865576
ML for Systems — это хорошая тема, она про применение ML в различных технических системах, где до этого рулили эвристики. Компиляторы, дизайн чипов, оптимизация инференса, и прочее, и прочее. В целом мы уже начали вкушать плоды этих трудов, свежие чипы типа TPU, включая те, что в телефонах, оптимизация работы Ютуба, ускоренный инференс моделей — ко всему этому ML уже приложился, но всё равно это только начало.
Аналогичный, но более длинный его же доклад по этой же теме на MLSys:
https://mlsys.org/virtual/2024/invited-talk/2592
https://x.com/nrehiew_/status/1868672595106865576
ML for Systems — это хорошая тема, она про применение ML в различных технических системах, где до этого рулили эвристики. Компиляторы, дизайн чипов, оптимизация инференса, и прочее, и прочее. В целом мы уже начали вкушать плоды этих трудов, свежие чипы типа TPU, включая те, что в телефонах, оптимизация работы Ютуба, ускоренный инференс моделей — ко всему этому ML уже приложился, но всё равно это только начало.
Аналогичный, но более длинный его же доклад по этой же теме на MLSys:
https://mlsys.org/virtual/2024/invited-talk/2592
X (formerly Twitter)
wh (@nrehiew_) on X
.@JeffDean 's full talk at NeurIPS 24 on Machine Learning for Systems and how Google thinks about these things
🔥20👍4❤2