лингвист-программист – Telegram
лингвист-программист
235 subscribers
44 photos
11 links
Автор этого канала программист по образованию и лингвист в душе.
Авторский контент в необычной гуманитарно-технической нише.
Можно донатить сюда: https://news.1rj.ru/str/tribute/app?startapp=dhnK
Download Telegram
лингвистическая задача

у меня ушло ровно 9 минут, ответ в понедельник
10🔥5👾1
ответ на лингвистическую задачу

fun fact, совершенно не связанный с задачей:
🔵 в греческом буква ω называется омега, потому что она "О мега", типа "о большое". а есть буква ο, которая называется омикрон, потому что это "О малое"
🔵господин Дональд Кнут, предложивший измерять сложность алгоритмов как О большое от функции, видимо не был слишком знаком с греческим, потому что в оригинале О большое это big omicron, то есть "большое о малое"
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉4👾2
аптека, библиотека, ипотека, винотека, картотека, синематека, пинакотека - что-то мне подсказывает, что у этих слов есть что-то общее!

Итак, θήκη это хранилище, ящик. В основном все понятно: винотека - хранилище вин, картотека - хранилище карт. Но тогда что такое аптека и ипотека? хранилище ап и ип?

apo- это греческая приставка (апокалипсис, апостроф, апостол), но она в нашем случае не сильно меняет корень и "аптека" это все еще склад. Раньше слово имело более широкий смысл, и аптеками называли и погреба с винами, и магазины специй, и хранилища книг. в монастырях как правило аптеками называли собрания лекарственных трав, и именно в этом значении слово дошло до наших дней.

hypo- тоже приставка, всем знакомая и имеющая очень широкий спектр значений. В нашем случае приставка вместе с корнем дают значение "подставка, подпорка" и исторически ипотека была не для квартир и домов, а для участков земли, и по периметру таких участков выставляли столбики с надписями что участок ипотечный. столбики - это и есть "подпорки"
20👏833👾2👍1🍾1
Шантаж - это очевидно французское заимствование, но может быть неочевидно от какого слова. Chanter - это петь. Получается что-то вроде «посмотрим, как ты у нас запоёшь».

Шансон - от того же слова, но тут связь с пением очевидна.

С тем же корнем есть слово enchanted - заколдованный. У нас знахарки свои заклинания проговаривают и получается заговор, а в других культурах заклинания поют. Если бы у нас тоже пели , то был бы не заговор, а запой 🌚
21🌚10🍾7👾2
На картинке самый эталонный гардероб айтишника

А вообще, гардероб это французское garderobe, где garder - хранить и robe - платье. Английское wardrobe - это тоже самое слово, но заимствованное с изменением произношения g/w. Забавно, что в итоге в английском есть два слова, отличающиеся одной буквой, но по смыслу расходящиеся кардинально: garden и warden, сад и страж. Но это так кажется на первый взгляд, а если копнуть глубже, то сад исторически - это нечто обнесенное оградой, "защищенная" территория. Становится понятно, что сад и страж на самом деле имеют близкую семантику
20🔥8🌚5💅3👍1👾1
Авангард и арьергард

Вчера писала про garder, вспомнила про него ещё один пост, который давно откладываю.

Avant - это предшествующий/ранний, arrière - задний. По факту, авангард - это воины, которые шли в первых рядах, а арьергард - замыкающие процессию.

С avant есть и ещё слова:
🔷аванс
🔷аванпост
🔷авансцена
Please open Telegram to view this post
VIEW IN TELEGRAM
358👍2🤯2👾1
ноль или нуль?

нуль - устаревающая форма, ноль - более новая, можно даже посмотреть на графики, первый график по слову нуль, второй по слову ноль.

Почему так вышло?
Слово нуль пришло в эпоху Петра I от немецкого Null. Это слово все еще более употребимо в технической и математической литературе - технари уважают свою историю. А до Петра отечественные арифметики с трудом понимали концепцию нуля как такового и называли его "еже цыфрою, или ничемъ", картиночку на арифметику магницкого в 1703 прилагаю.

А потом, уже с середины XIX века, начало появляться слово ноль - это заимствование из шведского noll и постепенно вытесняет нуль в именительном падеже. И шведский, и немецкий варианты происходят из латинского nullus, ne- (отрицание) + ullus (любой), то есть получается "ни один, никакой"

Докину еще немного отрицательной латыни по запросам из лички:
🔵 nihil = ne- + hilum (мелочь), ничто. тут у нас и нигилизм, и аннигиляция и даже крылатые фразы как будто я умная - ex nihilo nihil fit - ничто из ничего не происходит
🔵 nemo = ne- + homo (человек), никто. В двадцати тысячах лье под водой самого таинственного персонажа зовут капитан Немо, специально, чтобы скрыть его историю
🔵 neuter = ne- + uter (один из двух вариантов, either)
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
10🔥3🤷‍♂1👍1👾1
Mau, dau, nau

Астронавты - это люди, которые плавают между звёзд , потому что астра - это звезда, а nau - это корень, означающий лодка/плавать и у него есть еще производные:
🌸navy/naval
🌸nautical
🌸navigator
🌸nausea
Кажется, все логично, все слова действительно связаны с лодками, но это потому что я уже знаю, что они однокоренные, а так я бы ни за что не догадалась бы связать в голове navigation и nausea
Please open Telegram to view this post
VIEW IN TELEGRAM
113🐳3🤮1👾1
на рабкоте гоняем команды по изменению данных, и используем либу tqdm для отрисовки прогресс бара. пошла про нее прочитать и кажется встретила свое альтер-эго на гитхабе: тоже лингвист-программист, назвал либу на арабском и испанском, я в восторге

с другой стороны, нейминг не оч практичный, никто по 4 согласным не догадается, что эта либа делает
107👾2💔1
advent, event, invent

Все слова рифмуются, и не просто так: это разные приставки одного латинского корня, venire, означающего "приходить"
advent - когда приходит что-то важное, такое как рождество
event (ex + venire) - буквально outcome, исход, результат чего-то. чаще всего имелся в виду исход каких-то спортивных событий, куда собиралось много зрителей, и потом слово в целом начало означать какое-то культурное мероприятие
invent - когда идея буквально приходит в голову

Кстати, у меня есть свой адвент-календарь, называю его "декабрь прокрастинатора". В конце ноября собираю список вещей, которые откладывала весь год, потому что мне не нравится их делать. Например, разобрать тот ящик в который я кидаю всякий хлам, сходить к врачу, которого боюсь, порешать вопросики с банками и налоговой, покрасить волосы в яркие цвета, потому что весь год хотелось, но было страшно. И вот в декабре надо брать каждый день какое-то дело из списка и наконец-то его сделать, такой вот адвент-календарь.
Пишите в комменты, что откладывали весь год
Please open Telegram to view this post
VIEW IN TELEGRAM
10👾10🍾4
какой части речи слово суть?

взрыв мозга через 3... 2... 1... это глагол!

да, это глагол, и как полагается глаголу, он спрягается

если точнее, мы имеем дело с глаголом быть, и когда-то люди пользовались формами:
🟢 аз есмь
🟢 ты еси
🟢 он есть
🟠 мы есмы
🟠 вы есте
🟠 они суть (тут был носовой гласный, который не сохранился в современном алфавите, поэтому произношение скорее "сунть")

со временем форма третьего лица вытеснила все другие, и сейчас мы скорее скажем ты есть, чем ты еси, хотя, конечно, сохранились какие-то устойчивые сочетания вроде ох ты гой еси.

слово суть все еще используется как глагол, в основном в логико-математической среде типа "все квадраты суть четырехугольники с равными сторонами и углами". я сама много раз такое встречала в учебниках и даже слышала как мой декан по-настоящему произносит в лекциях суть как глагол. правда, кажется, использование архаизмов только повышает порог входа в предмет, потому что мои одногруппники вообще не распарсили с у т ь высказывания 😈
Please open Telegram to view this post
VIEW IN TELEGRAM
1515😱8👍2🤝1👾1
Складываем и вычитаем

🔜 Введение 🔙

Сегодня трогаем NLP - natural language processing. Это когда программисты пробуют себя в лингвистике и пишут модели для обработки или генерации текста.

Я знаю, что у моих подписчиков разная мат база, но предполагаю, что все имеют представление о том, что:
📌 можно складывать не только числа, но и вектора
📌вектор может быть двумерным, трехмерным, многомерным, но правила сложения останутся такими же

добавим к этим знаниям еще одно:
📌чем меньше угол между векторами, тем они ближе. близость векторов измеряется формулой косинусного расстояния.

🔜 Основная часть 🔙

А теперь к лингвистике: есть гипотеза, что значения слов можно оценить по шкалам, например, слово "мышь" по шкале маленький-большой получит значение близкое к нулю, а по шкале лысый-пушистый будет близко к максимуму. Таких шкал для слова можно задать очень много. Мы как будто играем в игру в данетки: оно маленькое? оно живое? оно пушистое? оно - мышь?
И вот, мы имеем значения по каждой из шкал, а каждая из шкал - это ось в нашем векторном пространстве. Если сложим вектора "маленьковость: 0,1" + "пушистость: 100" + еще какие-то значимые шкалы, то получим слово "мышь"

Такой подход использовался в алгоритме word2vec , который в 2013 предложили разработчики гугла для поиска сходных по смыслу слов и текстов. Сначала алгоритм обучается на большом корпусе текстов, чтобы составить векторное пространство слов. Потом с этими словами можно работать как с векторами: вектора синонимов будут иметь очень близкое расстояние, вектора антонимов будут противоположны.
🔷Классический пример: королева равно король минус мужчина плюс женщина .
🔶Классический пример 2: берлин поделить на германию равно париж поделить на францию

А дальше люди изобрели emoji2vec. Обучили на твиттере и попробовали складывать эмодзики. Как вы думаете, какому эмодзику равно ☂️ - 🌧 + ☀️ ?

🔜 Заключение 🔙

Этот пост было трудно писать, потому что у всех подписчиков разная матбаза: кто-то каждый день вертит n-мерные вектора, а кто-то пришел сюда за лингвистикой. Давайте пересчитаемся, ставьте эмодзики докуда вам было понятно:
❤️ - знаю, как складывать числа
- знаю как складывать вектора
👍 - отличаю косинусы от синусов
🔥 - читал про дистрибутивную семантику
🤯 - я разработчик гугла
Please open Telegram to view this post
VIEW IN TELEGRAM
15👍189🔥76👾1
вчера был занудный пост - сегодня будет развлекательный контент

генерируйте самые сомнительные эмодзики и кидайте в комменты https://emojikitchen.dev/
5👾1
Курица или яйцо?

В понедельник давала вопрос ☂️ - 🌧 + ☀️ = ?
если вы не знаете, а нейросетка знает - штош, плохие новости для нейросетки, она не прошла тест тьюринга
но вообще ответ задачи в том, что зонт по сути это "защита от дождя", и если мы вычтем дождь из этого вектора и добавим вместо него солнце, то должны получить защиту от солнца: 😎

тут мы получаем интересный парадокс: исторически зонтик и есть защита от солнца. слово пришло из нидерландского zonnedek - zonne - солнце (фанаты раммштайн на месте?) и dek - крыша, как в английском. Зонтиками называли тканевые навесы от солнца на кораблях. Как и многие другие нидерландские корабельные слова, слово zonnedek в Петровскую эпоху попало в русский, и вот в русском уже произошло изменение значения с защиты от солнца на защиту от дождя 😓

В итоге слово настолько адаптировалось в русском языке, что мы решили, что -ик это наш уменьшительный суффикс и убрали его, чтобы получить неуменьшительное слово зонт. Так что это зонт произошёл от зонтика, а не наоборот.🍃
Please open Telegram to view this post
VIEW IN TELEGRAM
2514🍓2👾1
Oxygen not included

Oxygen - это слово на самом деле состоит из двух корней: первый - gen, значение которого в целом угадывается по словам генетика, генератор, гетерогенный, и второй - oxys - на греческом кислый или острый (в значении формы, а не вкуса). Это тот же самый корень, что и в слове acid. Может быть, oxy и acid выглядят совсем не похоже на письме, но если слова произнести, то сходство точно будет.

Так почему обычный газ без цвета и запаха вдруг назвали кислым?

В 18 веке химики выдвинули гипотезу, что вещества класса кислот должны содержать в себе кислород. Поэтому элемент так и получил свое название: oxygene - "кислотогенерирующий". Позже эту гипотезу опровергли, оказалось, не все, что содержит кислород, является кислотой, и не каждая кислота содержит кислород, но еще до опровержения этой гипотезы Ломоносов успел забрать слово oxygen в русскую лексику, но он это слово русифицировал: при ломоносове кислород назывался кислотвором
913👍2😴1👾1
Про цифры

Цифрами могут называться только числа от 0 до 9. В английском они называются digits, а все из латыни: digitus - это палец, потому что при счете до 10 люди часто показывали цифры пальцами.

Интересно, что само слово cipher означает не все цифры, а только ноль, потому что и на арабском, из которого это слово попало в остальные языки, это слово означало только ноль или пустоту. Так что то, как слово цифры используется у нас сейчас - это сильное расширение значения)
10🔥11🍓3💅3👏1👾1
О техниках прокрастинирования

Декабрь - самый хаотичный месяц, дел просто как собак нерезаных. Я уже собаку съела на разных техниках продуктивности: и все псу под хвост!
Ну ладно, на каникулах разберусь

Вообще, каникулы берут свое начало у римлян и как слово, и как понятие, которое оно означает. Когда наступали самые жаркие дни в году, и было невозможно работать, римский сенат объявлял о начале длительного отдыха. Они отмеряли начало этого времени по звезде Canicula - самой яркой звезде созвездия большого пса (и вообще самой яркой из всех звезд, не считая Солнца), поэтому время летнего отдыха и называется каникулы. ☄️

Сейчас эту звезду назвают ее греческим названием. Я его не скажу, но дам подсказку: если бы вы были Джоан Роулинг, то какому персонажу лучше всего подошло бы имя главной звезды созвездия большого пса?
Please open Telegram to view this post
VIEW IN TELEGRAM
12👍14🎄521👾1
Почему в Антарктике нет медведей? 🪐

Чтобы выяснить, почему в Антарктике медведей нет, надо понять, почему в Арктике они есть. Арктика получила свое название, потому что прямо над ней висит созвездие большой медведицы, а медведица с греческого - arctos 🪐

Сейчас созвездие большой медведицы называется Ursa Major , где ursa - латинское название медведицы.
Интересно, что ursa и arctos - это однокоренные слова, но для древнего европейского охотника разница между этими словами была критической: охотники боялись поминать диких животных всуе: а то вдруг дух медведя разозлится и всем навредит?
Поэтому они начали использовать римский корень как эвфемизм для греческого, так что получилось, что ursa - это медведица в бытовом безопасном понимании, а arctos - это уже сакральное значение. Славянское "медведь" - это тоже эвфемизм, раньше у нас тоже было слово греческого происхождения для обозначения медведей, но оно потерялось в веках.

Так вот, почему в Антарктике медведей нет: все просто, сначала открыли Арктику, а Антарктика - это то же самое, но с другой стороны. Анти + Арктика = Антарктика. Так что на южном полюсе медведи лингвистически запрещены 🚫
Please open Telegram to view this post
VIEW IN TELEGRAM
11👍11🔥8🤣31👾1
Организационные вопросы

Писать по посту в день тяжеловато, даже если пишешь про свое хобби. Поэтому я ухожу на каникулы, чтобы хорошо отдохнуть, придумать новые идеи и очень много читать. Вернусь в середине января с новыми постами. Обещаю, будет крышесносно!

Меня можно поддержать новогодним подарком, например вот так:
❤️донатами https://news.1rj.ru/str/tribute/app?startapp=dhnK
❤️ звездочками под постами
❤️ бустами канала https://news.1rj.ru/str/boost/lingua_programma
❤️ пригласить на кофе в барселоне или москве
Please open Telegram to view this post
VIEW IN TELEGRAM
13🍓4👾3
Последний пост этого года

Tannenbaum на немецком это рождественская ёлка 🎄
А Tanenbaum на программистском это автор кучи толстенных классических книг 📚

Как вы думаете, что произойдёт быстрее:
- 🎄 я вынесу новогоднюю елку на мусорку (ориентировочно в марте)
- 📖 я дочитаю этот двухкиллограмовый том (ориентировочно 984 страницы)
- 💥 тепловая смерть вселенной (прогнозы ученых расходятся)
1💅63🌭1👾1