лингвист-программист – Telegram
лингвист-программист
235 subscribers
44 photos
11 links
Автор этого канала программист по образованию и лингвист в душе.
Авторский контент в необычной гуманитарно-технической нише.
Можно донатить сюда: https://news.1rj.ru/str/tribute/app?startapp=dhnK
Download Telegram
Как ставить ударение?
Anonymous Poll
47%
А
56%
Ю
Романтическая история ❤️

По слову hlafweard трудно будет угадать его современную форму, но я подскажу: hlafweard -> hlaford -> lord.

hlafweard состоит из двух корней: hlaf, которое в современном английском превратилось в loaf (буханка 🍞) , и weard, которое сейчас есть например в слове warden (страж 💂‍♀️) , так что на самом деле лорд - это просто хранитель хлеба.

Но чтобы было что охранять, нужен кто-то, кто этот хлеб будет делать. Для этого у нас есть hlafdige, слово, которое так же состояло из двух основ, уже известной нам основы hlaf 🍞 и второго корня, который означал делать/создавать. Как и hlafweard, hlafdige сокращалось веками до тех пор, пока не превратилось в современное lady.

Так что lady и lord - это пример командной работы, где один создает хлеб, а другой его охраняет. И это очень-очень мило ❤️
Please open Telegram to view this post
VIEW IN TELEGRAM
14👍20💋4💘4😁1👾1
Страна восходящего солнца 🇯🇵

Из-за того, что Япония расположена восточнее Китая, в древней китайской дипломатической переписке Японию называли jih pun , буквально "происхождение солнца", рассвет. В Европу из Китая первым привез это слово Марко Поло, но популярным оно стало на век позже, когда у Португалии образовались хорошие торговые связи с Китаем. Тогда португальское japao разошлось в другие европейские языки. Из-за такого долгого путешествия слово совсем потеряло свой изначальный смысл, но да, Япония - буквально страна восходящего солнца, это не метафора 🌅

Сами японцы свою страну называют nippon, что тоже означает восход солнца. Редкий случай, когда самоназвание и экзоним значат одно и то же 🗾

Существует страна, самоназвание которой означает "заходящее солнце" 🌇
Как ее сейчас называют во всем остальном мире? Делитесь гипотезами в комментах, заворачивайте в спойлер, ответ в понедельник
10🔥10👍5🎉2👾1
If <...> else <...>

В миллиардный раз печатая if / elif / else , я начала размышлять, как условные конструкции вообще возникли в естественном языке.

Считается, что чем раньше возникло слово, тем короче и проще оно будет. Такое слово нельзя разложить на семантические составляющие. Например, у слов особняк или небоскреб явно прослеживается, от каких других, более простых слов они образованы, но дом - это просто дом, это очень древнее слово, его нельзя разбить на элементы, если вы, конечно, не фронтендер.

Я думала, что слово "если" - одно из таких древних неделимых слов. Как иначе древние могли бы выразить условие? Но нет, оказалось, слово "если" - это два слова "есть" + "ли", которые до 15 века писались раздельно, к 17 веку превратились в одно слово естьли, и только с 18 века широко распространилась форма если. Так что "если" - это на удивление новое слово.

Английское слово else тоже интересное. Оно происходит от греческого allos - другой, в условной конструкции означает как бы другую альтернативу. И у этого else есть огромное количество родственных слов, например
➡️ alien - другой, не такой как мы
➡️ alias - другое имя
➡️ alibi - другое место, в котором человек был, когда было совершено преступление

Интересно, когда в естественных языках появится выражение для условия elif ?
Please open Telegram to view this post
VIEW IN TELEGRAM
👏155❤‍🔥2👍2🤔1👨‍💻1👾1
item

Сейчас мы считаем, что item - это некторый единичный элемент какого-то множества, существительное. Но исторически это слово было латинским наречием, которое означало "а так же, далее, и".
В средние века люди составляли списки покупок, и каждую новую покупку записывали на новой строке, начиная со слова item. Получалось что-то вроде
мука
а также яйца
а так же масло
а так же ...

но далеко не все знали латынь (да и вообще были грамотными), поэтому решили, что слово item означает не "а так же", а просто "элемент списка". Так у этого слова появилась новая жизнь
1018👍42🍓1👾1
Народная этимология vs новояз

Сегодня разбираем два слова, связанных со сном:

🌸 подушка
Если задуматься, как образовано это слово, то наверно, в голове подушка разложится на под + ушко и мозг сразу сгенерирует логичное объяснение: "ну да, под ушком, а где еще?" . Но на самом деле правильнее было бы разложить слово на по + душка, и корень будет тот же, что и в словах "дуть, дух, дышать, душа". Подушка такая объемная, как будто надутая

🌸 беруши
Странное какое-то слово, нетипичное и непонятно как склонять. Заимствование наверное. Может из японского, они же любят придумывать разные комфортные мелочи. Но нет. Беруши - это простое советское сокращение от "берегите уши"

Вот так неожиданно непохоже происхождение двух слов 🌸
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥179👾4
Когда не знаю, как сказать какое-то слово на немецком, придумываю его сама. Нэйтивы вообще-то тоже так делают. Словообразование - это киллер фича этого языка.

Недавно для подготовки к экзаменам попался текст про зевание, и авторы употребили слово mitgahnen, где mit- приставка совместного действия и gahnen - зевать. В общем так передали смысл, что зевота заразна.

А мне надо было как-то обозначить людей, которые подверглись этой заразной зевоте. Добавила профессиональный суффикс er и получилось mitgahner - те, кто зевают одновременно. Созеватели.
7😁18🥱6👍3🔥1🌭1👾1
Мечтать не вредно 🌙

Сегодня в гостях очень простая, изящная и на мой взгляд совершенно утопическая идея. Теорема Ферма в мире лингвистики.

Идея состоит в том, что все слова языка можно свести к какому-то небольшому множеству простейших слов, и можно выразить любую мысль, используя только эти элементарные слова.

Например, бабушка = мама родителя. Мама = родитель-женщина. Можно дальше раскладывать слова на составляющие, и когда появится слово, которое разложить не получается - значит, мы нашли элементарное слово. Такое слово называется семантическим примитивом.

Вот несколько примеров:
🟢 я, ты, что-то
🟢 думать, хотеть
🟢 хороший, плохой
🟢 сейчас, до, после
🟢 этот, другой
Можете для эксперимента взять любое слово и попробовать дать ему определение. Все слова в вашем определении будут гораздо более сложными концепциями, чем определяемое слово.

Считается, что любое слово и фразу можно выразить через множество простейших слов, вот так определяется фраза "Он был рад":
1. этот кто-то думал так в некоторое время:
- "много хорошего сейчас происходит со мной, как я хочу
- я могу делать многое, как я хочу
- это хорошо"
2. поэтому этот кто-то чувствует что-то хорошее в это время
- как люди часто чувствуют, когда они думают так некоторое время


Ни один адекватный носитель языка так не скажет! Реальность совсем не щадит теорию семантических примитивов. А еще есть всякие многозначные слова, метафоры и фразеологизмы, смыслообразующие суффиксы, и ничего из этого автор теории не объясняет.

Но я не просто так считаю эту теорию утопической. В реальных языках она может быть и не жизнеспособна, но мне кажется, у нее есть большие перспективы в natural language processing & understanding. Может быть, вместо нейросеток, которые выдают просто агрегацию естественных текстов, на которых они учились, у нас получится научить компьютеры доказуемому языку 🤷‍♀️
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥1152🤔1👾1
Кредит доверия

Credere в латинском означало «верить». Отсюда много общих слов:

🔘кредит - сумма, которую вам доверяют в долг, потому что верят, что вы ее вернёте
🔘кредо - чьи-то жизненные убеждения
🔘creed - убеждения/вера
🔘credentials - какой-то токен, по которому доверяют доступ к ресурсу

Вот так и получается, что «кредит доверия» - это масло масленное 🧈
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥15👍74👾1
bang bang 💥

На французском шар - это boule, шарик поменьше - это boulette.
🟢 Первое, boule, попало в русский и стало словом пуля
🟢 Второе, boulette, попало в английский и стало bullet

Слово бюллетень тоже из этого ряда. Я изначально думала, что bulletin это из-за bullet points ( 🟢 кружочки, маркирующие элементы списка), потому что в бюллетени есть и список и кружочек для галочки, но оказалось, что все не так...

Когда греки придумали демократию (которая почему-то работала только для мужчин не-рабов) им нужно было придумать и систему голосования. Тогда они поставили две урны и кидали камешки в соответствующую урну, чтобы обозначить свой выбор. Тот же принцип использовали в средневековой Венеции, но рандомные камешки заменили на специальные шарики - balotta. Когда подсчитывали шарики, то кандидатам начисляли баллы, а позднее появились слова баллотироваться и бюллетень
Please open Telegram to view this post
VIEW IN TELEGRAM
113👍6👏3👎1👾1
В чем сила?

В муке 💪

В немецком есть слово die Stärke - сила, но оно так же является сокращением от Stärkemehl = сила + мука. Тут важно ударение, "сильная мука" это не про эмоции, а про вещественный мир. А еще в немецком есть синоним силы: Kraft, поэтому в регионах сильную муку могли назвать Kraftmehl.

Если пока еще не сложился пазл, какая именно сильная мука может называться крафтмель, то раскрутим историю дальше: это слово через польское krohmal попало в славянские языки и стало крахмал. А сила в том, что при накрахмаливании ткань становится жесткой и не мнется.
1🌚113🔥2👾2👍1
У меня есть любимый префикс в немецком. Он все делает величественным

Sache - причина ➡️ Ursache - первопричина
Oma - бабушка ➡️ Uroma - прабабушка, прародительница
Zeit - время ➡️ Urzeit - доисторическое время

В общем, это что-то первобытное, оригинальное, архаичное.

Префикс ur- означает примерно то же, что и proto- . Proto в греческом означало "первый"

Я знаю 5-10 немецких слов, которые часто используются с этой приставкой, но я предлагаю использовать ее всегда и называть фортран Urcode📌
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥13👍73👾2
Мне было сегодня лет, когда я узнала, что шуры-муры это что-то на французском. Тут сочетаются слова сher и amour, так что получается, что шуры-муры - это доргой-любимка ❤️

Что такое хухры-мухры, я находила несколько гипотез, и все они выглядят не очень убедительно, но одно я знаю точно: пруфчекинг это вам не хухры-мухры

Накидывайте в комменты свои тыры-пыры и трали-вали, может попадут в следующий пост 😉
115😁12🔥7👾1
Пока сезон, расскажу немыслимое: вишня и черешня это одно и то же!

Слово черешня во всех славянских языках родственно латинскому cerasus и греческому κεράσιον - и вишня, и черешня. Видимо, древние не делали акцент на различии этих ягод.

В итоге мы обычно ассоциируем слово cherry с вишней, хотя оно буквально звучит как cherreshnya 🍒
1😁14🍓8👾1
А моему каналу сегодня исполняется годик! 🌸

По этому случаю сделаю дайджест топовых постов за год:
1. Лингвистика в векторах
2. Этимология слова пенис
3. Очень черный пост про кофе
4. На день святого Валентина
5. Почему ученым положено брать целый год отпуска
6. Лучшее блюдо в макдональдсе
7. Пупа и лупа
8. Это фиаско, братан!
9. Подшофе

А еще мне можно кидать донаты, и тогда посты будут выходить чаще!
Способов поддержать несколько, например такие:
❤️донатами https://news.1rj.ru/str/tribute/app?startapp=dhnK
❤️ звездочками под постами
❤️ бустами канала https://news.1rj.ru/str/boost/lingua_programma
Please open Telegram to view this post
VIEW IN TELEGRAM
25🎉12🔥11🍓43👍1👏1👾1
Как исправить все опечатки ⚡️
〰️〰️〰️〰️〰️〰️〰️〰️〰️〰️〰️〰️

Самое важное тут - понять, насколько введенное слово похоже на какое-то другое существующее. Например, интуитивно понятно, что слово пупа больше похоже на лупа, чем на луна. Эту похожесть можно формализовать через расстояние Левенштейна.

📌Расстояние Левенштейна - это минимальное количество вставок, удаления или замены одного символа, которое нужно, чтобы из строки1 получить строку2

📌 Еще есть расстояние Дамерау-Левенштейна. Здесь к односимвольным операциям добавляется транспозиция - когда два соседних символа меняются местами.

Чтобы получить из слова пупа слово лупа, нам потребуется одна замена, а чтобы получить слово луна - две, поэтому расстояния равны 1 и 2 соответственно.

Что делать, если для введенной строки с опечаткой есть несколько слов, которые находятся на одинаковом расстоянии?
🟢 Выбрать самое частотное слово. Например лупа, папа и попа требуют всего 1 замену от слова пупа. Из всех трех кандидатов наиболее частотное слово - это папа
🟢 Добавить цену операциям. Например, ошибки транспозиции более частотны, поэтому можно снизить для этой операции цену
🟢 При замене учитывать сами символы, которые заменяются. Например, в раскладке QWERTY ошибка c Q на W более вероятна, чем Q и Y , а неграмотные люди чаще путают А и О, чем А и Б

Этим алгоритмом считают разницу строк все спеллчекеры, git diff и даже гугол
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥164😁1👾11
Я переехала, и теперь учу язык методом соотношения с реальными объектами

Сегодня речь о таком объекте реальности как одуван 🌼

На немецком он явно подписан как Löwenzahn. Löwe это лев 🦁 и Zahn это зуб 🦷. Выглядит нелогично, я погуглила и оказалось, что метафора в том, что представленные на картинке листья имеют характерные острые края, которые похожи на клыки

Окей, но откуда львы в северной Европе? Погуглила дальше и выяснила, что это просто калька с латинского dens leonis, а вот римская империя в лучшие свои годы точно пересекалась с ареалом львов, так что сравнение становится логичным

Из латинского оно попадает во французский как dent de lion, чтобы потом превратиться в уже знакомое dandelion
🍃🌼🍃
Please open Telegram to view this post
VIEW IN TELEGRAM
1125🔥11👏11🤯44👾1