лингвист-программист – Telegram
лингвист-программист
235 subscribers
44 photos
11 links
Автор этого канала программист по образованию и лингвист в душе.
Авторский контент в необычной гуманитарно-технической нише.
Можно донатить сюда: https://news.1rj.ru/str/tribute/app?startapp=dhnK
Download Telegram
Когда не знаю, как сказать какое-то слово на немецком, придумываю его сама. Нэйтивы вообще-то тоже так делают. Словообразование - это киллер фича этого языка.

Недавно для подготовки к экзаменам попался текст про зевание, и авторы употребили слово mitgahnen, где mit- приставка совместного действия и gahnen - зевать. В общем так передали смысл, что зевота заразна.

А мне надо было как-то обозначить людей, которые подверглись этой заразной зевоте. Добавила профессиональный суффикс er и получилось mitgahner - те, кто зевают одновременно. Созеватели.
7😁18🥱6👍3🔥1🌭1👾1
Мечтать не вредно 🌙

Сегодня в гостях очень простая, изящная и на мой взгляд совершенно утопическая идея. Теорема Ферма в мире лингвистики.

Идея состоит в том, что все слова языка можно свести к какому-то небольшому множеству простейших слов, и можно выразить любую мысль, используя только эти элементарные слова.

Например, бабушка = мама родителя. Мама = родитель-женщина. Можно дальше раскладывать слова на составляющие, и когда появится слово, которое разложить не получается - значит, мы нашли элементарное слово. Такое слово называется семантическим примитивом.

Вот несколько примеров:
🟢 я, ты, что-то
🟢 думать, хотеть
🟢 хороший, плохой
🟢 сейчас, до, после
🟢 этот, другой
Можете для эксперимента взять любое слово и попробовать дать ему определение. Все слова в вашем определении будут гораздо более сложными концепциями, чем определяемое слово.

Считается, что любое слово и фразу можно выразить через множество простейших слов, вот так определяется фраза "Он был рад":
1. этот кто-то думал так в некоторое время:
- "много хорошего сейчас происходит со мной, как я хочу
- я могу делать многое, как я хочу
- это хорошо"
2. поэтому этот кто-то чувствует что-то хорошее в это время
- как люди часто чувствуют, когда они думают так некоторое время


Ни один адекватный носитель языка так не скажет! Реальность совсем не щадит теорию семантических примитивов. А еще есть всякие многозначные слова, метафоры и фразеологизмы, смыслообразующие суффиксы, и ничего из этого автор теории не объясняет.

Но я не просто так считаю эту теорию утопической. В реальных языках она может быть и не жизнеспособна, но мне кажется, у нее есть большие перспективы в natural language processing & understanding. Может быть, вместо нейросеток, которые выдают просто агрегацию естественных текстов, на которых они учились, у нас получится научить компьютеры доказуемому языку 🤷‍♀️
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥1152🤔1👾1
Кредит доверия

Credere в латинском означало «верить». Отсюда много общих слов:

🔘кредит - сумма, которую вам доверяют в долг, потому что верят, что вы ее вернёте
🔘кредо - чьи-то жизненные убеждения
🔘creed - убеждения/вера
🔘credentials - какой-то токен, по которому доверяют доступ к ресурсу

Вот так и получается, что «кредит доверия» - это масло масленное 🧈
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥15👍74👾1
bang bang 💥

На французском шар - это boule, шарик поменьше - это boulette.
🟢 Первое, boule, попало в русский и стало словом пуля
🟢 Второе, boulette, попало в английский и стало bullet

Слово бюллетень тоже из этого ряда. Я изначально думала, что bulletin это из-за bullet points ( 🟢 кружочки, маркирующие элементы списка), потому что в бюллетени есть и список и кружочек для галочки, но оказалось, что все не так...

Когда греки придумали демократию (которая почему-то работала только для мужчин не-рабов) им нужно было придумать и систему голосования. Тогда они поставили две урны и кидали камешки в соответствующую урну, чтобы обозначить свой выбор. Тот же принцип использовали в средневековой Венеции, но рандомные камешки заменили на специальные шарики - balotta. Когда подсчитывали шарики, то кандидатам начисляли баллы, а позднее появились слова баллотироваться и бюллетень
Please open Telegram to view this post
VIEW IN TELEGRAM
113👍6👏3👎1👾1
В чем сила?

В муке 💪

В немецком есть слово die Stärke - сила, но оно так же является сокращением от Stärkemehl = сила + мука. Тут важно ударение, "сильная мука" это не про эмоции, а про вещественный мир. А еще в немецком есть синоним силы: Kraft, поэтому в регионах сильную муку могли назвать Kraftmehl.

Если пока еще не сложился пазл, какая именно сильная мука может называться крафтмель, то раскрутим историю дальше: это слово через польское krohmal попало в славянские языки и стало крахмал. А сила в том, что при накрахмаливании ткань становится жесткой и не мнется.
1🌚113🔥2👾2👍1
У меня есть любимый префикс в немецком. Он все делает величественным

Sache - причина ➡️ Ursache - первопричина
Oma - бабушка ➡️ Uroma - прабабушка, прародительница
Zeit - время ➡️ Urzeit - доисторическое время

В общем, это что-то первобытное, оригинальное, архаичное.

Префикс ur- означает примерно то же, что и proto- . Proto в греческом означало "первый"

Я знаю 5-10 немецких слов, которые часто используются с этой приставкой, но я предлагаю использовать ее всегда и называть фортран Urcode📌
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥13👍73👾2
Мне было сегодня лет, когда я узнала, что шуры-муры это что-то на французском. Тут сочетаются слова сher и amour, так что получается, что шуры-муры - это доргой-любимка ❤️

Что такое хухры-мухры, я находила несколько гипотез, и все они выглядят не очень убедительно, но одно я знаю точно: пруфчекинг это вам не хухры-мухры

Накидывайте в комменты свои тыры-пыры и трали-вали, может попадут в следующий пост 😉
115😁12🔥7👾1
Пока сезон, расскажу немыслимое: вишня и черешня это одно и то же!

Слово черешня во всех славянских языках родственно латинскому cerasus и греческому κεράσιον - и вишня, и черешня. Видимо, древние не делали акцент на различии этих ягод.

В итоге мы обычно ассоциируем слово cherry с вишней, хотя оно буквально звучит как cherreshnya 🍒
1😁14🍓8👾1
А моему каналу сегодня исполняется годик! 🌸

По этому случаю сделаю дайджест топовых постов за год:
1. Лингвистика в векторах
2. Этимология слова пенис
3. Очень черный пост про кофе
4. На день святого Валентина
5. Почему ученым положено брать целый год отпуска
6. Лучшее блюдо в макдональдсе
7. Пупа и лупа
8. Это фиаско, братан!
9. Подшофе

А еще мне можно кидать донаты, и тогда посты будут выходить чаще!
Способов поддержать несколько, например такие:
❤️донатами https://news.1rj.ru/str/tribute/app?startapp=dhnK
❤️ звездочками под постами
❤️ бустами канала https://news.1rj.ru/str/boost/lingua_programma
Please open Telegram to view this post
VIEW IN TELEGRAM
25🎉12🔥11🍓43👍1👏1👾1
Как исправить все опечатки ⚡️
〰️〰️〰️〰️〰️〰️〰️〰️〰️〰️〰️〰️

Самое важное тут - понять, насколько введенное слово похоже на какое-то другое существующее. Например, интуитивно понятно, что слово пупа больше похоже на лупа, чем на луна. Эту похожесть можно формализовать через расстояние Левенштейна.

📌Расстояние Левенштейна - это минимальное количество вставок, удаления или замены одного символа, которое нужно, чтобы из строки1 получить строку2

📌 Еще есть расстояние Дамерау-Левенштейна. Здесь к односимвольным операциям добавляется транспозиция - когда два соседних символа меняются местами.

Чтобы получить из слова пупа слово лупа, нам потребуется одна замена, а чтобы получить слово луна - две, поэтому расстояния равны 1 и 2 соответственно.

Что делать, если для введенной строки с опечаткой есть несколько слов, которые находятся на одинаковом расстоянии?
🟢 Выбрать самое частотное слово. Например лупа, папа и попа требуют всего 1 замену от слова пупа. Из всех трех кандидатов наиболее частотное слово - это папа
🟢 Добавить цену операциям. Например, ошибки транспозиции более частотны, поэтому можно снизить для этой операции цену
🟢 При замене учитывать сами символы, которые заменяются. Например, в раскладке QWERTY ошибка c Q на W более вероятна, чем Q и Y , а неграмотные люди чаще путают А и О, чем А и Б

Этим алгоритмом считают разницу строк все спеллчекеры, git diff и даже гугол
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥164😁1👾11
Я переехала, и теперь учу язык методом соотношения с реальными объектами

Сегодня речь о таком объекте реальности как одуван 🌼

На немецком он явно подписан как Löwenzahn. Löwe это лев 🦁 и Zahn это зуб 🦷. Выглядит нелогично, я погуглила и оказалось, что метафора в том, что представленные на картинке листья имеют характерные острые края, которые похожи на клыки

Окей, но откуда львы в северной Европе? Погуглила дальше и выяснила, что это просто калька с латинского dens leonis, а вот римская империя в лучшие свои годы точно пересекалась с ареалом львов, так что сравнение становится логичным

Из латинского оно попадает во французский как dent de lion, чтобы потом превратиться в уже знакомое dandelion
🍃🌼🍃
Please open Telegram to view this post
VIEW IN TELEGRAM
1125🔥11👏11🤯44👾1