Please open Telegram to view this post
VIEW IN TELEGRAM
😁6❤4🌚2
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9😁6❤4👎1😢1🍌1
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3😁3😢3
Please open Telegram to view this post
VIEW IN TELEGRAM
💯4😁3❤2👾1
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5😁5🥰2
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5😁4🤝4🔥1🤣1
Если бы мы знали, что это такое 🌚
Я задался целью, сделать агрегатор телеграм каналов. Самый простой путь — спарсить список у других сервисов, вести свою статистику, добавить свои приколюхи, сделать "и прочее" и отдавать это пользователям.
Как оказалось, другие сервисы позаботились о том, чтоб я не жил богато. Хуй ты там чо спарсишь, если уровень твоего it на уровне креветки. А мой уровень гораздо примитивнее. Примерно как у инфузории. А у них защита от продвинутых айтишников.
Ладно, нельзя спиздить? Будем делать свой. Привет, ChatGPT. Привет, напиши мне скрипт?
Скрипт писался и писался, со ста строк вырос до 500. Не описать словами, что я пережил.
Я научился пуш гит и пул гит. Это, блять, НЕ ПУСТЫЕ СЛОВА, я вам скажу.
Вы, блять, попробуйте работать с одним и тем же скриптом с разных машин, когда сам скрипт крутится на VPS. А у вас ломанный PyCharm.
А вы знали, что если запустить скрипт не в tmux, он, блять, при закрытии сессии в терминале, прекращает свою работу. А я вот не знал. И несколько часов пребывал в радости, что пока я ебланю, он там парсит каналы. Не испытывали вы ту боль, которую я сегодня испытал узнав об этом. Очень больно.
Кстати, вы листали документацию API телеграм? Вы в курсе, что единого списка канало не существует? Я вот в курсе. А как парсить? Документацию я тоже не листал.
ЧЕСТНО — придумал сам. Есть каналы, в которых могут быть упоминания о других каналах. Надо искать такие упоминания, переходить в них, и искать новые упоминания. Но надо с чего-то начать. Руками накидать список не сложно. Сложно заставить ChatGPT родить тебе скрипт который будет работать.
Попутно мне пришла в голову ещё одна идея. Проверять комментаторов парсируемых каналов, и искать у них ссылки на личные каналы. Где так же, могут быть ссылки на другие каналы.
Понимаете масштаб?
Кстати, потом я догадался загуглить вопрос, оказывается, кто-то даже писал подобные скрипты, но они даже близко не так хороши, как мой. Либо я не нашёл подобных.
"Хорошесть" скрипта тут даже определяется не тем, как он может сейчас делать свою работа. А тем, что он во-первых, МОЙ, во-вторых тем, что он сможет делать в будущем.
Как оказалось, вот прям щас узнал на своём опыте, телега блокирует дохуя любопытных, так что скрипт ушёл на паузу по floodwait. Буду ли я ждать? Да. Буду ли я пытаться обойти это с помощью подменных номеров, распаралелливанием процессов, покупкой новых симок? Да. Весь парсинг в труху, но потом.
Цель — 2 500 000 каналов в своей БД, но для создания MVP будет достаточно и сотни-другой тысяч.
Я задался целью, сделать агрегатор телеграм каналов. Самый простой путь — спарсить список у других сервисов, вести свою статистику, добавить свои приколюхи, сделать "и прочее" и отдавать это пользователям.
Как оказалось, другие сервисы позаботились о том, чтоб я не жил богато. Хуй ты там чо спарсишь, если уровень твоего it на уровне креветки. А мой уровень гораздо примитивнее. Примерно как у инфузории. А у них защита от продвинутых айтишников.
Ладно, нельзя спиздить? Будем делать свой. Привет, ChatGPT. Привет, напиши мне скрипт?
Скрипт писался и писался, со ста строк вырос до 500. Не описать словами, что я пережил.
Я научился пуш гит и пул гит. Это, блять, НЕ ПУСТЫЕ СЛОВА, я вам скажу.
Вы, блять, попробуйте работать с одним и тем же скриптом с разных машин, когда сам скрипт крутится на VPS. А у вас ломанный PyCharm.
А вы знали, что если запустить скрипт не в tmux, он, блять, при закрытии сессии в терминале, прекращает свою работу. А я вот не знал. И несколько часов пребывал в радости, что пока я ебланю, он там парсит каналы. Не испытывали вы ту боль, которую я сегодня испытал узнав об этом. Очень больно.
Кстати, вы листали документацию API телеграм? Вы в курсе, что единого списка канало не существует? Я вот в курсе. А как парсить? Документацию я тоже не листал.
ЧЕСТНО — придумал сам. Есть каналы, в которых могут быть упоминания о других каналах. Надо искать такие упоминания, переходить в них, и искать новые упоминания. Но надо с чего-то начать. Руками накидать список не сложно. Сложно заставить ChatGPT родить тебе скрипт который будет работать.
Попутно мне пришла в голову ещё одна идея. Проверять комментаторов парсируемых каналов, и искать у них ссылки на личные каналы. Где так же, могут быть ссылки на другие каналы.
Понимаете масштаб?
Кстати, потом я догадался загуглить вопрос, оказывается, кто-то даже писал подобные скрипты, но они даже близко не так хороши, как мой. Либо я не нашёл подобных.
"Хорошесть" скрипта тут даже определяется не тем, как он может сейчас делать свою работа. А тем, что он во-первых, МОЙ, во-вторых тем, что он сможет делать в будущем.
Как оказалось, вот прям щас узнал на своём опыте, телега блокирует дохуя любопытных, так что скрипт ушёл на паузу по floodwait. Буду ли я ждать? Да. Буду ли я пытаться обойти это с помощью подменных номеров, распаралелливанием процессов, покупкой новых симок? Да. Весь парсинг в труху, но потом.
Цель — 2 500 000 каналов в своей БД, но для создания MVP будет достаточно и сотни-другой тысяч.
🤯4 3❤2 2😎1