مرجع دیتاست فارسی – Telegram
مرجع دیتاست فارسی
3.19K subscribers
24 photos
2 videos
22 files
350 links
لطفا برای معرفی و درج دیتاست خود داخل کانال به @data_hub پیام دهید.
Download Telegram
یک دیتاست فارسی برای پروژه های مربوط به اینترنت اشیا و smart home

🗃 نوع: #متن

📖 توضیحات:
یک دیتاست جالب مناسب برای تسک‌های مربوط به اینترنت اشیا

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://github.com/sepehrhashtroudi/persian-dataset-for-smarthome

لطفا به اشتراک بگذارید👈🏻@persian_data
داده های گرداوری شده فارسی از توئیتر
🗃 نوع: #متن

📖 توضیحات:
این دیتای خام که پیش پردازش نشده برای تسک هایی مثل مدل زبانی مناسب است.
📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://github.com/00989125864520/raw-data

لطفا به اشتراک بگذارید👈🏻@persian_data
تاریخچه قیمت شرکت های بورسی ایران
نوع : #mat.
📖 توضیحات :
دیتاست مربوط به سهام شرکت های بورسی داخل ایران هست مثل فملی و ...
در مجموع دیتا ۴۳ شرکت گردآوری شده
این دیتاست در مجموع شامل ۶۰۰۱۵۸ سطر با ۳۸ ستون
برای تحلیل و پیش بینی قیمت سهام شرکت ها مناسب است.

لطفا به اشتراک بگذارید👈🏻 @persian_data

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇
https://www.kaggle.com/hocohelper/securities-and-exchange-iran
دیتاست بیماران مبتلا به کرونا

🗃 نوع: #متن

📖 توضیحات:
Covid-patient-datasets

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://github.com/amirshnll/Covid-patient-datasets/

لطفا به اشتراک بگذارید👈🏻 @persian_data
دیتاست 105هزار کتاب چاپی ایران

🗃 نوع: #متن

📖 توضیحات:
دیتاست ۱۰۵هزار کتاب چاپی ایران مناسب برای تسک هایی مثل مدل زبانی

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://github.com/mahmoud-eskandari/PersianBooksDataset

لطفا به اشتراک بگذارید👈🏻 @persian_data
مجموعه داده اطلاعات 179301 اپلیکیشن کافه بازار
🗃نوع: tabular
📖 توضیحات:
مجموعه داده کافه بازار شامل اطلاعات 179301 اپلیکیشن در این مارکت هست که تا تاریخ 30 اسفند 99 منتشر شدن. این اطلاعات با خزش صفحات وب کافه بازار به دست اومدن که شامل این ویژگی هاست: اسم اپلیکیشن، دسته بندی، امتیاز، تعداد نظرات ثبت شده، حجم، دسته بندی بر اساس تعداد نصب، نوع اپلیکیشن (پولی یا رایگان یا پرداخت درون برنامه ای)، قیمت، نام توسعه دهنده، لینک صفحه توسعه دهنده، اسم پکیج، گونه (برنامه/ بازی)، تعداد تخمینی نصب، شماره نسخه، حجم جریان ترافیک (برحسب تعداد نصب)، میزان فروش و نسبت تعداد نظر به ازای تعداد نصب.
لینک دریافت داده ها:
https://github.com/arshin1989/CafeBazaar

لطفا به اشتراک بگذارید👈
@persian_data
مجموعه تصاویر محصولات دیجی‌کالا
🗃نوع: #تصویر
📖 توضیحات:
یکسری تصویر از محصولات دیجی‌کالا که بر اساس رنگ‌بندی در پوشه‌های مختلف قرار گرفتند. که توی پروژه‌های تشخیص رنگ کمک کننده است.

لینک دریافت داده ها:
https://www.kaggle.com/masouduut94/digikala-color-classification

لطفا به اشتراک بگذارید👈
@persian_data
دیتاست کوید19
🗃نوع: #متن
📖 توضیحات:
مقاله COPER شامل دو دیتاست COVID-19 Articles و PerSICK بوده که مناسب تسک های Information Retrieval و Semantic Textual Similarity هستند. دیتاست اول شامل 3,500 مقاله مربوط به کرونا بوده (هر مقاله شامل عنوان و متن) و دیتاست دوم نیز شامل 3,000 جفت جملات فارسی بوده که هر جفت از نظر میزان شباهت معنایی از 1 تا 5 امتیازدهی شده‌ است.

لینک دریافت داده ها:
https://github.com/Ledengary/COPER

لطفا به اشتراک بگذارید👈
@persian_data
A collection of Farsi (Persian) datasets

🗃 نوع: #متن

📖 توضیحات:
اخبار و ویکی پدیا فارسی

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://github.com/sci2lab/Farsi-datasets

لطفا به اشتراک بگذارید👈🏻 @persian_data
Iranian politicians twitter dataset persian

🗃 نوع: #متن

📖 توضیحات:
دیتاست کامل توییت‌های سیاسیون ایرانی در توییتر برای کارهای پردازش متن یا پردازش زبان‌های طبیعی

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://github.com/miladfa7/Iranian-politicians-twitter-dataset-persian

لطفا به اشتراک بگذارید👈🏻 @persian_data
دیتاست های فارسی اینستاگرام

🗃 نوع: #متن

📖 توضیحات:
دیتاست‌های فارسی اینستاگرام جهت تمرین و تحقیقات
۱ - دیتاست پیچ نماوا (کامنت‌ها و کپشن‌های پیچ نماوا)
۲ - دیتاست پیچ فیلیمو (کامنت‌ها و کپشن‌های پیچ فیلیمو)

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://github.com/socialonet/iran-instagram-dataset

لطفا به اشتراک بگذارید👈🏻 @persian_data
متن خام فارسی

🗃 نوع: #متن

📖 توضیحات:
Persian raw text - حدود ۸۰ گیگابایت متن خام فارسی

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://github.com/persiannlp/persian-raw-text

لطفا به اشتراک بگذارید👈🏻 @persian_data
اسامی فارسی

🗃 نوع: #متن

📖 توضیحات:
اسامی اماکن و اشیا

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://github.com/mrahimygk/persian-data

لطفا به اشتراک بگذارید👈🏻 @persian_data
مجموعه اشعار مختلف فارسی

🗃 نوع: #متن

📖 توضیحات:
شامل متن اشعار، ایست واژه ها و کد کرالر. این داده ها برای ایجاد مدل زبانی و nlg توصیه می شود.


📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://github.com/amnghd/Persian_Literature_DataBase

لطفا به اشتراک بگذارید👈🏻 @persian_data
Some datasets for ML and Datascience

🗃 نوع: #متن

📖 توضیحات:
یک ریپ از مجموعه دیتاست‌های فارسی که یکم بهم ریختس ولی میشه بین فایلها، دیتا خوب پیدا کرد کی دو تا تحلیل فارسی هم هست که دید خوبی به خواننده میده

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://github.com/skorani/persian-dataset

لطفا به اشتراک بگذارید👈🏻 @persian_data
یک دیتاست جالب برای استخراج کلمات کلیدی

🗃 نوع: #متن

📖 توضیحات:
This repository contains two proposed annotated datasets for automatic keyphrase extraction task. Every dataset contains a document (. txt) and its corresponding text body and text gold-standard keywords list

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://github.com/HamidHabibzadeh/KeyphraseExtractionDataset/blob/master/PersianNewsDataset.txt

لطفا به اشتراک بگذارید👈🏻 @persian_data
یک ابزار رایگان کاربردی

🗃 نوع: #سورس_کد

📖 توضیحات:
بارها شده دلمون بخواد فایل pdf فارسی تبدیل کنیم ولی امکانش نبوده . این ابزار رایگان یک کدی هست که به پایتون نوشته شده و هدفش تبدیل pdf هست(حتی pdfهایی که از نوع تصویر هستند)

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://github.com/mmahdibarghi/pdf2txt

لطفا به اشتراک بگذارید👈🏻 @persian_data
این اوج بی اخلاقیه(یک نوع دزدی)!
پست کانال خط به خط کپی کنند
و اسم ناشر حذف کنند.

پ.ن: چون قبلا هم این کار انجام داده بودند مجبور شدم الان تذکر بدم.
👍1
اگر هدفتون یادگیری پایتون هست و دنبال یک سری تمرین ساده تا پیچیده هستین توصیه می کنم این ریپ از دست ندین
توضیحات دوستمون در مورد ریپ خوبش:
این مخزن شامل تمرین های من در هنگام یادگیری زبان پایتون می شود . همچنین ترجمه فارسی مسائل سایت پروجکت اویلر هم قرار داده شده است.
https://github.com/siniorone/Project-Euler

@persian_data
من اين ديتاست رو با جمع اوري اطلاعت سايت شيپور ساختم. با كمك selenium و beautifulsoap . داده ها كاملا واقعي هستن ويژگي هاي مثل متراژ، ادرس به انگليسي، تعداد اتاق خواب، اسانسور، انباري، پاركينگ ودر نهايت قيمت به تومان و دلار رو شامل ميشه. اميدوارم براتون مفيد باشه. ميتونه تمرين خيلي خوبي براي regression باشه و حس خوبي بهتون بده چون داده ها اشنا به نظر ميان ( همگي مربوط به شهر تهران هستن)
https://www.kaggle.com/mokar2001/house-price-tehran-iran
لطفا به اشتراک بگذارید👈🏻 @persian_data
دیتاست PersainTelegramData شامل داده های حدودا 500 کانال تلگرامی هست که در یک بازه زمانی دو هفته ایی جمع آوری شده است و مناسب تسک هایی مثل تحلیل داده های یک کانال خاص و یا پیش بینی هشتگ ها و کلمات کلیدی یک متن و یا پیش بینی زمان بعدی ارسال پست توسط یک کانال (مسئله سری زمانی) می باشد

@persian_data

https://github.com/rominaoji/PersianTelegramData