مرجع دیتاست فارسی – Telegram
مرجع دیتاست فارسی
3.19K subscribers
24 photos
2 videos
22 files
350 links
لطفا برای معرفی و درج دیتاست خود داخل کانال به @data_hub پیام دهید.
Download Telegram
دیتاست ویکی پدیا فارسی شامل تمامی مقالات فارسی

🗃 نوع: #متن

📮 اندازه: 804.48 MB

📖 توضیحات:
دیتاست ویکی پدیا فارسی شامل تمامی مقالات فارسی تا تاریخ ۱۲ مرداد ۱۳۹۹



📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/miladfa7/persian-wikipedia-dataset

لطفا به اشتراک بگذارید👈🏻
@persian_data
Dataset for teenagers chat in Telegram groups

🗃 نوع: #متن

📮 اندازه: 23.73 MB

📖 توضیحات:
Dataset for teenagers' chat in Telegram groups (Persian)

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/rezaali/dataset-for-teenagers-chat-telegram-group-persian

لطفا به اشتراک بگذارید👈🏻 @persian_data
دیتاست نظرات دیجی کالا

🗃 نوع: #متن

📮 اندازه: 18.75 MB

📖 توضیحات:
این مجموعه داده شامل حدود ۱۰۰۰۰۰ هزار نظر در سایت دیجی کالاست که برچسب دار است. این داده مناسب برای تحلیل احساسات و سیستم‌های توصیه‌گر است.

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/saeedtqp/persian-digikala-reviwes

لطفا به اشتراک بگذارید👈🏻@persian_data
مجموعه اخبار قدیمی فارسی تمیزشده

🗃 نوع: #متن

📮 اندازه: 5.61 GB

📖 توضیحات:
The HC Corpora was a great resource that contains natural language text from various newspapers, social media posts and blog pages in multiple languages. This is a cleaned version of the raw data from newspaper subset of the HC corpus.


📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/alvations/old-newspapers

لطفا به اشتراک بگذارید👈🏻 @persian_data
Persian Speech Emotion Detection Database

🗃 نوع: #صوت

📮 اندازه: 1014.24 MB

📖 توضیحات:
The database includes ۳۰۰۰ semi-natural utterances, equivalent to ۳ h and ۲۵ min of speech data extracted from online radio plays.

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/mansourehk/shemo-persian-speech-emotion-detection-database

لطفا به اشتراک بگذارید👈🏻 @persian_data
تصاویر ماشین‌های داخل سایت دیوار

🗃 نوع: #تصویر

📖 توضیحات:
یکی از برنامه نویسای باحال لطف کرده و دیتاستی از ماشین‌های ایرانی از سایت دیوار کرال کرده که براساس اسم ماشین پوشه‌بندی شدند.

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://github.com/farshadnp/IranianVehiclesPicture

لطفا به اشتراک بگذارید👈🏻@persian_data
pos_persian

🗃 نوع: #متن

📮 اندازه: 3.05 MB

📖 توضیحات:
دیتاست مربوط به part of speech کلمات فارسی (این دیتاست مناسب برای پیش پردازش متون فارسی است)

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/miladmolazadeh/pos-prsian

لطفا به اشتراک بگذارید👈🏻@persian_data
1
تصاویر ارقام دست نویس فارسی

🗃 نوع: #تصویر

📮 اندازه: 29.1 MB

📖 توضیحات:
My first foray into ML was the MNIST data set. I was curious if there existed one with Arab/Farsi numbers and if the process and outcomes would be any different.

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/fitnesschum/arab-fari-mnist

لطفا به اشتراک بگذارید👈🏻
@persian_data
Virgool Dataset

🗃 نوع: #متن

📮 اندازه: 58.89 MB

📖 توضیحات:
This is a set of Persian articles gathered from virgool. io

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/mehranrafiee/persian-articles-for-labeling

لطفا به اشتراک بگذارید👈🏻 @persian_data
مجموع اشعار فارسی

🗃 نوع: #متن

📮 اندازه: 61.49 MB

📖 توضیحات:
اشعار ۴۸ شاعر ایرانی که مناسب برای تسک هایی مثل سات مدل زبانی و text generator است.

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/aminghd/large-corpus-of-farsi-poems

لطفا به اشتراک بگذارید👈🏻@persian_data
اگر شما هم به حوزه‌هایی مثل تحلیل داده، مهندسی داده و هوش تجاری علاقه‌مند هستید پس احتمالاً دنبال یک فرصت شغلی مناسب در یکی از این حوزه‌ها هستید. بررسی فرصت‌های شغلی باتوجه‌به تعداد زیاد سایت‌ها کاری زمان‌بر و گاهی کسل‌کننده هست. ما در دیتاجابز به‌صورت مداوم، جدیدترین آگهی‌های شغلی مربوط به حوزه داده را از سایت‌هایی مثل جاباینجا و جاب‌ویژن گردآوری می‌کنیم. هدف ما ساده‌تر کردن کار شما و صرفه‌جویی در زمان شماست.

👉 @data_jobs

افراد مختلف به‌راحتی و مستقیماً می‌توانند آگهی‌های شغلی مربوط به کسب‌وکار خودشان را در دیتاجابز درج کنند مثل نمونه فرصت های شغلی مربوط به شرکت هایی مثل اسنپ و شیپور که مستقیما توسط کارکنان این شرکت ها درج شده است.

👉 @data_jobs

همچنین برای افراد نوورود حوزه داده هم فکری شده و فرصت‌های کارآموزی پوشش داده می‌شود.

👉 @data_jobs
اعداد فارسی

🗃 نوع: #تصویر

📮 اندازه: 10.61 MB

📖 توضیحات:
Introducing a very large dataset of handwritten Farsi digits and a study on their varieties.
HODA dataset is the first dataset of handwritten Farsi digits that has been developed during an MSc. project in Tarbiat Modarres University ennoscriptd: Recognizing Farsi Digits and Characters in SANJESH Registration Forms. This project has been carried out in cooperation with Hoda System Corporation.

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/hamedetezadi/persian-numbers

لطفا به اشتراک بگذارید👈🏻 @persian_data
اطلاعات مربوط به زلزله در ایران

🗃 نوع: #جدولی

📮 اندازه: 913 KB

📖 توضیحات:
Earthquakes, happened in Persian empire, throughout history. It will be helpful for whom searching the patterns of tectonic movements.

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/mehrdat/irans-earthquakes

لطفا به اشتراک بگذارید👈🏻@persian_data
Persian Consonant Vowel Combination

🗃 نوع: #صوت

📮 اندازه: 258.41 MB

📖 توضیحات:
This dataset is the first phoneme based speech dataset in the entire world and also the first free Persian speech dataset to help Persian speech researchers. It is not only what you see.

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/sabermalek/pcvcspeech

لطفا به اشتراک بگذارید👈🏻 @persian_data
تصاویر حروف فارسی

🗃 نوع: #تصویر

📮 اندازه: 634.92 KB

📖 توضیحات:
There's a story behind every dataset and here's your opportunity to share yours.
۵۰*۵۰ Images of Persian letters (without dots) with ۳۲ Different Fonts.

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/sabermalek/plf50

لطفا به اشتراک بگذارید👈🏻@persian_data
متن فارسی کتاب هری پاتر

🗃 نوع: #متن

📮 اندازه: 771.71 KB

📖 توضیحات:
به کمک این دیتاست و تهیه نسخه اصلی کتاب می‌توان یک مجموعه داده مناسب برای ترجمه ماشینی تولید کرد.

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/mchavoshi/harry-potter-book1-farsi

لطفا به اشتراک بگذارید👈🏻 @persian_data
قیمت خانه های تهران
نوع: #جدولی

📖 توضیحات:
این دیتاست شامل 12383 سطر با 9 ستون هست که از سایت دیوار گرداوری شده است. این دیتای برای پیش بینی قیمت خانه و اجاره مناسب است.

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇
https://www.kaggle.com/amiralimadadi/tehran-housing
لطفا به اشتراک بگذارید👈🏻 @persian_data
Forwarded from پست دیتاست
Persian word embedding

🗃 نوع: #متن

📖 توضیحات:
Persian word embedding (نشاننده واژه‌ها فارسی | تعبیه سازی کلمات فارسی)

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://github.com/ashalogic/Persian-Word-Embedding

لطفا به اشتراک بگذارید👈🏻@persian_data
Informal Persian Question Answer Dataset

🗃 نوع: #متن

📖 توضیحات:
یک دیتاست جذاب واسه تسک پرسخ و پاسخ

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://github.com/SadeghiHamid/Informal-Persian-Question-Answer-Dataset

لطفا به اشتراک بگذارید👈🏻@persian_data
دیتابیس لغات و اصطلاحات فارسی

🗃 نوع: #متن

📖 توضیحات:
مجموعه نزدیک به ۷۰۰ هزار کلمه فارسی متشکل از فرهنگ لغت معین، کلمات فارسی ویکی پدیا، اشعار فارسی و سایر منابع برای کاربردهای پردازش داده و زبان هر کلمه در یک خط قرار گرفته است

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://github.com/shahind/Persian-Words-Database

لطفا به اشتراک بگذارید👈🏻 @persian_data