مرجع دیتاست فارسی – Telegram
مرجع دیتاست فارسی
3.18K subscribers
24 photos
2 videos
22 files
350 links
لطفا برای معرفی و درج دیتاست خود داخل کانال به @data_hub پیام دهید.
Download Telegram
یک ریپ جامع و کامل در زمینه استخراج کلمات کلیدی فارسی
تقریبا اکثر روش ها توی این پکیج هست و کار راه بندازه...

https://github.com/AlirezaTheH/perke
👍3
یک پروژه جالب و همراه با دیتاستش معرفی می کنم که هدفش تشخیص فونت های فارسی هست. طبیعتا با یک مساله دسته بندی روبرو هستیم که از شبکه های عصبی استفاده شده.

https://github.com/MehdiSadeghi1994/PersianFontRecognition
یک کتاب آموزش به زبان فارسی واسه پایتون
خیلی مفصل گفته و مخصوص کسایی هست که قصد دارن از جونیور به سینیور حرکت کنن

https://github.com/salinourian/Python-Tutorial
سیگنال‌های گفتاری 286 کودک (141 دختر، 145 پسر)، در سنین 6 تا 9 سال. این داده های ثبت شده به صورت دستی بررسی و برچسب گذاری شدند. این دیتاست شامل 162395 نمونه با مدت زمان 33 ساعت و 44 دقیقه است. مجموعه گفتار آماده شده به ویژه برای بازشناسی گفتار و مطالعات زبانشناسی کاربرد دارد. به طور جامع شامل تمامی 29 واج فارسی، 118 هجا، 56 زیر کلمه و 711 کلمه می باشد.

https://github.com/DSP-UT/Persian-Kids-Speech-Data-Set
👍11
یک ابزار باحال و حرفه ای خصوصا واسه طراحی گرافیکی و زیبای شبکه های عصبی عمیق (خصوصا کارهای مربوط به vision)

https://github.com/alexlenail/NN-SVG
اگر دنبال ایده واسه نوشتن مقاله هستید کد و دیتاست حتما نگاه کنید
دست روی موضوعی گذاشته که روی فارسی کم کار شده

https://github.com/faezeh-lbf/Probing-Persian-Language-Models
👍5
This is Persian dataset that is crawled from Twitter, and is used in the paper noscriptd "Persian Sentiment Analysis via a Transformer Model concerning Banking Sector"

https://github.com/soheil2017/Banking-Persian-dataset
👍3
اینقدر این دیتاست جذاب بود که نگم
خب تورم یار همیشگی ما توی کشوره
حالا فرض کنید یک دیتا کامل و پیش پردازش شده از اجناس و قیمت هاشون داشته باشید...

https://github.com/Iran-Open-Data/HBSIR
👍8
یک دوستی لطف کردن و یکسری از جدیدترین متدها مثل t5 روی زبان فارسی واسه دوتا تسک از جمله خلاصه سازی فاین تیون کردن. کارش ارزشمنده و همین ک کدها گذاشتی بانی خیر شده

https://github.com/Ali-Fartout/NLP_Toolbox
👍10
چ دیتاستی
این مجموعه داده به صورت تصادفی از پایگاه داده یک شرکت مخابراتی ایرانی در مدت 12 ماه جمع آوری شده است. در مجموع 3150 ردیف داده که هر کدام یک مشتری را نشان می دهد، حاوی اطلاعات 13 ستونی است. ویژگی هایی که در این مجموعه داده وجود دارد عبارتند از عدم موفقیت تماس، دفعات پیامک، تعداد شکایات، تعداد تماس های متمایز، طول اشتراک، گروه سنی، مبلغ شارژ، نوع سرویس، ثانیه استفاده، وضعیت، دفعات استفاده و مشتری. ارزش. همه ویژگی ها به جز ویژگی ریزش داده های جمع آوری شده 9 ماه اول است. برچسب های ریزش وضعیت مشتریان در پایان 12 ماه است.

https://github.com/Sabreen-Nazar/Iranian_Churn
👍9