مرجع دیتاست فارسی – Telegram
مرجع دیتاست فارسی
3.18K subscribers
24 photos
2 videos
22 files
350 links
لطفا برای معرفی و درج دیتاست خود داخل کانال به @data_hub پیام دهید.
Download Telegram
این یکی دو ماه آینده یک سری پست خفن آماده کردیم و قرار هست بیشتر فعالیت کنیم
👍8
Forwarded from دیتاهاب
🟢 پروژه هوش مصنوعی داری ولی خودت نمی‌تونی|نمی‌رسی انجام بدی؟
🟢 واسه انتخاب موضوع پایان‌نامه یا پروپوزال، نیاز به مشاوره و همفکری داری؟
🟢 می‌خوای مقاله بنویسی ولی ایده جدید به ذهنت نمی‌رسه؟

🎯 همین الان پروژه خودت رو ثبت کن تا سریع تر بتونی کارات رو تموم‌ کنی و خیالت راحت باشه.

📞 09938013176
🌐 ثبت سفارش از طریق سایت | 📲 ثبت سفارش از طریق تلگرام
👍3
https://github.com/sandstorm12/persian_readability_dataset


دیتاست فارسی که واقعا کمیابه و باید قدرشو دونست. مثلا این دیتاست واسه بحث خوانایی کلمات و متون هستش. یه کاربردش کمک به ساخت آزمون خودکار واسه زبان آموزهاست یا کمک به تولید محتوا و سئو
👍2
ما چند ماه پیش یک دیتاست فارسی برای تسک intent detection و slot filling برای زبان فارسی ساختیم که از روی همون آتیس انگلیسی هست

https://github.com/Makbari1997/Persian-Atis

https://arxiv.org/abs/2303.00408

این ها هم لینک مقاله و دیتاست هستن
👍3
اخیراً ۳ تا دیتاست از داده های توییتر رو تو لینکدینم منتشر کردم که با کوئری های
«اسنپ»، «تپسی»و «threads» گرفته شدن
هر کدوم شامل ۱۰ هزار توییت به همراه اطلاعات جانبی هر توییت (اطلاعات کاربری، تعداد لایک و ری‌توییت و کامنت و ...)
لینک پست لینکدین مربوط به دیتاست ها رو این پایین قرار میدم،
امیدوارم به دردتون بخوره


https://www.linkedin.com/posts/sajad-khanbabaie-b5b38123a_snap-tapsi-10k-activity-7085971422241517568-JwBq?utm_source=share&utm_medium=member_android

https://www.linkedin.com/posts/sajad-khanbabaie-b5b38123a_threads-in-twitter-activity-7088952319853125632-7OGv?utm_source=share&utm_medium=member_android
👍9
سلام روزتون بخیر
این دیتاست رو دیروز جمع آوری کردم.
مرتبط با آگهی‌های استخدامی توی سایت جابینجاست، چیزی حدود 26 هزار داده و 16 ستون داره.

لینک گیتهاب به همراه اسکریپت و نوتبوک‌ها:
https://github.com/Hexanol777/Jobinja-Crawler
لینک کگل:
https://www.kaggle.com/datasets/maminkheneifar/jobinja-job-listings-26k
👍4
خوشحالیم که بعد از مدت‌ها، نسخه جدید هضم آماده شد. در این نسخه:

• مشکل سازگاری با ویندوز را حل کردیم.
• مستندات پروژه را کامل‌تر کردیم.
• بازنمایی‌های واژه‌ای و جمله‌ای را روی انبوه نوشته‌ها آموزش دادیم.
• نرمال‌سازی نوشته‌ها را دقیق‌تر کردیم.
• دقت تحلیل صرفی و تجزیه سطحی را افزایش دادیم.
• از برچسب‌های صرفی و نحوی یونیورسال استفاده کردیم.
• کدها را با آخرین نسخه پایتون سازگار کردیم.

🔸 توضیحات کامل‌تر در مورد نسخه جدید هضم

🔸 می‌توانید پروژه متن‌باز هضم را در GitHub تعقیب کنید:
https://github.com/roshan-research/hazm
👍7
https://github.com/GolaraRFI/persian-tokenizers

یک کار درست حسابی و مفید واسه پردازش زبان طبیعی فارسی. یک فردی اومده 4تا توکنایزر معروف واسه فارسی با هم مقایسه کرده. پس اگر براتون سواله ک واسه توکنایزر فارسی هضم بهتره یا پارسی ور یا حتی Nltk. حتما نتایجش بخونین.
👍9
https://github.com/professormahi/awesome-services-4-iranian-developers


یک لیست خفن از ابزارهای مناسب واسه دولوپرهای ایرانی
👍2
https://github.com/Amirrezahmi/Mathematica-Wolfram-notebooks

این مخزن شامل نوت بوک هایی است که در آن دستورات مباحث مختلف ریاضی چون جبرخطی، حسابان و ترسیم نمودار ها آورده شده. توضیحات هر دستور به زبان فارسی در پوشه denoscriptions آورده شده.
👍2
Forwarded from دیتاهاب
جبر خطی بهمون کمک میکنه خیلی از مفاهیمی که هر روز توی پروژه‌های هوش مصنوعی استفاده می‌کنیم رو بهتر درک کنیم.

دوره جبر خطی دیتاهاب هم توی کانال یوتیوب و هم توی سایت قرار گرفته و خیلی ساده نکات کاربردی جبر خطی رو توضیح میدیم.

کافیه 3 ساعت وقت بذاری و بعد از اون قطعا دیدت نسبت به کدهایی که هر روز میزنی تغییر میکنه.

قراره چی یاد بگیریم؟
ماتریس‌ها که پایه و اساس کار هستن، پس بیشتر دربارشون حرف میزنیم.
بعدش میریم سراغ کاربرد جبر خطی توی شبکه عصبی و پروژه‌های هوش مصنوعی

🌐 جبر خطی در کانال یوتیوب
🌐 جبرخطی در سایت دیتاهاب

🆔 @data_hub_ir
👍4
https://github.com/amirroox/Persian-Developer-Roadmap

نقشه راه برای توسعه دهندگان برای پیشرفت بهتر

یکی از سوالات رایج برنامه نویسان این است که برنامه نویسی را از کجا شروع کنیم؟ و چگونه پیشرفت کنیم؟

از آنجایی که اکثر دوستان برای ورود به دنیای کامپیوتر و برنامه نویسی با مشکلات زیادی مواجه بودند و با سوالات زیادی مواجه می شدند، تصمیم گرفتیم برای افرادی که نمی دانند از کجا شروع کنند یا افرادی که به سطح قابل قبولی از دانش رسیده اند اما برای پیشرفت نمی داند چه چیزی را شروع کنند، یک انجمن راه‌اندازی کنیم.
یک دوست خوش ذوقی یک کرالر واسه سایت ایران داک نوشته و بعد از استخراج داده ها، به کمک شبکه پیچیده گراف همکاری بین رشته ای ترسیم کرده، این مدل کدها بابه مقاله نوشتنه...


https://github.com/tekboart/SNA-thesis
👍6
واسه نرمالسازی متون فارسی یکی از سخت ترین چالشها، اصلاح غلطهای گرامری هست
حالا یک دیتاست واسه این چالش معرفی می کنیم که میتونه کمک زیادی به بهبود سیستم های جاری کنه


https://github.com/leilaakbari/PVGED--Persian-Verb-related-Grammatical-Errors-Dataset
👍4
https://github.com/MrTaravat/technical-analysis-burse-iran
پروژه پایانی کارشناسی تحلیل تکنیکال نمودار سهام و پیش بینی از طریق روش های ماشین لرنینگ
که هم کد و هم گزارش داره

پ.ن: طبق این کد، معامله کردید و ضرری حاصل شد مسئولیتش با خودتون.☺️
👍3