مرجع دیتاست فارسی – Telegram
مرجع دیتاست فارسی
3.18K subscribers
24 photos
2 videos
22 files
350 links
لطفا برای معرفی و درج دیتاست خود داخل کانال به @data_hub پیام دهید.
Download Telegram
ورودی مدل‌های یادگیری ماشین داده هست و دیتاست هم توی اینترنت زیاده. ولی بعضی وقتا میخایم روی داده خاصی کار کنیم و لازمه دیتاست رو خودمون بسازیم.

🔸 یک منبع عالی برای این کار سایت‌ها هستن که انواع داده‌ها درباره موضوعات مختلف رو دارن. با وب اسکرپینگ میتونیم این داده‌ها رو جمع کنیم.

توی دوره وب اسکرپینگ که میتونی از کانال یوتیوب دیتاهاب ببینی، با پروژه های عملی داده‌های چندتا سایت رو جمع می‌کنیم. بعد از اون، دیگه فوت و فن کار رو بلدی.

💢 آموزش پروژه محور وب اسکرپینگ 💢

🆔 @persian_data
🆔 @data_hub_ir
🆔 @data_jobs
👍6
انتشار مجموعه داده "Dollar_Rial_Price_Dataset"

در این مجموعه داده، تغییرات قیمت دلار آمریکا به ریال ایران با استفاده از خزنده ما از سال 2011 تا 2023 (در تقویم پارسی 1390 تا 1402) خزش و جمع آوری شده است. که در مجموع 3310 رکورد برای این 13 سال در مجموعه داده ثبت شده است و مناسب کارهای time series prediction برای پیش بینی قیمت دلار و پیش بینی بازارهای مالی ایران است.


نحوه دسترسی به مجموعه داده
این دیتاست در گیتهاب محمد تقی زاده بصورت کاملا رایگان برای علاقه مندان به هوش مصنوعی و بازارهای مالی جمع آوری، پیاده سازی و منتشر شده است که از 3 طریق قابل دسترسی است.
1. گیتهاب: فرمت CSV قابل دسترس است و از اینجا میتوانید دانلود کنید.
2. کگل
3. هاگینگ فیس


توضیحات خزنده و جمع آوری اطلاعات
ویژگی مهم این مجموعه داده این است که، خزنده استخراج کننده قیمت را نیز که با سلنیوم توسعه داده شده در این پروژه منتشر کردیم که می توانید در هر زمان که بخواهید برای به روز رسانی داده ها آن را اجرا کنید. منبع جمع آوری این مجموعه داده سایت https://tgju.org است.
👍6
درسته روشای هوش مصنوعی کلی پیشرفت کردن و مدلای خیلی قوی اومدن، ولی هنوزم با الگوریتمای یادگیری ماشین به راحتی میشه خیلی از مسائل رو حل کرد.

اصلا مگه میشه بگیم مهندس داده هستیم، ولی یادگیری ماشین رو بلد نباشیم 😐

با دوره یادگیری ماشین دیتاهاب میفهمی:
🔸 چطور داده‌ها رو پیش پردازش کنی
🔸 الگوریتم‌های یادگیری ماشین چی هستن و کجا استفاده کنی
🔸 از اول تا آخر یه پروژه چه کارهایی لازمه انجام بدی

روی لینک زیر کلیک کن و توی یک دوره جامع، فوت و فن یادگیری ماشین رو یاد بگیر👇🏻
آموزش یادگیری ماشین به زبان ساده با پایتون

🆔 @persian_data
🆔 @data_jobs
🆔 @data_hub_ir
1👎1
https://github.com/myeghaneh/PAMT
اولین دیتاست فارسی در زمینه Argumentation mining. حالا شاید براتون سوا ل پیش بیاد که یعنی چه؟ فرض کن در مورد یک موضوع مثل تفکیک زباله. که از چندتا زاویه دید مثبت یا منفی بهش نگاه بشه. مثلا 5تا جمله باشه که 3 تاش در جهت تشویق به تفکیک هست و 2تاش از معایبش مثل هزینه بری بگه. این مدل دیتاست کمک می کنه تا مدل تحلیل یاد بگیره
👍3
این یکی دو ماه آینده یک سری پست خفن آماده کردیم و قرار هست بیشتر فعالیت کنیم
👍8
Forwarded from دیتاهاب
🟢 پروژه هوش مصنوعی داری ولی خودت نمی‌تونی|نمی‌رسی انجام بدی؟
🟢 واسه انتخاب موضوع پایان‌نامه یا پروپوزال، نیاز به مشاوره و همفکری داری؟
🟢 می‌خوای مقاله بنویسی ولی ایده جدید به ذهنت نمی‌رسه؟

🎯 همین الان پروژه خودت رو ثبت کن تا سریع تر بتونی کارات رو تموم‌ کنی و خیالت راحت باشه.

📞 09938013176
🌐 ثبت سفارش از طریق سایت | 📲 ثبت سفارش از طریق تلگرام
👍3
https://github.com/sandstorm12/persian_readability_dataset


دیتاست فارسی که واقعا کمیابه و باید قدرشو دونست. مثلا این دیتاست واسه بحث خوانایی کلمات و متون هستش. یه کاربردش کمک به ساخت آزمون خودکار واسه زبان آموزهاست یا کمک به تولید محتوا و سئو
👍2
ما چند ماه پیش یک دیتاست فارسی برای تسک intent detection و slot filling برای زبان فارسی ساختیم که از روی همون آتیس انگلیسی هست

https://github.com/Makbari1997/Persian-Atis

https://arxiv.org/abs/2303.00408

این ها هم لینک مقاله و دیتاست هستن
👍3
اخیراً ۳ تا دیتاست از داده های توییتر رو تو لینکدینم منتشر کردم که با کوئری های
«اسنپ»، «تپسی»و «threads» گرفته شدن
هر کدوم شامل ۱۰ هزار توییت به همراه اطلاعات جانبی هر توییت (اطلاعات کاربری، تعداد لایک و ری‌توییت و کامنت و ...)
لینک پست لینکدین مربوط به دیتاست ها رو این پایین قرار میدم،
امیدوارم به دردتون بخوره


https://www.linkedin.com/posts/sajad-khanbabaie-b5b38123a_snap-tapsi-10k-activity-7085971422241517568-JwBq?utm_source=share&utm_medium=member_android

https://www.linkedin.com/posts/sajad-khanbabaie-b5b38123a_threads-in-twitter-activity-7088952319853125632-7OGv?utm_source=share&utm_medium=member_android
👍9
سلام روزتون بخیر
این دیتاست رو دیروز جمع آوری کردم.
مرتبط با آگهی‌های استخدامی توی سایت جابینجاست، چیزی حدود 26 هزار داده و 16 ستون داره.

لینک گیتهاب به همراه اسکریپت و نوتبوک‌ها:
https://github.com/Hexanol777/Jobinja-Crawler
لینک کگل:
https://www.kaggle.com/datasets/maminkheneifar/jobinja-job-listings-26k
👍4
خوشحالیم که بعد از مدت‌ها، نسخه جدید هضم آماده شد. در این نسخه:

• مشکل سازگاری با ویندوز را حل کردیم.
• مستندات پروژه را کامل‌تر کردیم.
• بازنمایی‌های واژه‌ای و جمله‌ای را روی انبوه نوشته‌ها آموزش دادیم.
• نرمال‌سازی نوشته‌ها را دقیق‌تر کردیم.
• دقت تحلیل صرفی و تجزیه سطحی را افزایش دادیم.
• از برچسب‌های صرفی و نحوی یونیورسال استفاده کردیم.
• کدها را با آخرین نسخه پایتون سازگار کردیم.

🔸 توضیحات کامل‌تر در مورد نسخه جدید هضم

🔸 می‌توانید پروژه متن‌باز هضم را در GitHub تعقیب کنید:
https://github.com/roshan-research/hazm
👍7
https://github.com/GolaraRFI/persian-tokenizers

یک کار درست حسابی و مفید واسه پردازش زبان طبیعی فارسی. یک فردی اومده 4تا توکنایزر معروف واسه فارسی با هم مقایسه کرده. پس اگر براتون سواله ک واسه توکنایزر فارسی هضم بهتره یا پارسی ور یا حتی Nltk. حتما نتایجش بخونین.
👍9
https://github.com/professormahi/awesome-services-4-iranian-developers


یک لیست خفن از ابزارهای مناسب واسه دولوپرهای ایرانی
👍2
https://github.com/Amirrezahmi/Mathematica-Wolfram-notebooks

این مخزن شامل نوت بوک هایی است که در آن دستورات مباحث مختلف ریاضی چون جبرخطی، حسابان و ترسیم نمودار ها آورده شده. توضیحات هر دستور به زبان فارسی در پوشه denoscriptions آورده شده.
👍2
Forwarded from دیتاهاب
جبر خطی بهمون کمک میکنه خیلی از مفاهیمی که هر روز توی پروژه‌های هوش مصنوعی استفاده می‌کنیم رو بهتر درک کنیم.

دوره جبر خطی دیتاهاب هم توی کانال یوتیوب و هم توی سایت قرار گرفته و خیلی ساده نکات کاربردی جبر خطی رو توضیح میدیم.

کافیه 3 ساعت وقت بذاری و بعد از اون قطعا دیدت نسبت به کدهایی که هر روز میزنی تغییر میکنه.

قراره چی یاد بگیریم؟
ماتریس‌ها که پایه و اساس کار هستن، پس بیشتر دربارشون حرف میزنیم.
بعدش میریم سراغ کاربرد جبر خطی توی شبکه عصبی و پروژه‌های هوش مصنوعی

🌐 جبر خطی در کانال یوتیوب
🌐 جبرخطی در سایت دیتاهاب

🆔 @data_hub_ir
👍4
https://github.com/amirroox/Persian-Developer-Roadmap

نقشه راه برای توسعه دهندگان برای پیشرفت بهتر

یکی از سوالات رایج برنامه نویسان این است که برنامه نویسی را از کجا شروع کنیم؟ و چگونه پیشرفت کنیم؟

از آنجایی که اکثر دوستان برای ورود به دنیای کامپیوتر و برنامه نویسی با مشکلات زیادی مواجه بودند و با سوالات زیادی مواجه می شدند، تصمیم گرفتیم برای افرادی که نمی دانند از کجا شروع کنند یا افرادی که به سطح قابل قبولی از دانش رسیده اند اما برای پیشرفت نمی داند چه چیزی را شروع کنند، یک انجمن راه‌اندازی کنیم.