مرجع دیتاست فارسی – Telegram
مرجع دیتاست فارسی
3.19K subscribers
24 photos
2 videos
22 files
350 links
لطفا برای معرفی و درج دیتاست خود داخل کانال به @data_hub پیام دهید.
Download Telegram
هر محیط و مکانی آداب خاص خودش داره تا آسیبی بهمون وارد نشه پس
در اینترنت، ایمن باشیم به کمک
چک لیست افزایش امنیت و حریم خصوصی آنلاین
https://amn.hamed.blog
👍2
Persian Visual Question Answering
بلاخره پس از مدت ها یک دیتاست تر و تمیز به دستمون رسید
توی پردازش زبان طبیعی یکی از تسک های نسبتا سخت سیستم های پرسش و پاسخ هستند تازه از اون سخت تر وقتی میشه که پای تصویر هم وسط بیاد
ولی کار با این دیتاست شروع خوبی هست (با توجه به اینکه روی زبان فارسی در این تسک هنوز خیلی کاری انجام نشده و فضای نسبتا خوبی است)
https://github.com/naeim-md93/PVQA
👍5
رفقا سال نو مبارک💐، امیدوارم امسال همون سالی باشه که خدا صدامون بشنوه🤲🏻
اول سالی با قدرت شروع کنیم با یک دیتاست پرسش و پاسخ پزشکی (QA) فارسی✌🏻

اینقدر که میشه روی این موضوع مانور داد و ازش مقاله چاپ کرد که حد و حساب نداره
حوزه پزشکی تشنه ورود پردازش زبان طبیعی و خصوصا سیستم پرسش و پاسخ هست

https://github.com/DSP-UT/Persian-Medical-Question-Answering-
7👎1
سلام مطلب تون مفید بود. منم یه دیتاست در خصوص حروف و اعداد الفبای فارسی ساختم تا بتونید هم برای تشخیص الفبای فارسی ازش استفاده کنید هم برای تشخیص پلاک خودرو های ایرانی امیدوارم ازش استفاده کنید و بدردتون بخوره

kaggle link:
https://www.kaggle.com/datasets/mehdisahraei/persian-alpha?resource=download

دوست داشتید رای بدید
👍8
چند وقتی بود کد معرفی نکرده بودیم. یک دوستی اومدن و روی یک دیتاست فارسی در زمینه query paraphrasing دو مدل ParsBERT و M-BERT را فاین تیون کردن، هم کد و هم دیتاست موجوده.
فرهنگ به اشتراک گذاری کد و دیتاست خیلی خوبه و کمک کنندس، یعنی اگر هر تیم یا فردی یک دیتاست معرفی کنه با یک مجموعه بزرگ روبرو خواهیم شد. ولی متاسفانه گاهی طرف کد میزاره ولی دیتا نمیزاره و کد بدون دیتا خیلی به درد نمی خوره.
https://www.kaggle.com/code/vafaknm/persian-query-paraphrasing-classification
👍71
یک سورس کد باحال و واسه دریافت نظرات کاربران یوتیوب
اگه دقت کرده باشید اکثر پروژه هایی که روی تحلیل نظرات کاربران تمرکز دارن به سمت توییتر و اینستا میرن ولی خیلی سمت یوتیوب نمیرن. و دست نخورده حساب میشه (خصوصا واسه کارهای پژوهشی و مقاله)
https://github.com/ZutrixPog/youtube-comments-extractor
2👍1
سلام دوستان

یک بات تلگرام نوشتم که بر پایه ChatGPT به عنوان Examiner برای writing task آیلتس عمل میکنه و از یوزر topic و answer رو میگیره و ارزیابی میکنه و توی هر ۴ تا criteria رایتینگ آیلتس یک Band score میده و یک فیدبک و همچنین یک Overall Band score. در نهایت هم یک Model Answer میده. هدف از نوشتن این بات جدای علاقه ای که داشتم این بود که شاید بتونم کمک کوچیکی کرده باشم به افرادی که دارن خودشون رو برای آزمون آیلتس اماده می کنن و به هر دلیلی دسترسی به ChatGPT ندارن که بتونن باهاش بهتر خودشون رو برای آزمون ارزیابی کنن, خودم زمانی که برای آیلتس میخوندم ChatGPT وجود نداشت و یکی از بزرگترین مشکلاتم این بود که فیدبک برای writing هایی که مینوشتم نداشتم.
خوشحال میشم اگر این بات رو چک کنید و اگر افرادی میشناسید که می تونه بهشون کمک کنه براشون به اشتراک بزارید تا استفاده کنن.
در ضمن پروژه رو هم open source کردم و روی github ام قرار دادم, اگر دوست داشتید ممنون میشم star کنید و همچنین contribute که بهترش کنیم و باگی اگر مشاهده شد رفعش کنیم.

لینک پروژه:

https://github.com/MahdiAbbasi95/chatgpt-ielts-examiner-bot
لینک بات:

https://news.1rj.ru/str/ielts_examiner_bot
👍165
یک پروژه تعریف شده، دیتاست و کد و ریپورت هم آمادس (یک چالش بوده)
این می تونه خیلی کمک کنه به کسایی که میخوان پروژه آزمایشی انجام بدن و بیشتر و بهتر یاد بگیرن
هدف پروژه هم تشخیص میزان مصرف اینترنت کاربران است.
https://github.com/SLR-96/AAIC2022
👍2
یک دیتاست در زبان فارسی با محوریت دنباله ای از پرسش و پاسخ های محاوره زبان فارسی جمع آوری شده است که در لینک گیت هاب قرار داده شده است. این مقاله در سال 2022 در یک کنفرانس منابع زبانی به نام LREC2022 پذیرفته شد. از این دیتاست در انواع تسکهای NLP در زبان فارسی میتوان استفاده کرد.

https://aclanthology.org/2022.lrec-1.654/
2👎2
یک دیتاست بومی از تمامی تابلوهای رانندگی که امیدواریم در سیستم خودران استفاده بشه که این مدل خودرو بشه داخل کشورمون هم استفاده بشه. (دست به دست کنید شاید به ایلان ماسک رسید)
https://github.com/seyedhamidsafavi/PRSM
👍6👎42😢1
دور زدن اینترنت ملی
بالاخره یک نفر به زبون خیلی ساده و جامع روش راه اندازی v2ray گفتش
https://github.com/pouramin/Iran-vpn
👍6👎3
وقتی میخواهی داخل پایتون به فارسی چیزی رو به نمایش بذاری با چند مشکل روبرو هستی که راه حل آن ها استفاده از arabic_reshaper و bidi.algorithm است ولی برای تایپ چند خطی این مشکل پا برجاست و متن از پایین به بالا نمایش داده میشود.
در اینجا تابعی قرار میدهم که میتواند این مشکل را حل کند.
https://github.com/mhdemd/python_persian_text
👍1
Forwarded from دیتاهاب (Zahra Yp)
اول یادگیری هر چیزی، یک سردرگمی وجود داره و نمیدونیم از کجا شروع کنیم😩 بشر برای حل این مشکل رودمپ اختراح کرد😎
توی دیتاهاب برامون مهم بود یک نقشه راه جامع برای کسایی که دوست دارن هوش مصنوعی یاد بگیرن داشته باشیم✌🏻

🎯 پس قدیم ترا😂 کانال یوتیوب دیتاهاب رو ساختیم و دوره‌های کاربردی از پایتون و جبر خطی تا یادگیری ماشین و وب اسکرپینگ براتون به زبان فارسی آماده کردیم.

برای دسترسی به این آموزشا کافیه روی لینک زیر کلیک کنین و مطالب رو تضمینی یاد بگیرین. حتما سابسکرایب کنین که انگیزه بشه آموزش جدید بزاریم 🥳 ⬇️

💢 کانال یوتیوب دیتاهاب 💢

❇️ دیتاهاب: مشاوره، آموزش و انجام پروژه‌های هوش مصنوعی
📍اینجا کانال پرشین دیتا هست که دیتاست‌های مختلف رو میتونین برای پروژه‌هاتون پیدا کنین:
🆔 @persian_data

توی کانال دیتاهاب درباره موضوعات مختلف هوش مصنوعی حرف می‌زنیم و آموزش و ابزارهای کاربردی رو معرفی می‌کنیم:
🆔 @data_hub_ir

برای اینکه از موقعیت‌های شغلی شرکت‌های مختلف باخبر بشین، توی گروه دیتاجابز عضو بشین:
🆔 @data_jobs
Forwarded from دیتاهاب (Zahra Yp)
اولین قدم برای شروع هوش مصنوعی اینه که پایتون یاد بگیریم. ولی پایتون یک زبان چندمنظوره هست و ما همه قسمتاش رو لازم نداریم.
کافیه کتابخونه‌های مهمش که برای هوش مصنوعی هستن رو بلد باشیم که میشن:
🔸 کتابخونه Numpy
🔸 کتابخونه Pandas
🔸 کتابخونه Matplotlib

از کجا یاد بگیریم؟
💯 کافیه دوره آموزش پایتون برای هوش مصنوعی رو از کانال یوتیوب دیتاهاب ببینی👇🏻
🌐 آموزش پایتون ویژه هوش مصنوعی

🆔 @data_hub_ir
1👎1
کد و دیتاست از یک مقاله که توی acl2023 چاپ شده

حروف اضافه همیشه واسه ما فارسی زبونها داستان داره، با جایگشت های متفاوتشون معنی جمله از زمین تا اسمون متفاوت میشه
این کد و دیتاست می تونه به کتابخانه هایی مثل هضم و پارسی ور اضافه بشه
https://github.com/AramKarimi/punctuation-ambiguity-in-persian
👍1
ورودی مدل‌های یادگیری ماشین داده هست و دیتاست هم توی اینترنت زیاده. ولی بعضی وقتا میخایم روی داده خاصی کار کنیم و لازمه دیتاست رو خودمون بسازیم.

🔸 یک منبع عالی برای این کار سایت‌ها هستن که انواع داده‌ها درباره موضوعات مختلف رو دارن. با وب اسکرپینگ میتونیم این داده‌ها رو جمع کنیم.

توی دوره وب اسکرپینگ که میتونی از کانال یوتیوب دیتاهاب ببینی، با پروژه های عملی داده‌های چندتا سایت رو جمع می‌کنیم. بعد از اون، دیگه فوت و فن کار رو بلدی.

💢 آموزش پروژه محور وب اسکرپینگ 💢

🆔 @persian_data
🆔 @data_hub_ir
🆔 @data_jobs
👍6