مرجع دیتاست فارسی – Telegram
مرجع دیتاست فارسی
3.18K subscribers
24 photos
2 videos
22 files
350 links
لطفا برای معرفی و درج دیتاست خود داخل کانال به @data_hub پیام دهید.
Download Telegram
تقریبا هر بخشی که از نوار بالا انتخاب کنین در پایین یه باکس هم قرار میگیره که ممکنه به چشم نیاد چون خیلی کوچیک و باریک هست اما این امکان رو میده بهتون که 3 پارامتر Temperature و Top P و Max output tokens رو تنظیم کنین
این دوست عزیز اومدن و یه اسکریپتی رو با پایتون نوشتن که تاریخی که در متن‌های فارسی به انواع حالات نوشته میشه رو استخراج کنه و به یک شکل استانداردی نمایش بده

🧑‍💻 GitHub Repo
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22
یکسری دیتاست فارسی برای بحث تحلیل احساسات که از منابع مختلفی جمع شده (دیجی‌کالا، اسنپ فود، توئیتر و ...)
ژوپیتر نوت بوک لود دیتاست‌ها و همچنین Paperهایی که روی این موارد داده شده رو هم داخل ریپو گذاشتن و میتونین استفاده کنین

🧑‍💻 GitHub Repo
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11
توی حوزه‌های زیر اگه خواستید کار کنین و نیاز به یک رودمپ داشتید حتما این ریپو رو چک کنین:

👩‍💻 فرانت‌اند (Front-end)

👩‍💻 بک‌اند (Back-end)

👩‍💻 اندروید (Android)

👩‍💻 هوش‌مصنوعی‌ودانشمندداده (AI and Data Scientist)

👩‍💻 پایتون (Python)

👩‍💻 گو (Go)

👩‍💻 ریکت (React)

👩‍💻 جاوا(Java)

👩‍💻 جاوااسکریپت (JavaScript)

👩‍💻 داکر (Docker)

👩‍💻 فلاتر (Flutter)

👩‍💻 اس کیو ال (SQL)

👩‍💻 پستگرس‌کیوال (PostgreSQL)

👩‍💻 دیتابیس مونگو|مانگو (MongoDB)

👩‍💻 طراحی نرم افزار و معماری(software-design-architecture)

👩‍💻 امنیت در API (api-securityا)

👩‍💻 ویو جی اس (Vue.Js)

👩‍💻 تایپ اسکریپت (TypeScript)

👩‍💻 گراف کیو-ال (QraphQL)

👩‍💻 و ...

پ.ن: حجم عکس‌های توی README یکم زیاده طول میکشه تا لود بشه صبور باشید.

🧑‍💻 GitHub Repo
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11
چند فونت مطرح و اوپن اکسس فارسی (وزیر، استعداد، ساحل، میخک، آذرمهر)

🧑‍💻 GitHub Repo
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9
تایپیست » یک اکستنشن برای مرورگر جهت آموزش تایپ ده‌انگشتی با کمک هوش مصنوعی و تحلیل آماری. در این برنامه رفتار تایپی کاربر بررسی شده لغاتی به کاربر پیشنهاد می‌گردد که کاربر نیاز بیشتری به تمرین آن لغات دارد.

📱 Extension

📱 GitHub Repo
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
#موقت

رفقا قراره از هفته آینده بترکونیم و هفته ای 3تا محتوا بزاریم
کمربندها محکم ببندید ک تابستون داغی در پیش داریم
این پست های طی 3 مرحله فیلتر شدن و سعی شد که فقط مطالب فوق کاربردی مطرح بشه

حتما حتما Share کنید تا یک حالی هم به ما داده باشید
👍21
انتشار دیتاست بزرگ سایت باسلام
توسط تیم Rade AI

🔍 شامل اطلاعات فروش و مشخصات 2.4 میلیون محصول موجود در سایت باسلام
به همراه دیتاست 3.3 میلیونی کامنت های محصولات.

هم اکنون دانلود کنید:
این مجموعه داده در Kaggle و Hugging Face قابل دسترسی است.

⬇️ لینک دانلود از Kaggle:
https://www.kaggle.com/datasets/radeai/basalam-comments-and-products

⬇️ لینک دانلود از Hugging Face:
https://huggingface.co/datasets/RadeAI/BaSalam_comments_products
لازم به ذکر است
این اطلاعات صرفا جهت اهداف بیزنسی تیم در تاریخ فروردین 1403 جمع آوری شده
👍17
نسخه کوانتایز شده و سبک شده مدل جدید درنا

من این مدل LLM رو که برای زبان فارسی هست کوانتایز کردم (ما به ایشون: دمت گرم ک چنین کار خوبی کردی)

در این نسخه علاوه بر کوانتیز سرعت Generation مدل نیز با مکانیزم Flash Attention ارتقاء یافته است و همچنین این مدل بر خلاف کوانتایزهای متداول نظیر GGUF که وابسته به کتابخانه هستند نظیر Candle و LlamaCpp مستقل از کتابخانه هست و به راحتی مانند مدل‌های کوانتایز نشده لود می‌شود

https://huggingface.co/amirMohammadi/Dorna-Llama3-8B-Instruct-Quantized4Bit
👍141
این یکی مخصوص دانشجوها،
https://lightning.ai

۲۲ ساعت GPU رایگان
اجرا توی بکگراند (بدون قطع شدن)
حافظه و رم هم رایگان هست
نیاز به Credit Card, ... هم نداره


اگر از ایمیل .edu یا .org استفاده کنید درجا دسترسی برای شما باز میشه
اما اگر ندارید هم مشکلی نداره، نهایتاً ۲-۳ روز طول می‌کشه تا دسترسی شما باز بشه. (بد نیست با چندتا ایمیل درخواست دسترسی بدید، همین حالا)

Milad Saberian
👍6
اگه برای پوزیشن های تکنیکال مثل software engineering، ماشین لرنینگ، دیتا ساینس و data engineering اقدام میکنید، یکی از مهمترین قسمتهای مصاحبه سؤال در مورد system design است. این ریپو کلی ویدیو و مطلب آموزشی داره از آسون به سخت

https://github.com/ashishps1/awesome-system-design-resources?tab=readme-ov-file

Morteza Sharifi
👍5
انتشار دیتاست بزرگ محصولات و کامنت های دیجیکالا


🔍 نکات برجسته مجموعه داده:
- بیش از 1.2 میلیون محصول در چندین ویژگی از جمله قیمت، امتیاز محصول، تعداد آرا، دسته بندی، نام تجاری و موارد دیگر
- مجموعه ای گسترده با بیش از 6 میلیون کامنت محصول، شامل متن کامنت، تاریخ کامنت، امتیاز دهی کاربر، مزایا و معایب ثبت شده توسط کاربر و ...

هم اکنون دانلود کنید:
این مجموعه داده در Kaggle و Hugging Face قابل دسترسی است.

⬇️ لینک دانلود از Kaggle:
https://www.kaggle.com/datasets/radeai/digikala-comments-and-products

⬇️ لینک دانلود از Hugging Face:
https://huggingface.co/datasets/RadeAI/Digikala_comments_products

این دیتاست رو برای اهداف بیزینسی تیممون در تابستان 1402 جمع آوری کردیم و الان برای استفاده محققین و فعالین حوزه دیتا منتشرش کردیم.

Rade AI
👍12
یه سایتی هست به نام hashtag#ناکامولوژی 🤷
که میاد استارتاپ هایی که شکست خوردن رو کامل معرفی می‌کنه و علت شکست رو هم عنوان می‌کنه👌
می‌تونه برای مقابله با خوش بینی بیش از حد و انتخاب مسیر درست خیلی کمک کننده باشه.
اینکه صرفا چشممون به استارت آپ های قوی نره و فکر نکنیم فقط شروع کردن مهمه!🤔
خیلی چیزا هست که می‌تونه یه پروژه خیلی قوی رو زمین بزنه💥
خوندن داستان های شکست به اندازه ی خوندن داستان های موفقیت ضروریه!ولو بیشتر

nakamology.ir

Elmira Niraneh
👍14
انتشار دیتاست‌ها و LLMهای فاین‌تیون شده اختصاصی باسلام
+ به همراه کد و بلاگ تجربه مهندسی


آدم‌ها در باسلام می‌تونن خودشون محصولاتشون رو تعریف کنند. در نتیجه استاندارد ثابتی برای محتوا وجود نداره. یکی از چالش‌هایی که ما در تیم matchmaking باسلام داشتیم این بود که چطور از دل این دیتای بدون ساختار، دیتای ساختاریافته استخراج کنیم که بتونیم در الگوریتم‌های جستجو و دیسکاوری ازشون استفاده کنیم.

برای حل این مسئله ما از مدل‌های زبانی بزرگ (LLM) استفاده کردیم. از اون جا که احتمال دادیم پلتفرم‌های دیگه‌ای هم ممکنه مسئله یا چالش‌های مشابهی به خصوص در زبان فارسی داشته باشند، تصمیم گرفتیم کد، دیتاست‌ها و LLM های فاین تیون شده رو Open Source کنیم.

دیتاست‌ها از جنس Instruction-tuning هستند و همچنین مدل‌ها، فاین‌تیون شده‌ی مدل llama-2.

لینک کالکشن هاگینگ‌فیس مدل‌ها و دیتاست‌ها:
https://huggingface.co/collections/BaSalam/product-catalog-generator-6654e4b5c7ff1a0216849ff8

لینک کد Train مدل:
https://github.com/basalam/product-catalog-generator

لینک بلاگ تجربه مهندسی:
https://vrgl.ir/RZxJY

Mohammadreza Esmaeilian
👍14
اگه آلمان مقصد جذابیه براتون این سایت های مهم کلی بهتون کمک می‌کنن:

و قبلش این و بگم که برای محتوای بیشتر دباره کار تو محیط بین المللی می‌تونید تلگرام کی‌ورک رو هم دنبال کنید:
⁩1. www.uni-assist.de یونی اسیست
2. www.studienkollegs.de لیست کالج ها
3. www.teheran.diplo.de سفارت آلمان در تهران
4. www.hochschulkompass.de جستجوی دانشگاه و رشته
5. www.studieren.de جستجوی دانشگاه و رشته
6. www.dsit.org.ir موسسه گوته
7. www.pdexp.com پست پ د ا
8. www.tntiran.com پست تی ان تی
9. www.dhl.co.ir پست دی اچ ال
10. www.karapost.com کاراپست
11. www.study-in.de جستجوی دانشگاه و رشته
12. www.daad-iran.org دآآد ایران
13. www.daad.de دآآد
14. www.gate-germany.de
15. grad.saorg.ir دانشگاه های مورد تایید وزارت علوم
16. www.hochschulstart.de وابسته به اسیست
17. www.studis-online.de
18. www.howtogermany.com
19. www.numbeo.com هزینه زندگی و مشخصات رفاهی شهر ها
20. www.expatistan.com هزینه زندگی در شهر ها
21. www.lebenslauf.com نوشتن زندگی نامه
22. https://lnkd.in/dXm6jPCv
23. https://lnkd.in/dMH2ZMY6
24. www.testas.de تست آس
25. www.testdaf.de تست داف
26. en.dsh-germany.com د اس ها
27. www.skyscanner.net موتور جستجوی پرواز
28. www.applyabroad.org فروم
29. www.academiacafe.com یه فروم دیگه
30. www.stexx.eu بانک اطلاعاتی تحصیل در همه جا
31. www.topuniversities.com (QS)رده بندی دانشگاه ها
32. https://lnkd.in/diCwRhmY رده بندی دانشگاه ها
33. europass.cedefop.europa.eu وبسایت حرفه ای برای نوشتن رزومه
34. www.deutschland.de در مورد آلمان
35. www.worldatlas.com اطلاعات عمومی کشور ها
36. www.gehalt.de درآمد مشاغل مختلف در آلمان به طور میانگین
37. www.studienwahl.de راهنمای تحصیل در آلمان

برای جستجوی خانه و وگ و هاستل و ...

1. www.airbnb.com
2. www.wg-gesucht.de
3. www.homestay.com
4. www.immowelt.de
5. www.wohnungsmarkt24.de
6. www.immobilienscout24.de
7. www.immonet.de
8. www.studenten-wg.de
9. https://lnkd.in/dFTX2Qaj
10. www.wohngemeinschaft.de
11. www.wohnung-fuer-dich.de
12. www.wg-suche.de
13. www.quoka.de
14. Studierendenwerk der Unis
15. Sonntag, Kurier und andere Zeitungen
16. Facebook (Wohnungssuche/wg - wohnungsbörse / wg- Wohnungsmarkt + esme shahr)
17. www.hostelbookers.com
18. www.hostelworld.com
19. www.studenten-wg.de
20. www.booking.com

برای پرداخت هزینه های اپلای و ...(بدون فیلتر شکن وارد شوید!)
1. www.assist-pay.ir
2. www.parsianpay.com
3. www.tehranpayment.com

مفید برای یادگیری زبان و آموزشی:
1. www.memrise.com
2. www.fluentu.com
3. www.coursera.org

خرید اجناس دسته دوم در آلمان :

1. www.gebraucht.de
2. www.ebay-kleinanzeigen.de
3. www.shpock.com

سایت های خوب کاریابی :
1. www.Indeed.de
2. www.Jobrapido.de
3. www.stepstone.de
4. www.jobtopus.de

Shadi Sepehri
👍12
چون حجم پروژه زبان فارسی باستان زیاده و در آینده قراره وسیع تر بشه و خب مسلما در یک ریپازیتوری گیتهاب جا نمیشه؛ به همین علت براش یک اورگانیزیشن (organization) ساختم.

اگه کسی علاقه داشته باشه میتونه روی این پروژه کار کنه؛ بهم ایمیل بزنید تا من در آینده شما رو عضو لیست People کنم، خیلی هم خوشحال میشم🥰.

کارهای غیر فنی و غیر کدی هم زیاد دارم؛ مثلا پیدا کردن کتاب های خوب، مقاله، ساختن world list برای این زبان، جمع آوری دیتای عکس از کتیبه ها یا دیتای متنی از زبان فارسی باستان و ....

https://github.com/Electronic-Persian-Old-Library
👍9
آیا به تجزیه و تحلیل موسیقی علاقه دارید؟ این پروژه گیت‌هاب برای شماست! 🎶
پروژه Music Analyzer به شما امکان می‌دهد تا به تجزیه و تحلیل و پردازش داده‌های موسیقی بپردازید. این ابزار می‌تواند ویژگی‌های مختلف موسیقی را استخراج کرده و اطلاعات مفیدی را در اختیار شما قرار دهد. از این پروژه می‌توانید در پژوهش‌های خود، توسعه اپلیکیشن‌های موسیقی 🎵، یا حتی در پروژه‌های یادگیری ماشین 🤖 استفاده کنید.
برای دسترسی به این ابزار کارآمد، از لینک زیر استفاده کنید:

📱 GitHub Repo
👍8
دیتاست مربوط به instructهای فارسی مناسب برای فاین تیون کردن مدل های زبانی

📱 GitHub Repo
👍9
اگر به حوزه پردازش زبان طبیعی (NLP) و مدل‌های زبانی هوش مصنوعی علاقه‌مندید، این مجموعه داده برای شماست! این پروژه با هدف ارزیابی عملکرد ChatGPT برای زبان فارسی ایجاد شده است. شامل مجموعه‌ای متنوع از سوالات و پاسخ‌ها به زبان فارسی می‌باشد که می‌تواند در پروژه‌های مرتبط با توسعه مدل‌های AI و NLP بسیار کاربردی باشد. می‌توانید از این دیتاست برای ارزیابی و بهبود مدل‌های زبان فارسی در اپلیکیشن‌های چت‌بوت، ترجمه ماشینی و سایر کاربردهای مشابه استفاده کنید.

📱 GitHub Repo
👍8