مرجع دیتاست فارسی – Telegram
مرجع دیتاست فارسی
3.18K subscribers
24 photos
2 videos
22 files
350 links
لطفا برای معرفی و درج دیتاست خود داخل کانال به @data_hub پیام دهید.
Download Telegram
سلام
امیدوارم که حال دلتون خوب باشه

با توجه به داغ شدن اخبار LLMها و مدل‌های جدیدی که هر هفته منتشر میشن، کم و بیش شده که دلمون بخواد که باهاشون چت کنیم و ارزیابی شون کنیم

یا بعضی وقت‌ها برای خودم مثلا پیش میاد یه تسک خیلی خیلی مهم دارم و حتی اگه 1 پراپمت هم بتونم بفرستم به یک مدل خیلی خیلی خوب مثل GPT 4 Turbo که همین اخیر منتشر شده و آخرین مدل OpenAI هست واقعا برام ارزش داره برای همین خیلی گشتم و به این پلتفرم دانشگاه برکلی کالفرنیا رسیدم که در ادامه خدمتتون معرفی می‌کنم:

https://chat.lmsys.org/

+ از بزرگترین مزیت‌هاش اینه که ثبت‌نام و دردسر نداره و راحت میتونین وارد سایتش بشید
+ دسترسی به تمام LLMهای مطرح دنیا رو بهتون میده از غول‌های کلوز سورس‌ها مثل Claude , GPT بگیرید تا اوپن سورس‌های جدید مثل Llama3 (البته کلوز سورس‌ها محدودیت درخواست در هفته دارن بعضیاشون)

پ.ن: تحریم همیشگی (فیلترشکن فراموش نشه)
👍12
وارد سایت که بشید از بخش Direct میتونین مستقیم یه مدل رو انتخاب کنین و شروع کنین چت کردن باهاش
در بخش اول سمت چپ، (Battle)Arena، شما پرامپت رو وارد میکنید و خودش به صورت رندم ۲تا LLM رو انتخاب میکنه و پاسخ هاشون رو بهتون نمایش میده

که البته میتونین امتیاز دهی و voting هم نسبت به مدل‌ها داشته باشید

که هدف اصلی راه اندازی چنین پلتفرمی هم طبق توضیحاتشون همین بحث human evolution هست و این که بتونن یک Leaderboard ای برای کل LLMهای جهان تشکیل بدهند که این لیدربورد رو هم از نوار بالا بهش دسترسی دارید
👍2
و جذاب ترین بخش هم برای خودم در این سایت Side by Side Arena هست که شما بر خلاف حالت Arena Battle که خودش رندم انتخاب می‌کنه، هر ۲ مدل دلخواهتون رو میتونین خودتون انتخاب کنین و جواب هاشون رو مقایسه کنین
تقریبا هر بخشی که از نوار بالا انتخاب کنین در پایین یه باکس هم قرار میگیره که ممکنه به چشم نیاد چون خیلی کوچیک و باریک هست اما این امکان رو میده بهتون که 3 پارامتر Temperature و Top P و Max output tokens رو تنظیم کنین
این دوست عزیز اومدن و یه اسکریپتی رو با پایتون نوشتن که تاریخی که در متن‌های فارسی به انواع حالات نوشته میشه رو استخراج کنه و به یک شکل استانداردی نمایش بده

🧑‍💻 GitHub Repo
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22
یکسری دیتاست فارسی برای بحث تحلیل احساسات که از منابع مختلفی جمع شده (دیجی‌کالا، اسنپ فود، توئیتر و ...)
ژوپیتر نوت بوک لود دیتاست‌ها و همچنین Paperهایی که روی این موارد داده شده رو هم داخل ریپو گذاشتن و میتونین استفاده کنین

🧑‍💻 GitHub Repo
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11
توی حوزه‌های زیر اگه خواستید کار کنین و نیاز به یک رودمپ داشتید حتما این ریپو رو چک کنین:

👩‍💻 فرانت‌اند (Front-end)

👩‍💻 بک‌اند (Back-end)

👩‍💻 اندروید (Android)

👩‍💻 هوش‌مصنوعی‌ودانشمندداده (AI and Data Scientist)

👩‍💻 پایتون (Python)

👩‍💻 گو (Go)

👩‍💻 ریکت (React)

👩‍💻 جاوا(Java)

👩‍💻 جاوااسکریپت (JavaScript)

👩‍💻 داکر (Docker)

👩‍💻 فلاتر (Flutter)

👩‍💻 اس کیو ال (SQL)

👩‍💻 پستگرس‌کیوال (PostgreSQL)

👩‍💻 دیتابیس مونگو|مانگو (MongoDB)

👩‍💻 طراحی نرم افزار و معماری(software-design-architecture)

👩‍💻 امنیت در API (api-securityا)

👩‍💻 ویو جی اس (Vue.Js)

👩‍💻 تایپ اسکریپت (TypeScript)

👩‍💻 گراف کیو-ال (QraphQL)

👩‍💻 و ...

پ.ن: حجم عکس‌های توی README یکم زیاده طول میکشه تا لود بشه صبور باشید.

🧑‍💻 GitHub Repo
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11
چند فونت مطرح و اوپن اکسس فارسی (وزیر، استعداد، ساحل، میخک، آذرمهر)

🧑‍💻 GitHub Repo
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9
تایپیست » یک اکستنشن برای مرورگر جهت آموزش تایپ ده‌انگشتی با کمک هوش مصنوعی و تحلیل آماری. در این برنامه رفتار تایپی کاربر بررسی شده لغاتی به کاربر پیشنهاد می‌گردد که کاربر نیاز بیشتری به تمرین آن لغات دارد.

📱 Extension

📱 GitHub Repo
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
#موقت

رفقا قراره از هفته آینده بترکونیم و هفته ای 3تا محتوا بزاریم
کمربندها محکم ببندید ک تابستون داغی در پیش داریم
این پست های طی 3 مرحله فیلتر شدن و سعی شد که فقط مطالب فوق کاربردی مطرح بشه

حتما حتما Share کنید تا یک حالی هم به ما داده باشید
👍21
انتشار دیتاست بزرگ سایت باسلام
توسط تیم Rade AI

🔍 شامل اطلاعات فروش و مشخصات 2.4 میلیون محصول موجود در سایت باسلام
به همراه دیتاست 3.3 میلیونی کامنت های محصولات.

هم اکنون دانلود کنید:
این مجموعه داده در Kaggle و Hugging Face قابل دسترسی است.

⬇️ لینک دانلود از Kaggle:
https://www.kaggle.com/datasets/radeai/basalam-comments-and-products

⬇️ لینک دانلود از Hugging Face:
https://huggingface.co/datasets/RadeAI/BaSalam_comments_products
لازم به ذکر است
این اطلاعات صرفا جهت اهداف بیزنسی تیم در تاریخ فروردین 1403 جمع آوری شده
👍17
نسخه کوانتایز شده و سبک شده مدل جدید درنا

من این مدل LLM رو که برای زبان فارسی هست کوانتایز کردم (ما به ایشون: دمت گرم ک چنین کار خوبی کردی)

در این نسخه علاوه بر کوانتیز سرعت Generation مدل نیز با مکانیزم Flash Attention ارتقاء یافته است و همچنین این مدل بر خلاف کوانتایزهای متداول نظیر GGUF که وابسته به کتابخانه هستند نظیر Candle و LlamaCpp مستقل از کتابخانه هست و به راحتی مانند مدل‌های کوانتایز نشده لود می‌شود

https://huggingface.co/amirMohammadi/Dorna-Llama3-8B-Instruct-Quantized4Bit
👍141
این یکی مخصوص دانشجوها،
https://lightning.ai

۲۲ ساعت GPU رایگان
اجرا توی بکگراند (بدون قطع شدن)
حافظه و رم هم رایگان هست
نیاز به Credit Card, ... هم نداره


اگر از ایمیل .edu یا .org استفاده کنید درجا دسترسی برای شما باز میشه
اما اگر ندارید هم مشکلی نداره، نهایتاً ۲-۳ روز طول می‌کشه تا دسترسی شما باز بشه. (بد نیست با چندتا ایمیل درخواست دسترسی بدید، همین حالا)

Milad Saberian
👍6
اگه برای پوزیشن های تکنیکال مثل software engineering، ماشین لرنینگ، دیتا ساینس و data engineering اقدام میکنید، یکی از مهمترین قسمتهای مصاحبه سؤال در مورد system design است. این ریپو کلی ویدیو و مطلب آموزشی داره از آسون به سخت

https://github.com/ashishps1/awesome-system-design-resources?tab=readme-ov-file

Morteza Sharifi
👍5
انتشار دیتاست بزرگ محصولات و کامنت های دیجیکالا


🔍 نکات برجسته مجموعه داده:
- بیش از 1.2 میلیون محصول در چندین ویژگی از جمله قیمت، امتیاز محصول، تعداد آرا، دسته بندی، نام تجاری و موارد دیگر
- مجموعه ای گسترده با بیش از 6 میلیون کامنت محصول، شامل متن کامنت، تاریخ کامنت، امتیاز دهی کاربر، مزایا و معایب ثبت شده توسط کاربر و ...

هم اکنون دانلود کنید:
این مجموعه داده در Kaggle و Hugging Face قابل دسترسی است.

⬇️ لینک دانلود از Kaggle:
https://www.kaggle.com/datasets/radeai/digikala-comments-and-products

⬇️ لینک دانلود از Hugging Face:
https://huggingface.co/datasets/RadeAI/Digikala_comments_products

این دیتاست رو برای اهداف بیزینسی تیممون در تابستان 1402 جمع آوری کردیم و الان برای استفاده محققین و فعالین حوزه دیتا منتشرش کردیم.

Rade AI
👍12
یه سایتی هست به نام hashtag#ناکامولوژی 🤷
که میاد استارتاپ هایی که شکست خوردن رو کامل معرفی می‌کنه و علت شکست رو هم عنوان می‌کنه👌
می‌تونه برای مقابله با خوش بینی بیش از حد و انتخاب مسیر درست خیلی کمک کننده باشه.
اینکه صرفا چشممون به استارت آپ های قوی نره و فکر نکنیم فقط شروع کردن مهمه!🤔
خیلی چیزا هست که می‌تونه یه پروژه خیلی قوی رو زمین بزنه💥
خوندن داستان های شکست به اندازه ی خوندن داستان های موفقیت ضروریه!ولو بیشتر

nakamology.ir

Elmira Niraneh
👍14
انتشار دیتاست‌ها و LLMهای فاین‌تیون شده اختصاصی باسلام
+ به همراه کد و بلاگ تجربه مهندسی


آدم‌ها در باسلام می‌تونن خودشون محصولاتشون رو تعریف کنند. در نتیجه استاندارد ثابتی برای محتوا وجود نداره. یکی از چالش‌هایی که ما در تیم matchmaking باسلام داشتیم این بود که چطور از دل این دیتای بدون ساختار، دیتای ساختاریافته استخراج کنیم که بتونیم در الگوریتم‌های جستجو و دیسکاوری ازشون استفاده کنیم.

برای حل این مسئله ما از مدل‌های زبانی بزرگ (LLM) استفاده کردیم. از اون جا که احتمال دادیم پلتفرم‌های دیگه‌ای هم ممکنه مسئله یا چالش‌های مشابهی به خصوص در زبان فارسی داشته باشند، تصمیم گرفتیم کد، دیتاست‌ها و LLM های فاین تیون شده رو Open Source کنیم.

دیتاست‌ها از جنس Instruction-tuning هستند و همچنین مدل‌ها، فاین‌تیون شده‌ی مدل llama-2.

لینک کالکشن هاگینگ‌فیس مدل‌ها و دیتاست‌ها:
https://huggingface.co/collections/BaSalam/product-catalog-generator-6654e4b5c7ff1a0216849ff8

لینک کد Train مدل:
https://github.com/basalam/product-catalog-generator

لینک بلاگ تجربه مهندسی:
https://vrgl.ir/RZxJY

Mohammadreza Esmaeilian
👍14
اگه آلمان مقصد جذابیه براتون این سایت های مهم کلی بهتون کمک می‌کنن:

و قبلش این و بگم که برای محتوای بیشتر دباره کار تو محیط بین المللی می‌تونید تلگرام کی‌ورک رو هم دنبال کنید:
⁩1. www.uni-assist.de یونی اسیست
2. www.studienkollegs.de لیست کالج ها
3. www.teheran.diplo.de سفارت آلمان در تهران
4. www.hochschulkompass.de جستجوی دانشگاه و رشته
5. www.studieren.de جستجوی دانشگاه و رشته
6. www.dsit.org.ir موسسه گوته
7. www.pdexp.com پست پ د ا
8. www.tntiran.com پست تی ان تی
9. www.dhl.co.ir پست دی اچ ال
10. www.karapost.com کاراپست
11. www.study-in.de جستجوی دانشگاه و رشته
12. www.daad-iran.org دآآد ایران
13. www.daad.de دآآد
14. www.gate-germany.de
15. grad.saorg.ir دانشگاه های مورد تایید وزارت علوم
16. www.hochschulstart.de وابسته به اسیست
17. www.studis-online.de
18. www.howtogermany.com
19. www.numbeo.com هزینه زندگی و مشخصات رفاهی شهر ها
20. www.expatistan.com هزینه زندگی در شهر ها
21. www.lebenslauf.com نوشتن زندگی نامه
22. https://lnkd.in/dXm6jPCv
23. https://lnkd.in/dMH2ZMY6
24. www.testas.de تست آس
25. www.testdaf.de تست داف
26. en.dsh-germany.com د اس ها
27. www.skyscanner.net موتور جستجوی پرواز
28. www.applyabroad.org فروم
29. www.academiacafe.com یه فروم دیگه
30. www.stexx.eu بانک اطلاعاتی تحصیل در همه جا
31. www.topuniversities.com (QS)رده بندی دانشگاه ها
32. https://lnkd.in/diCwRhmY رده بندی دانشگاه ها
33. europass.cedefop.europa.eu وبسایت حرفه ای برای نوشتن رزومه
34. www.deutschland.de در مورد آلمان
35. www.worldatlas.com اطلاعات عمومی کشور ها
36. www.gehalt.de درآمد مشاغل مختلف در آلمان به طور میانگین
37. www.studienwahl.de راهنمای تحصیل در آلمان

برای جستجوی خانه و وگ و هاستل و ...

1. www.airbnb.com
2. www.wg-gesucht.de
3. www.homestay.com
4. www.immowelt.de
5. www.wohnungsmarkt24.de
6. www.immobilienscout24.de
7. www.immonet.de
8. www.studenten-wg.de
9. https://lnkd.in/dFTX2Qaj
10. www.wohngemeinschaft.de
11. www.wohnung-fuer-dich.de
12. www.wg-suche.de
13. www.quoka.de
14. Studierendenwerk der Unis
15. Sonntag, Kurier und andere Zeitungen
16. Facebook (Wohnungssuche/wg - wohnungsbörse / wg- Wohnungsmarkt + esme shahr)
17. www.hostelbookers.com
18. www.hostelworld.com
19. www.studenten-wg.de
20. www.booking.com

برای پرداخت هزینه های اپلای و ...(بدون فیلتر شکن وارد شوید!)
1. www.assist-pay.ir
2. www.parsianpay.com
3. www.tehranpayment.com

مفید برای یادگیری زبان و آموزشی:
1. www.memrise.com
2. www.fluentu.com
3. www.coursera.org

خرید اجناس دسته دوم در آلمان :

1. www.gebraucht.de
2. www.ebay-kleinanzeigen.de
3. www.shpock.com

سایت های خوب کاریابی :
1. www.Indeed.de
2. www.Jobrapido.de
3. www.stepstone.de
4. www.jobtopus.de

Shadi Sepehri
👍12
چون حجم پروژه زبان فارسی باستان زیاده و در آینده قراره وسیع تر بشه و خب مسلما در یک ریپازیتوری گیتهاب جا نمیشه؛ به همین علت براش یک اورگانیزیشن (organization) ساختم.

اگه کسی علاقه داشته باشه میتونه روی این پروژه کار کنه؛ بهم ایمیل بزنید تا من در آینده شما رو عضو لیست People کنم، خیلی هم خوشحال میشم🥰.

کارهای غیر فنی و غیر کدی هم زیاد دارم؛ مثلا پیدا کردن کتاب های خوب، مقاله، ساختن world list برای این زبان، جمع آوری دیتای عکس از کتیبه ها یا دیتای متنی از زبان فارسی باستان و ....

https://github.com/Electronic-Persian-Old-Library
👍9