This media is not supported in your browser
VIEW IN TELEGRAM
یک مدل جدید اومده برای پارس کردن داکیومنت و OCR.حدود ۱۰۰ زبان از جمله فارسی را هم پشتیبانی میکنه. من برای یک عکس یک مقاله امتحان کردم که نتیجه خیلی عالی بود. مدل با اینکه 1.7B پارامتر داره ولی نتایج خیلی خوبند. دمو در ویدیو:
منبع:
🔻 پینوشت:
https://olmocr.allenai.org
#ابزار_هوش_مصنوعی
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4❤3
This media is not supported in your browser
VIEW IN TELEGRAM
شرکت OpenAI رسماً از جدیدترین و قدرتمندترین مدل هوش مصنوعی خودش، GPT-5، رونمایی کرد!
به گفته OpenAI، این مدل جدید، هوشمندترین، سریعترین و کاربردیترین نسخهای هست که تا امروز ساخته شده و از همین حالا برای همه در دسترسه.
حالا این مدل جدید چیکار میکنه؟
حالا ChatGPT طوری طراحی شده که هر وقت لازم باشه، عمیقتر فکر میکنه تا جوابهای بهتری بهت بده.
مدل GPT-5 مثل یک همکار برنامهنویس، کارهای پیچیده رو از صفر تا صد انجام میده، کدهای تمیز و قابل استفاده تحویل میده، طراحی بهتری داره و تو پیدا کردن خطاها (دیباگ کردن) خیلی مؤثرتر عمل میکنه.
برای هر چیزی که میخوای بنویسی، از داستان و ایمیل گرفته تا متن سخنرانی، پیامهای خیلی واضحتر و جذابتری خلق میکنه.
بهترین مدل OpenAI تا امروز برای سؤالهای مربوط به سلامتی که جوابهای دقیقتر و قابل اعتمادتری میده و مثل یک همفکر فعال، بهتون کمک میکنه.
این قابل اعتمادترین مدلیه که تا حالا ساخته شده. خیلی کمتر دچار توهم/هذیان (Hallucination) میشه و الکی تظاهر نمیکنه که چیزی رو میدونه.
ویژگیهای بیشتر مدل GPT-5:
میتونید برای GPT-5 یک شخصیت انتخاب کنید و رنگ چتهات رو هم به سلیقه خودت تغییر بدید.
مدل GPT-5 دستورات صوتی شما رو بهتر درک میکنه و میتونید سبک و لحن صحبت کردنش رو هم به دلخواه خودتون تغییر بدید.
در این حالت، برای یاد گرفتن هر چیزی، کمکِ شخصیسازی شده و قدم به قدم دریافت میکنید.
با متصل کردن ایمیل و تقویم گوگل، جوابهای شخصیسازیشده و مرتبط با خود دریافت کنید.
جزئیات بیشتر در وبسایت OpenAI
منبع:
#معرفی_هوش_مصنوعی
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3🔥3
به گفته OpenAI:
مدل GPT-5 کدهای خیلی باکیفیتتری تولید میکنه، فقط با چندتا دستور ساده میتونه رابط کاربری (UI) فرانتاند بسازه، و در زمینه شخصیتپردازی، کنترلپذیری و اجرای زنجیرههای طولانی از دستورات (tool calls) خیلی بهتر شده.
علاوه بر اینا، دو قابلیت جدید استدلال «مینیمال» (minimal reasoning) و پارامتر «پرحرفی» (verbosity) هم به API اضافه شده.
- نوع ورودی: متن و تصویر (Text & vision)
- پنجره زمینه: 256K | حداکثر خروجی: 128K توکن
- قیمت به ازای هر ۱ میلیون توکن: ورودی $1.25 | خروجی $10.00
- نوع ورودی: متن و تصویر (Text & vision)
- پنجره زمینه: 256K | حداکثر خروجی: 128K توکن
- قیمت به ازای هر ۱ میلیون توکن: ورودی $0.25 | خروجی $2.00
- نوع ورودی: متن و تصویر (Text & vision)
- پنجره زمینه: 256K | حداکثر خروجی: 128K توکن
- قیمت به ازای هر ۱ میلیون توکن: ورودی $0.05 | خروجی $0.40
منبع
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2❤1
به گفته OpenAI:
مدل GPT-5 هوشمندتر، قابل اعتمادتر و دقیقاً برای کارهایی ساخته شده که کسبوکارها به آن وابستهاند. تیم شما میتواند با اطمینان خاطر کامل، وظایف مهم را به آن بسپارد.
مدل GPT-5 در نوشتن، تحقیق، تحلیل داده، کدنویسی و حل مسئله فوقالعاده است. جوابهای دقیقتر و حرفهایتری میدهد و حس همکاری با یک همکار باهوش و بادقت را به شما میدهد.
چتجیپیتی روی کارهای پیچیده بیشتر فکر میکند و سؤالهای مرتبط میپرسد تا کارها متوقف نشوند. هر کارمندی میتواند بدون نیاز به عوض کردن مدل، به نتایج در سطح تخصصی برسد.
مدل GPT-5 با استفاده از فایلهای شرکت شما و اپلیکیشنهای متصل مثل Google Drive، SharePoint و... جوابهای باکیفیتتری تولید میکند و البته به تمام سطوح دسترسی و مجوزهای موجود نیز احترام میگذارد.
برای نسخههای Enterprise و Edu هم در تاریخ ۱۴ آگوست (۲۳ مرداد) عرضه میشود.
منبع
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1👍1
کاوش در دنیای هوش مصنوعی
بالاخره GPT-5 اومد!
تغییرات GPT-5 به زبان ساده:
چتجیپیتی ۵ دیروز منتشر شد. تغییرات زیاد و بزرگی رو در همه چی داشتیم. برای کاربران عادی این یک آپگرید و پیشرفت بزرگه ولی برای کاربران حرفهای، دقیقا برعکس.
🔺 نکات مهم:
1⃣ دستیار صوتی پیشرفته برای همه رایگان شد.
قبلا برای کاربران پولی هم به شدت محدود بود. الان تقریبا نامحدود شده.
2⃣ دیگه چندمدل مختلف نداریم که گیچ شید.
یدونه gpt 5 داریم که با توجه به پرامپتتون تشخیص میده که روش فکر کنه یا نه.
3⃣ کاربران پلاس هفتهای ۲۰۰ بار میتونن از «فکر کردن» استفاده کنن و کاربران رایگان روزی ۱ بار.
این لیمیت قبلا ۱۰۰ تا هفتگی برای مدل o3 بود و ۱۰۰ تا روزانه برای o4-mini-high
4⃣ حالا هم کاربران رایگان و هم پولی از یک مدل واحد استفاده میکنن gpt 5.
رایگانها هر ۵ ساعت ۱۰ پرامپت. کاربران پلاس هر ۳ساعت ۸۰ پرامپت.
منبع:📱 توییت امین انواری Amin Anvary
🔻پینوشت:
✔️ اگر توییتر دارید، امین انواری رو دنبال کنید. مطالب و نکات مرتبط با هوش مصنوعی که میذاره عالیه.
✔️ امین، کانال یوتیوب 🖥 ویژه هوش مصنوعی هم داره، که ویدئوهای خیلی کاربردی هم برای افراد عادی و حرفهای با جزئیات میذاره داخلش. آیدی کانالش برای سرچ در یوتیوب:
💻
✔️ عنوان و لینک چندتا از ویدئوهای خوبش:
📺 ساخت پاورپوینت و ارائهی حرفهای با هوش مصنوعی | Gamma
📺 آموزش کامل ساخت عکس، ویدیو و صدا با تمام مدلهای هوش مصنوعی | Fal.ai
📺 چطور با هوش مصنوعی یک مشاور و مدیر محصول بسازیم؟
📺 آموزش ساخت حافظه دائمی برای تمام مدلهای هوش مصنوعی
📺 آموزش ساخت دیپ ریسرچ شخصی | TypingMind + MCP + Claude
📺 پیدا کردن اولین منبع هر خبر با هوش مصنوعی | آموزش عملی و گام به گام MCP و Claude
📺 چطور یک دستیار هوشمند و همهکاره بسازیم؟ آموزش کامل و عملی | CLINE + OpenRouter
✔️ هر سوالی هم داشتید (در توییتر و کامنتهای یوتیوبش)، معمولا خیلی سریع پاسخ میده.
🖥 @Explore_AI
چتجیپیتی ۵ دیروز منتشر شد. تغییرات زیاد و بزرگی رو در همه چی داشتیم. برای کاربران عادی این یک آپگرید و پیشرفت بزرگه ولی برای کاربران حرفهای، دقیقا برعکس.
قبلا برای کاربران پولی هم به شدت محدود بود. الان تقریبا نامحدود شده.
یدونه gpt 5 داریم که با توجه به پرامپتتون تشخیص میده که روش فکر کنه یا نه.
این لیمیت قبلا ۱۰۰ تا هفتگی برای مدل o3 بود و ۱۰۰ تا روزانه برای o4-mini-high
رایگانها هر ۵ ساعت ۱۰ پرامپت. کاربران پلاس هر ۳ساعت ۸۰ پرامپت.
منبع:
🔻پینوشت:
@AminAnvary
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3❤2👍1
کاوش در دنیای هوش مصنوعی
کاربران پلاس هفتهای ۲۰۰ بار میتونن از «فکر کردن» استفاده کنن و کاربران رایگان روزی ۱ بار.
همونطور که گفتیم، در آپدیت GPT 5:
میتونن از «فکر کردن» استفاده کنن. این در شرایطیه که دستی بیارید روی حالت فکر کردن.
اگر خود GPT تشخیص بده نیاز به فکره و سوییچ کنه، از لیمیت کم نمیشه.
منبع:
#ترفند_هوش_مصنوعی #پرامپت_نویسی
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8👍1
prompt_engineering_for_beginers_mehdi_kiani (1).pdf
939.6 KB
Prompt Engineering for Beginners
این کتاب یک راهنمای جامع و بسیار روان برای همه کسانی است که میخواهند هنر «پرامپت نویسی» یا همان مهندسی پرامپت را از پایه یاد بگیرند. نویسنده کتاب آقای Mark J. Baars و مترجم آن آقای مهدی کیانی، دانشجوی دکتری مهندسی کامپیوتر، هستند.
1⃣ مبانی هوش مصنوعی و پردازش زبان طبیعی به زبان ساده.2⃣ اصول طراحی پرامپتهای مؤثر، از ساختارهای پایه تا تکنیکهای پیشرفته.3⃣ تکنیکهای پیشرفتهای مانند پرامپتهای زنجیره فکری، مبتنی بر نقش و چندمرحلهای.4⃣ کاربردهای عملی در حوزههای مختلفی مثل کسبوکار، آموزش، تولید محتوای خلاقانه (عکس، موسیقی و ویدئو) و حتی حقوق و پزشکی.5⃣ شناسایی خطاهای رایج و روشهای عیبیابی برای رسیدن به بهترین نتیجه.
منبع:
🔻 پینوشت:
#پرامپت_نویسی #مهندسی_پرامپت #معرفی_کتاب
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6
در چت جیپیتی با این پرامپت؛ با توجه به شناختی که از شما داره، یک ست LEGO براتون طراحی میکنه:
create an image of a Lego set based on what you know about me منبع
🔻 پینوشت:
#فان
Please open Telegram to view this post
VIEW IN TELEGRAM
2❤6😁2🔥1
چندماهی هست دارم یک پادکست با موضوع علمی (بیشتر در حوزه علوم زیستی شامل زیستشناسی، بیوتکنولوژی، مهندسی ژنتیک و ...) برای افراد غیرمتخصص، با استفاده از چند هوش مصنوعی تولید میکنم. البته همه روند با AI نیست، و بخشهایی رو دستی انجام میدم که مطابق چیزی که مد نظرم هست تولید بشه و خیلی ماشینی نباشه!
منابع استفاده شده برای این پادکست، بخش اخبار وبسایت معتبر Nature هست که روی جدیدترین مقالات علمی در دنیا، خبر کار میکنه؛ یا به بهانه یک مقاله علمی جدید، یک گزارش کامل تهیه میکنه.
۲۰ اپیزود اول رو با NotebookLM درست کردم، اما مراحل ویرایش صدا و تصحیحِ تلفظ اشتباه کلمات فارسی، شدنی، ولی بسیار زمانبر بود.
از اپیزود ۲۱ به بعد؛ متن خبر رو با یک پرامپت طولانی و کامل به جمنای میدم، ازش میخوام به شکل گفتگوی دو نفره (دو نفر متخصص در حوزهٔ اون خبر) با رعایت حفظ حالت روایی و داستانگویی (storytelling)، ایجاد قلاب برای شروع بحث و همچنین خلاصه و نتیجهگیری در پایان، برام تولید کنه.
متن تولید شده رو با Generate speech (در بخش Generate Media) که در Google AI Studio هست تبدیل به صدا میکنم.
اینجا هم ممکنه بعضی کلمات رو درست تلفظ نکنه که خب کار راحتتره، دوباره با همین بخش «فقط» همون جملات رو دوباره تولید میکنم و در نرمافزار ویرایش صدا جایگزین میکنم.
بعد در یک نرمافزار رایگان و اوپنسورسِ ویرایش صدا (Audacity) کمی کیفیت صدا رو بهتر میکنم (و اگه در تلفظها اصلاحی نیاز باشه انجام میدم)، موزیک رو اضافه میکنم و در نهایت روی پلتفرم پادکست RedCircle که رایگان هست منتشر میکنم.
هرچند بیشتر هدفم موضوعات علوم زیستی هست، ولی خبر علمی که برای خودم جالب باشه رو هم با این روش تولید میکنم.
مثلا چند خبری که با محتوای این کانال سازگار هست اینا هستند:
🔻 پینوشت:
Please open Telegram to view this post
VIEW IN TELEGRAM
3❤18🔥8👍4
اگر شما هم از افرادی بودید که Google AI Pro دانشجویی (شامل Gemeni Pro و کلی امکانات دیگه مثل NotebookLM Plus و ...) رو گرفته بودید (حدود ۳ ماه پیش)؛ ظاهرا کمتر از یکماه (۲۲ سپتامبر ۲۰۲۵ | ۳۱ شهریور ۱۴۰۴) فرصت دارید که تایید کنید دانشجوی محصل در آمریکا هستید تا این اشتراک یکساله مجانی قطع نشه.
هنوز راه حل درست حسابی برای وریفای کردن دانشجویی پیدا نشده. اگه پیدا بشه اطلاعرسانی میکنم.
🖥 @Explore_AI
هنوز راه حل درست حسابی برای وریفای کردن دانشجویی پیدا نشده. اگه پیدا بشه اطلاعرسانی میکنم.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11❤6😱5🙏1
چند هفتهای بود همه جا حرف از یه مدل ناشناس بود که توی رقابتهای LMArena (مرجع مقایسه مدلهای مختلف هوش مصنوعی) سر و صدا کرده بود:
— رتبه ۱ ویرایش تصویر
— رتبه ۱ تبدیل متن به تصویر
خروجیهای این مدل، اونقدر قوی و متفاوت بود که اسمش سر زبونها افتاد: Nano Banana.
حدس و گمانهایی بود که این مدل، آیا وابسته به یک شرکتِ بزرگ هست یا توسط یک تیم کوچک در حال توسعه هست؟
امروز معما حل شد؛ گوگل رسماً اعلام کرده این مدل در واقع همون Gemini 2.5 Flash Image هست که به اپلیکیشن جمنای و ابزارهای توسعهدهندهها اضافه شده.
یکی از دردسرهای مدلهای قبلی این بود که وقتی میخواستی عکسی رو ویرایش کنی، قیافهی شخصیت داخل تصویر عوض میشد یا حیوان خانگیت دیگه شبیه خودش نبود. نانو بانانا این مشکل رو تا حد زیادی حل کرده. مثلا میتونی ازش بخوای دوستت رو با مدل موی دهه ۶۰ یا لباس بالرین نشون بده، بدون اینکه چهرهش تغییر کنه.
فقط بحث تغییر ساده نیست. این مدل دستورات دقیق و عجیب رو هم میفهمه. مثلاً میگی «شخص سمت چپ رو به شوالیه قرون وسطایی تبدیل کن ولی پسزمینه دستنخورده بمونه»، یا حتی «این عکس سگ رو با این عکس آدم ترکیب کن»؛ و نتیجه دقیقاً همون میشه که خواستی.
میتونه المانهای یک تصویر رو به تصویر دیگه منتقل کنه. مثلا رنگ و بافت گلبرگهای یک گل رو بذاره روی یک جفت چکمه. این یعنی از طراحی محصول گرفته تا هنر دیجیتال، دست شما برای خلاقیت بازه.
تصاویر خروجی آنقدر طبیعی و دقیق هستن که انگار با دوربین گرفته شدن. همین باعث شده توی بنچمارکهای LMArena رتبهی اول رو بگیره و حتی از مدلهای Midjourney و OpenAI جلو بزنه (رتبهبندی داخل تصاویر بالا هستن).
هم برای کاربرهای عادی در اپلیکیشن جمنای باز شده (تا ۱۰۰ ویرایش رایگان در روز) و هم برای کاربرهای پولی (تا ۱۰۰۰ ویرایش). توسعهدهندهها هم میتونن از طریق API و AI Studio و Vertex AI بهش دسترسی داشته باشن.
نانو بنانا میتونه خیلی از کارهایی که با Photoshop ساعتها طول میکشه، در چند ثانیه انجام بده. یک پلتفرم فروش آنلاین حتی گزارش داده با این مدل تونسته هزینههای عکاسی رو بهشدت پایین بیاره و نرخ فروشش رو ۳۴٪ افزایش بده.
از ساخت تبلیغات آماده در کمتر از یک ساعت گرفته تا خلق کاراکتر برای بازیهای ویدیویی، این مدل به تیمهای خلاق سرعت و دقت تازهای داده.
مدلهای OpenAI با GPT-4o و Midjourney بازار رو تکون داده بودن. اما گوگل با نانو بنانا نشون داد عقب نیست. مخصوصاً وقتی بدونیم جمنای ماهانه ۴۵۰ میلیون کاربر داره، در برابر ۷۰۰ میلیون کاربر هفتگی ChatGPT.
گوگل برای جلوگیری از سوءاستفاده، همهی تصاویر رو با واترمارکهای SynthID (قابلدیدن و نامرئی) علامتگذاری میکنه. این یعنی جعل و فیکسازی سختتر میشه.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤11🔥6👍5👎1