This media is not supported in your browser
VIEW IN TELEGRAM
پروژهی «Astra» قبلاً هم میتونست از دوربین گوشی برای دیدن اشیای اطراف استفاده کنه، اما حالا تو نسخهی جدیدش، این مدل میتونه حتی بدون اینکه مستقیم ازش چیزی بخواین، بعضی کارها رو بهجای شما انجام بده.
توی ویدیوی بالا ببینید که چطوری با بهره گرفتن از منابع متعدد به کاربر کمک میکنه تا دوچرخهش رو تعمیر کنه.
@aipulse24
توی ویدیوی بالا ببینید که چطوری با بهره گرفتن از منابع متعدد به کاربر کمک میکنه تا دوچرخهش رو تعمیر کنه.
@aipulse24
👍9❤6
This media is not supported in your browser
VIEW IN TELEGRAM
گوگل داره دستیار هوش مصنوعیش رو مستقیماً به مرورگر کروم اضافه میکنه. از ۲۱ مه، کاربرای پلنهای Pro و Ultra میتونن با زدن دکمهی Gemini توی کروم، ازش بخوان محتوای صفحات وب رو براشون خلاصه یا شفافسازی کنه، یا حتی بهجاشون تو سایتها بچرخه.
فعلاً این قابلیت فقط با دو تب بهطور همزمان کار میکنه، ولی گوگل گفته که قراره تا آخر امسال پشتیبانی از تبهای بیشتر رو هم بهش اضافه کنه.
@aipulse24
فعلاً این قابلیت فقط با دو تب بهطور همزمان کار میکنه، ولی گوگل گفته که قراره تا آخر امسال پشتیبانی از تبهای بیشتر رو هم بهش اضافه کنه.
@aipulse24
❤10🔥6
گوگل در ادامه از یه ابزار جدید به اسم «Stitch» رونمایی کرده؛ ابزاری مبتنی بر هوش مصنوعی که میتونه با استفاده از یه توضیح ساده و انتخاب یه تم، رابط کاربری تولید کنه.
کاربرا میتونن برای هدایت بهتر خروجی Stitch از وایرفریمها، اسکچها و حتی اسکرینشاتهایی از رابطهای دیگه استفاده کنن. این ابزار فعلاً بهصورت آزمایشی از طریق Google Labs در دسترسه.
stitch.withgoogle.com
@aipulse24
کاربرا میتونن برای هدایت بهتر خروجی Stitch از وایرفریمها، اسکچها و حتی اسکرینشاتهایی از رابطهای دیگه استفاده کنن. این ابزار فعلاً بهصورت آزمایشی از طریق Google Labs در دسترسه.
stitch.withgoogle.com
@aipulse24
❤15
This media is not supported in your browser
VIEW IN TELEGRAM
گوگل میت یه قابلیت جدید اضافه کرده که میتونه حرفهای شما رو تقریباً بهصورت لحظهای به زبون ترجیحی طرف مقابل ترجمه کنه.
فعلاً این قابلیت فقط از زبانهای انگلیسی و اسپانیایی پشتیبانی میکنه و بهصورت بتا برای مشترکای پلنهای Google AI Pro و Ultra فعال شده.
@aipulse24
فعلاً این قابلیت فقط از زبانهای انگلیسی و اسپانیایی پشتیبانی میکنه و بهصورت بتا برای مشترکای پلنهای Google AI Pro و Ultra فعال شده.
@aipulse24
🔥18❤1👍1
گوگل داره یه قابلیت جدید رو تست میکنه که بهتون اجازه میده عکس تمامقد خودتونو آپلود کنین تا ببینین لباسهایی مثل شلوار، پیراهن یا دامن چطوری تنتون میشینن. این ویژگی با کمک یه مدل هوش مصنوعی کار میکنه که «بدن انسان و جزئیات لباس» رو درک میکنه.
گوگل همچنین قراره بهزودی امکان خرید در حالت AI Mode رو هم فعال کنه و از یه قابلیت جدید به اسم «agentic checkout» رونمایی کنه که میتونه خودش بهجای شما خرید انجام بده.
@aipulse24
گوگل همچنین قراره بهزودی امکان خرید در حالت AI Mode رو هم فعال کنه و از یه قابلیت جدید به اسم «agentic checkout» رونمایی کنه که میتونه خودش بهجای شما خرید انجام بده.
@aipulse24
🔥16👍6❤3
گوگل همچنین از مدل جدید تولید تصویر خودش با نام Imagen 4 رونمایی کرده؛ مدلی که به گفتهی گوگل نسبت به نسخهی قبلی یعنی Imagen 3 تصاویر دقیقتر و با کیفیتتری تولید میکنه.
این مدل توانایی رندر کردن جزئیاتی مثل بافت پارچه، قطرههای آب و موی حیوانات رو داره و میتونه هم تصاویر فوتورئالیستی و هم آثار انتزاعی بسازه، اونهم در نسبتهای مختلف تصویر و با وضوح تا 2K.
به گفتهی گوگل، Imagen 4 نهتنها از لحاظ کیفیت یه جهش بزرگ حساب میشه، بلکه در تولید متن و تایپوگرافی هم بهبودهای مهمی داشته؛ چیزی که باعث میشه برای ساخت اسلاید، کارت دعوت یا هر چیزی که ترکیب متن و تصویر نیاز داره، گزینهی مناسبی باشه. گوگل وعده داده که نسخهای از این مدل رو بهزودی منتشر میکنه که تا ۱۰ برابر سریعتر از Imagen 3 عمل میکنه.
این مدل از امروز روی اپلیکیشن Gemini، پلتفرمهای Whisk و Vertex AI و همچنین ابزارهای Google Workspace مثل اسلایدز، ویدز و داکس در دسترس قرار گرفته.
@aipulse24
این مدل توانایی رندر کردن جزئیاتی مثل بافت پارچه، قطرههای آب و موی حیوانات رو داره و میتونه هم تصاویر فوتورئالیستی و هم آثار انتزاعی بسازه، اونهم در نسبتهای مختلف تصویر و با وضوح تا 2K.
به گفتهی گوگل، Imagen 4 نهتنها از لحاظ کیفیت یه جهش بزرگ حساب میشه، بلکه در تولید متن و تایپوگرافی هم بهبودهای مهمی داشته؛ چیزی که باعث میشه برای ساخت اسلاید، کارت دعوت یا هر چیزی که ترکیب متن و تصویر نیاز داره، گزینهی مناسبی باشه. گوگل وعده داده که نسخهای از این مدل رو بهزودی منتشر میکنه که تا ۱۰ برابر سریعتر از Imagen 3 عمل میکنه.
این مدل از امروز روی اپلیکیشن Gemini، پلتفرمهای Whisk و Vertex AI و همچنین ابزارهای Google Workspace مثل اسلایدز، ویدز و داکس در دسترس قرار گرفته.
@aipulse24
🔥20❤3
گوگل در کنفرانس دیشب از Gemini Diffusion رونمایی کرد. یه مدل آزمایشی که بهجای پیشبینی کلمهبهکلمه، از تکنیک "دیفیوژن" (پخش تدریجی) برای تولید متن استفاده میکنه. این سیستم دقیقا مشابه چیزیه که قبلا در مدل های خانواده Mercury دیده بودیم.
برخلاف مدلهای زبانی سنتی که متن رو کلمهبهکلمه تولید میکنن، Gemini Diffusion از روشی الهامگرفته از تولید تصویر استفاده میکنه: اصلاح نویز طی چند مرحله.
این سیستم با یه سری نویز تصادفی شروع میکنه و کمکم اون رو به بخشهای کامل و منسجم متن تبدیل میکنه. این روش اجازه میده در میانهی مسیر، اصلاحات انجام بشه و کنترل بیشتری روی خروجی داشت. به گفتهی دیپمایند، این کار باعث میشه خروجیها منسجمتر و از نظر منطقی، مرتبطتر باشن؛ چیزی که مخصوصاً برای کارهایی مثل تولید کد و ویرایش متن خیلی مؤثره، چون دقت، انسجام و امکان بازبینی تو این حوزهها خیلی مهمه.
Gemini Diffusion بهجای اینکه متن رو از چپ به راست و بهصورت خطی تولید کنه، یکباره بخشهای کامل از متن رو تولید میکنه — و این کار رو خیلی سریعتر از مدلهای سنتی انجام میده. دیپمایند گفته این سیستم میتونه با سرعت ۱۴۷۹ توکن بر ثانیه (بدون احتساب سربار سیستم) کار کنه و تأخیر اولیهی اون فقط ۰.۸۴ ثانیهست.
بهگفتهی «برندن اوداناهیو»، پژوهشگر دیپمایند، این مدل توی کارهای برنامهنویسی حتی میتونه به سرعت ۲۰۰۰ توکن در ثانیه هم برسه، حتی وقتی سربارهایی مثل توکنیزیشن، آمادهسازی و بررسیهای ایمنی رو هم در نظر بگیریم.
«اوریول وینیالز»، معاون پژوهش دیپمایند و یکی از مدیران پروژه Gemini، عرضهی این مدل جدید رو یه دستاورد شخصی توصیف کرده و گفته: «همیشه آرزو داشتم بتونم نیاز به تولید متن از چپ به راست رو حذف کنم.» توی نسخهی نمایشی مدل، سرعت خروجی اونقدری بالا بوده که برای دیدن عملکردش، مجبور شدن ویدیو رو آهسته پخش کنن.
در آزمونها، Gemini Diffusion عملکردی تقریباً برابر با نسخهی Gemini 2.0 Flash Lite داشته. توی وظایف برنامهنویسی مثل HumanEval (با دقت ۸۹.۶٪ در مقابل ۹۰.۲٪) و MBPP (۷۶٪ در مقابل ۷۵.۸٪) نتایج تقریباً مساوی بوده.
حتی توی برخی آزمونها مثل LiveCodeBench (۳۰.۹٪ در مقابل ۲۸.۵٪) و LBPP (۵۶.۸٪ در مقابل ۵۶٪)، Gemini Diffusion کمی بهتر ظاهر شده. با این حال، توی حوزههایی مثل استدلال علمی (GPQA Diamond) و آزمون چندزبانهی Global MMLU Lite ضعیفتر عمل کرده و بهترتیب امتیازهای ۴۰.۴٪ و ۶۹.۱٪ رو گرفته، در حالی که مدل Flash Lite امتیازهای بالاتری بهدست آورده (۵۶.۵٪ و ۷۹٪).
به این ترتیب، برای اولینبار یه مدل زبانی مبتنی بر تکنیک دیفیوژن تونسته به سطح عملکرد مدلهای رایج فعلی برسه — حتی با وجود اینکه Gemini 2.0 Flash-Lite یه مدل اقتصادیتر و قدیمیتر از گوگله.
«جک ری»، دانشمند ارشد دیپمایند، این دستاورد رو یه «لحظهی تاریخی» دونسته. تا پیش از این، مدلهای خودبازگشتی (autoregressive) همیشه توی کیفیت متن عملکرد بهتری داشتن و مشخص نبود که مدلهای دیفیوژن بتونن بهشون برسن. ری این موفقیت رو نتیجهی تحقیقات متمرکز و حل «تعداد زیادی» از چالشهای فنی دونسته.
@aipulse24
برخلاف مدلهای زبانی سنتی که متن رو کلمهبهکلمه تولید میکنن، Gemini Diffusion از روشی الهامگرفته از تولید تصویر استفاده میکنه: اصلاح نویز طی چند مرحله.
این سیستم با یه سری نویز تصادفی شروع میکنه و کمکم اون رو به بخشهای کامل و منسجم متن تبدیل میکنه. این روش اجازه میده در میانهی مسیر، اصلاحات انجام بشه و کنترل بیشتری روی خروجی داشت. به گفتهی دیپمایند، این کار باعث میشه خروجیها منسجمتر و از نظر منطقی، مرتبطتر باشن؛ چیزی که مخصوصاً برای کارهایی مثل تولید کد و ویرایش متن خیلی مؤثره، چون دقت، انسجام و امکان بازبینی تو این حوزهها خیلی مهمه.
Gemini Diffusion بهجای اینکه متن رو از چپ به راست و بهصورت خطی تولید کنه، یکباره بخشهای کامل از متن رو تولید میکنه — و این کار رو خیلی سریعتر از مدلهای سنتی انجام میده. دیپمایند گفته این سیستم میتونه با سرعت ۱۴۷۹ توکن بر ثانیه (بدون احتساب سربار سیستم) کار کنه و تأخیر اولیهی اون فقط ۰.۸۴ ثانیهست.
بهگفتهی «برندن اوداناهیو»، پژوهشگر دیپمایند، این مدل توی کارهای برنامهنویسی حتی میتونه به سرعت ۲۰۰۰ توکن در ثانیه هم برسه، حتی وقتی سربارهایی مثل توکنیزیشن، آمادهسازی و بررسیهای ایمنی رو هم در نظر بگیریم.
«اوریول وینیالز»، معاون پژوهش دیپمایند و یکی از مدیران پروژه Gemini، عرضهی این مدل جدید رو یه دستاورد شخصی توصیف کرده و گفته: «همیشه آرزو داشتم بتونم نیاز به تولید متن از چپ به راست رو حذف کنم.» توی نسخهی نمایشی مدل، سرعت خروجی اونقدری بالا بوده که برای دیدن عملکردش، مجبور شدن ویدیو رو آهسته پخش کنن.
در آزمونها، Gemini Diffusion عملکردی تقریباً برابر با نسخهی Gemini 2.0 Flash Lite داشته. توی وظایف برنامهنویسی مثل HumanEval (با دقت ۸۹.۶٪ در مقابل ۹۰.۲٪) و MBPP (۷۶٪ در مقابل ۷۵.۸٪) نتایج تقریباً مساوی بوده.
حتی توی برخی آزمونها مثل LiveCodeBench (۳۰.۹٪ در مقابل ۲۸.۵٪) و LBPP (۵۶.۸٪ در مقابل ۵۶٪)، Gemini Diffusion کمی بهتر ظاهر شده. با این حال، توی حوزههایی مثل استدلال علمی (GPQA Diamond) و آزمون چندزبانهی Global MMLU Lite ضعیفتر عمل کرده و بهترتیب امتیازهای ۴۰.۴٪ و ۶۹.۱٪ رو گرفته، در حالی که مدل Flash Lite امتیازهای بالاتری بهدست آورده (۵۶.۵٪ و ۷۹٪).
به این ترتیب، برای اولینبار یه مدل زبانی مبتنی بر تکنیک دیفیوژن تونسته به سطح عملکرد مدلهای رایج فعلی برسه — حتی با وجود اینکه Gemini 2.0 Flash-Lite یه مدل اقتصادیتر و قدیمیتر از گوگله.
«جک ری»، دانشمند ارشد دیپمایند، این دستاورد رو یه «لحظهی تاریخی» دونسته. تا پیش از این، مدلهای خودبازگشتی (autoregressive) همیشه توی کیفیت متن عملکرد بهتری داشتن و مشخص نبود که مدلهای دیفیوژن بتونن بهشون برسن. ری این موفقیت رو نتیجهی تحقیقات متمرکز و حل «تعداد زیادی» از چالشهای فنی دونسته.
@aipulse24
👍26❤6🔥4❤🔥1
شرکت Anthropic در اولین کنفرانس توسعهدهندگان خودش که پنجشنبه برگزار شد، از دو مدل جدید هوش مصنوعی رونمایی کرد که به گفتهی خودش، جزو بهترین مدلهای موجود در بازار هستن. با توجه به نتایجی که از بنچمارکهای مختلف منتشر شده، این ادعا تا حدی قابلتأییده.
این دو مدل با نامهای Claude Opus 4 و Claude Sonnet 4، اعضای جدید خانوادهی Claude 4 هستن. Anthropic میگه این مدلها توانایی تحلیل دادههای بزرگ، انجام وظایف پیچیده و بلندمدت، و گرفتن تصمیمهای چندمرحلهای رو دارن. همچنین به طور خاص برای انجام کارهای برنامهنویسی آموزش دیدن و برای نوشتن و ویرایش کد مناسبسازی شدن.
مدل Sonnet 4 هم برای کاربران رایگان و هم برای کاربران پولی چتبات Anthropic در دسترسه، اما دسترسی به Opus 4 فقط برای کاربران پولی فراهمه. هزینه استفاده از API این مدلها روی پلتفرمهای Amazon Bedrock و Google Vertex AI هم به این شکله: برای Opus 4، هزینهی ورودی ۱۵ دلار و خروجی ۷۵ دلار برای هر یک میلیون توکنه؛ برای Sonnet 4 هم به ترتیب ۳ و ۱۵ دلار.
بین این دو، Opus 4 مدل قدرتمندتریه و به گفتهی Anthropic میتونه تمرکز خودش رو در مسیرهای طولانی و پیچیده حفظ کنه. از طرف دیگه، Sonnet 4 که نسخهی بهروزرسانیشدهای از Sonnet 3.7 محسوب میشه، در حوزههای کدنویسی و ریاضی عملکرد بهتری از خودش نشون میده و دستورات رو با دقت بیشتری دنبال میکنه.
به گفتهی Anthropic، خانوادهی Claude 4 نسبت به نسخهی قبلی، کمتر دچار پدیدهی موسوم به reward hacking میشن؛ یعنی مدلی که برای رسیدن به جواب درست، از میانبر یا اشکالات موجود در دستور استفاده میکنه.
در تستهای بنچمارک، Opus 4 موفق شده مدلهایی مثل Gemini 2.5 Pro از گوگل و مدلهای o3 و GPT-4.1 از OpenAI رو توی بنچمارک SWE-bench Verified شکست بده. این بنچمارک برای ارزیابی توانایی کدنویسی طراحی شده. با این حال، توی ارزیابیهای پیچیدهتر و چندوجهی مثل MMMU یا GPQA Diamond، نتونسته عملکرد بهتری نسبت به o3 داشته باشه.
مدل Opus 4 قراره با لایههای امنیتی بیشتری عرضه بشه؛ از جمله سیستمهای پیشرفته برای شناسایی محتوای مخرب. تستهای داخلی شرکت نشون داده که این مدل میتونه توانایی افراد دارای تخصص در حوزههای STEM رو برای دسترسی، ساخت یا استفاده از سلاحهای شیمیایی، بیولوژیکی یا هستهای افزایش بده. برای همین، این مدل توی طبقهبندی داخلی انتروپیک در سطح ASL-3 قرار گرفته.
به گفتهی انتروپیک، هر دو مدل Opus 4 و Sonnet 4 مدلهایی «هیبریدی» هستن، یعنی هم میتونن پاسخهای سریع بدن، هم در حالت reasoning با صرف زمان بیشتر، تحلیل عمیقتری انجام بدن. وقتی این حالت فعال باشه، مدل قبل از ارائهی پاسخ، راهحلهای مختلف رو بررسی میکنه و در نهایت، یک خلاصهی «کاربرپسند» از روند تفکر خودش نمایش میده. البته دلیل اینکه کل فرآیند تفکر نمایش داده نمیشه، حفظ مزیت رقابتی شرکت عنوان شده.
این مدلها میتونن بهطور همزمان از ابزارهایی مثل موتور جستوجو استفاده کنن و بین حالت Reasoning و ابزارهای جانبی جابهجا بشن تا کیفیت پاسخها بهتر بشه. همچنین اطلاعات مفید رو در حافظه ذخیره میکنن تا در طول زمان، عملکرد پایدارتری داشته باشن.
همچنین انتروپیک قراره ابزار Claude Code رو هم ارتقا بده. این ابزار به توسعهدهندهها اجازه میده از طریق ترمینال مستقیماً با مدلها تعامل کنن. حالا با نسخهی جدید، Claude Code به محیطهای توسعه مثل IDEها متصل میشه و یک SDK جدید هم براش منتشر شده که اجازه میده به اپلیکیشنهای دیگه متصل بشه و باهاشون کار کنه.
@aipulse24
این دو مدل با نامهای Claude Opus 4 و Claude Sonnet 4، اعضای جدید خانوادهی Claude 4 هستن. Anthropic میگه این مدلها توانایی تحلیل دادههای بزرگ، انجام وظایف پیچیده و بلندمدت، و گرفتن تصمیمهای چندمرحلهای رو دارن. همچنین به طور خاص برای انجام کارهای برنامهنویسی آموزش دیدن و برای نوشتن و ویرایش کد مناسبسازی شدن.
مدل Sonnet 4 هم برای کاربران رایگان و هم برای کاربران پولی چتبات Anthropic در دسترسه، اما دسترسی به Opus 4 فقط برای کاربران پولی فراهمه. هزینه استفاده از API این مدلها روی پلتفرمهای Amazon Bedrock و Google Vertex AI هم به این شکله: برای Opus 4، هزینهی ورودی ۱۵ دلار و خروجی ۷۵ دلار برای هر یک میلیون توکنه؛ برای Sonnet 4 هم به ترتیب ۳ و ۱۵ دلار.
بین این دو، Opus 4 مدل قدرتمندتریه و به گفتهی Anthropic میتونه تمرکز خودش رو در مسیرهای طولانی و پیچیده حفظ کنه. از طرف دیگه، Sonnet 4 که نسخهی بهروزرسانیشدهای از Sonnet 3.7 محسوب میشه، در حوزههای کدنویسی و ریاضی عملکرد بهتری از خودش نشون میده و دستورات رو با دقت بیشتری دنبال میکنه.
به گفتهی Anthropic، خانوادهی Claude 4 نسبت به نسخهی قبلی، کمتر دچار پدیدهی موسوم به reward hacking میشن؛ یعنی مدلی که برای رسیدن به جواب درست، از میانبر یا اشکالات موجود در دستور استفاده میکنه.
در تستهای بنچمارک، Opus 4 موفق شده مدلهایی مثل Gemini 2.5 Pro از گوگل و مدلهای o3 و GPT-4.1 از OpenAI رو توی بنچمارک SWE-bench Verified شکست بده. این بنچمارک برای ارزیابی توانایی کدنویسی طراحی شده. با این حال، توی ارزیابیهای پیچیدهتر و چندوجهی مثل MMMU یا GPQA Diamond، نتونسته عملکرد بهتری نسبت به o3 داشته باشه.
مدل Opus 4 قراره با لایههای امنیتی بیشتری عرضه بشه؛ از جمله سیستمهای پیشرفته برای شناسایی محتوای مخرب. تستهای داخلی شرکت نشون داده که این مدل میتونه توانایی افراد دارای تخصص در حوزههای STEM رو برای دسترسی، ساخت یا استفاده از سلاحهای شیمیایی، بیولوژیکی یا هستهای افزایش بده. برای همین، این مدل توی طبقهبندی داخلی انتروپیک در سطح ASL-3 قرار گرفته.
به گفتهی انتروپیک، هر دو مدل Opus 4 و Sonnet 4 مدلهایی «هیبریدی» هستن، یعنی هم میتونن پاسخهای سریع بدن، هم در حالت reasoning با صرف زمان بیشتر، تحلیل عمیقتری انجام بدن. وقتی این حالت فعال باشه، مدل قبل از ارائهی پاسخ، راهحلهای مختلف رو بررسی میکنه و در نهایت، یک خلاصهی «کاربرپسند» از روند تفکر خودش نمایش میده. البته دلیل اینکه کل فرآیند تفکر نمایش داده نمیشه، حفظ مزیت رقابتی شرکت عنوان شده.
این مدلها میتونن بهطور همزمان از ابزارهایی مثل موتور جستوجو استفاده کنن و بین حالت Reasoning و ابزارهای جانبی جابهجا بشن تا کیفیت پاسخها بهتر بشه. همچنین اطلاعات مفید رو در حافظه ذخیره میکنن تا در طول زمان، عملکرد پایدارتری داشته باشن.
همچنین انتروپیک قراره ابزار Claude Code رو هم ارتقا بده. این ابزار به توسعهدهندهها اجازه میده از طریق ترمینال مستقیماً با مدلها تعامل کنن. حالا با نسخهی جدید، Claude Code به محیطهای توسعه مثل IDEها متصل میشه و یک SDK جدید هم براش منتشر شده که اجازه میده به اپلیکیشنهای دیگه متصل بشه و باهاشون کار کنه.
@aipulse24
🔥21❤5👍1