این عکس هام خیلی قشنگن. اوج نبوغ معماری و هندسه نسل های قبلی رو برای همیشه در تاریخ ثبت کردند.
❤22🔥4
این مقاله از هاروارد و MIT بدون سر و صدا به مهمترین سؤال هوش مصنوعی پاسخ میدهد که هیچکس به درستی بنچمارک نکرده(محک نزده):
آیا مدلهای زبانی بزرگ واقعاً میتوانند مطلب علمی جدیدی را کشف کنند، یا فقط در حرف زدن درباره آن خوب هستند؟
این مقاله که با عنوان «ارزیابی مدلهای زبانی بزرگ در کشف علمی» نامیده میشود و به جای پرسیدن سؤالات پیش پا افتاده و(trivia) ویا معمول از مدلها، چیزی بسیار سختتر را مورد آزمایش قرار داده :
آیا مدلها میتوانند فرضیه بسازند، آزمایش طراحی کنند، نتایج را تفسیر کنند و باورها را مانند دانشمندان واقعی بهروزرسانی کنند؟
این چیزی است که نویسندگان به شیوه متفاوتی انجام دادند 👇
• آنها مدلهای زبانی را در کل حلقه کشف ارزیابی میکنند:
فرضیه → آزمایش → مشاهده → بازنگری
• وظایف شامل زیستشناسی، شیمی و فیزیک هستند، نه پازلهای اسباببازی
• مدلها باید با دادههای ناقص، نتایج پر از نویز(اختلال) و سرنخهای غلط کار کنند
• موفقیت بر اساس پیشرفت علمی اندازهگیری میشود، نه روان بودن یا اعتماد به نفس
آنچه پیدا کردند، تکاندهنده است.
مدلهای زبانی بزرگ در پیشنهاد فرضیهها خوب هستند، اما در همه چیزهای بعدی شکنندهاند.
✓ آنها داده ها را بیش از اندازه با الگوهای سطحی مطابقت میکنند(over fit)
✓ حتی وقتی شواهد با آنها تناقض دارد، رها کردن فرضیههای بد برایشان سخت است
✓ همبستگی را با علیت اشتباه میگیرند
✓ وقتی آزمایشها شکست میخورند، توضیحات توهمی میسازند
✓ برای محتمل بودن بهینهسازی میکنند، نه پیدا کردن حقیقت
شگفتانگیزترین نتیجه:
برخی از مدلهای برتر که در آزمونهای استدلال استاندارد غالب هستند، وقتی مجبور به اجرای آزمایشهای تکراری و بهروزرسانی نظریهها شوند، کاملاً شکست میخورند.
چرا این مهم است:
علم واقعی استدلال یکباره نیست.
علم واقعی حاصل از بازخورد، شکست، بازنگری و خویشتنداری است.
مدلهای زبانی بزرگ امروز:
• مانند دانشمندان حرف میزنند
• مانند دانشمندان مینویسند
• اما هنوز مانند دانشمندان فکر نمیکنند
پیام اصلی مقاله:
هوش علمی، هوش زبانی نیست.
نیاز به حافظه، ردیابی فرضیه، استدلال علی، و توانایی گفتن «اشتباه کردم» دارد.
تا وقتی مدلها نتوانند این کار را به طور قابل اعتماد انجام دهند، ادعاها درباره «دانشمندان هوش مصنوعی» عمدتاً نابهنگام هستند.
این مقاله هوش مصنوعی را تبلیغ نمیکند. شکاف باقیمانده را تعریف میکند.
و دقیقاً به همین دلیل مهم است.
🔗 Alex Prompter
🔻پیوند به مقاله:
https://arxiv.org/abs/2512.15567
https://x.com/i/status/2001909854525624770
آیا مدلهای زبانی بزرگ واقعاً میتوانند مطلب علمی جدیدی را کشف کنند، یا فقط در حرف زدن درباره آن خوب هستند؟
این مقاله که با عنوان «ارزیابی مدلهای زبانی بزرگ در کشف علمی» نامیده میشود و به جای پرسیدن سؤالات پیش پا افتاده و(trivia) ویا معمول از مدلها، چیزی بسیار سختتر را مورد آزمایش قرار داده :
آیا مدلها میتوانند فرضیه بسازند، آزمایش طراحی کنند، نتایج را تفسیر کنند و باورها را مانند دانشمندان واقعی بهروزرسانی کنند؟
این چیزی است که نویسندگان به شیوه متفاوتی انجام دادند 👇
• آنها مدلهای زبانی را در کل حلقه کشف ارزیابی میکنند:
فرضیه → آزمایش → مشاهده → بازنگری
• وظایف شامل زیستشناسی، شیمی و فیزیک هستند، نه پازلهای اسباببازی
• مدلها باید با دادههای ناقص، نتایج پر از نویز(اختلال) و سرنخهای غلط کار کنند
• موفقیت بر اساس پیشرفت علمی اندازهگیری میشود، نه روان بودن یا اعتماد به نفس
آنچه پیدا کردند، تکاندهنده است.
مدلهای زبانی بزرگ در پیشنهاد فرضیهها خوب هستند، اما در همه چیزهای بعدی شکنندهاند.
✓ آنها داده ها را بیش از اندازه با الگوهای سطحی مطابقت میکنند(over fit)
✓ حتی وقتی شواهد با آنها تناقض دارد، رها کردن فرضیههای بد برایشان سخت است
✓ همبستگی را با علیت اشتباه میگیرند
✓ وقتی آزمایشها شکست میخورند، توضیحات توهمی میسازند
✓ برای محتمل بودن بهینهسازی میکنند، نه پیدا کردن حقیقت
شگفتانگیزترین نتیجه:
نمرات بالای بنچمارک (محک زدن) با توانایی کشف علمی همبستگی ندارد.برخی از مدلهای برتر که در آزمونهای استدلال استاندارد غالب هستند، وقتی مجبور به اجرای آزمایشهای تکراری و بهروزرسانی نظریهها شوند، کاملاً شکست میخورند.
چرا این مهم است:
علم واقعی استدلال یکباره نیست.
علم واقعی حاصل از بازخورد، شکست، بازنگری و خویشتنداری است.
مدلهای زبانی بزرگ امروز:
• مانند دانشمندان حرف میزنند
• مانند دانشمندان مینویسند
• اما هنوز مانند دانشمندان فکر نمیکنند
پیام اصلی مقاله:
هوش علمی، هوش زبانی نیست.
نیاز به حافظه، ردیابی فرضیه، استدلال علی، و توانایی گفتن «اشتباه کردم» دارد.
تا وقتی مدلها نتوانند این کار را به طور قابل اعتماد انجام دهند، ادعاها درباره «دانشمندان هوش مصنوعی» عمدتاً نابهنگام هستند.
این مقاله هوش مصنوعی را تبلیغ نمیکند. شکاف باقیمانده را تعریف میکند.
و دقیقاً به همین دلیل مهم است.
🔗 Alex Prompter
🔻پیوند به مقاله:
https://arxiv.org/abs/2512.15567
https://x.com/i/status/2001909854525624770
arXiv.org
Evaluating Large Language Models in Scientific Discovery
Large language models (LLMs) are increasingly applied to scientific research, yet prevailing science benchmarks probe decontextualized knowledge and overlook the iterative reasoning, hypothesis...
❤10🔥2✍1👍1
Forwarded from بخش دانشجویی خانه ریاضیات اصفهان
🔷 بخش دانشجویی خانه ریاضیات اصفهان برگزار میکند:
🔹 #گپ_دانشجویی با موضوع «مقدمهای بر خمهای بیضوی»
👤 ارائهدهنده: زهرا بابک
فارغالتحصیل ارشد ریاضی دانشگاه شهید بهشتی
🗓️ پنجشنبه ۴ دی ۱۴۰۴
🕢 ساعت ۱۹:۳۰
🔗 پیوند شرکت در وبینار:
https://www.skyroom.online/ch/mathhouse/students
♾️ حضور در این وبینار برای همهٔ علاقهمندان آزاد است.
@IMHStudents
🔹 #گپ_دانشجویی با موضوع «مقدمهای بر خمهای بیضوی»
👤 ارائهدهنده: زهرا بابک
فارغالتحصیل ارشد ریاضی دانشگاه شهید بهشتی
🗓️ پنجشنبه ۴ دی ۱۴۰۴
🕢 ساعت ۱۹:۳۰
🔗 پیوند شرکت در وبینار:
https://www.skyroom.online/ch/mathhouse/students
♾️ حضور در این وبینار برای همهٔ علاقهمندان آزاد است.
@IMHStudents
❤8