آیا معیار بهتری از تعداد ارجاعات برای سنجش یه مقاله وجود دارد؟
همون طور که احتمالا در جریان هستید، تعداد دیتاساینتیست های واقعی و غیر واقعی :))) به شدت رو به افزایشه و کلا سرعت منتشر شدن پیپرها تو حوزه AI فقط یکم کمتر از سرعت نوره. در حدی که حتی تو Subfield های AI هم نمیشه به خوبی سیر مقالات رو دنبال کرد که این خودش معضل بزرگیه. یکی از دلایلی که این پیگیری کردن رو مشکل میکنه اینه که خیلی نمیشه فهمید که پیپرهای کلیدی و موثر در هر حوزه کدوماست؟ شاید بشه گفت تنها ابزارهایی که در حال حاضر برای سنجش چنین چیزی داریم اینه که ببیتیم مقاله تو چه ژورنال یا کنفرانسی منتشر شده، چنتا ارجاع بهش شده و مثلا یه نگاهی به نویسندگان بندازیم و ببینیم که از کجا هستند. اما بارها برای من پیش اومده که یه پیپری هر سه تا ویژگی رو داشته اما لزوما پیپر کار راه بنداز یا خوبی نبوده و حتی تو بعضی از موارد درست کار نمیکرده یا غلط بوده.
من کلا همیشه این دغدغه رو داشتم که سعی کنم پیپرهای مهم حوزه های مورد علاقه ام رو از دست ندم و مثلا خودمو بروز نگه دارم ولی خب واقعا با این سرعت عجیب مقالات این کار نشدنیه. ولی خب سعی میکنم که راه های مختلفی رو انتخاب کنم برای در معرض قرار گرفتن پیپرها که یکمی وضع بهتر بشه. در همین راستا یه پیپری دیدم امروز از گروه Bernhard Schoelkopf و Negar Kiyavash که اومدن با استفاده از Causal Inference یه متری ساختن که به جایی که صرفا تعداد ارجاع رو در نظر بگیرید بتونن به نوعی تعداد ارجاع های موثر رو در نظر بگیرن. ایده کار این طوریه که میخواد ببینه در واقع هر پیپری چقدر تو روند ارجاع گرفتن پیپر بعدی موثر بوده.
برای سنجش چنین چیزی میاد و یه سری Counterfactual Sample پیدا میکنه و میاد مقایسه میکنه بین این پیپرهای فرضی که تو همون حوزه هستن و خیلی شبیه مقاله ارجاع دهنده هستن و پیپری که واقعا به پیپر مد نظر ما ارجاع داده کدوم موفق تر بودن(ارجاع بیشتری گرفته). در واقع، به نوعی میخواد اندازه بگیره اثر هر پیپر در موفقیت پیپرهای آینده که بر اساس اون نوشته میشه چقدره و برای این کار از LLM ها استفاده کرده.
برای سنجش اثر علی یه پدیده رو پدیده دیگهای به طور سنتی روش کار به این شکل هست که شما یه تعداد نمونه رو به صورت تصادفی به دو گروه کنترل و درمان تقسیم میکنی که در صورت درست انجام دادن اینکار انتظار داریم که توزیع همه متغییرها به جز متغییر مورد بررسی در هر دو گروه یکسان باشه و بنابراین در چنین وضعی میشه سنجید که نقش تغییر اون متغییر خاص به صورت علی تو متغییر هدف چطور بوده. به این روش میگن RCT که مخفف Randomized Control Trials عه اما در بسیاری از موارد این روش عملی نیست. مثلا اگه بخوای تاثیر مصرف دخانیات بر روی شش انسان ها رو بررسی کرد، اخلاقی نیست که آدم ها رو به تصادف انتخاب کنیم و بگیم سیگار مصرف کنن. یا مثلا در این مورد نمیتونم محققین یه حوزه خاص رو پیدا کنیم و به طور تصادفی انتخاب کنیم که بعضی هاشون یه پیپر خاص رو بهش ارجاع بدن و بقیه ارجاع ندن.
برای همین مجبوریم در چنین مواردی از روش های جایگزین استفاده کنیم. برای این کار اجازه میدیم که تقسیم نمونه ها به گروه کنترل و درمان به صورت طبیعی اتفاق بیفته. در این مقاله سعی کردن اگر پیپری به پیپر دیگری ارجاع داده، بیان و از بین سایر پیپرها پیپری که شباهت بیشتری به پیپر دوم داره رو پیدا کنن به این شرط که به پیپر اولیه ارجاع نداده باشه تا به نوعی بتونن اثر علی ارجاع دادن به اون پیپر رو تقریب بزنن.
تو بخش نتایج دو تا نکته جالب داشت یکی اینکه این متریک همبستگی(کورلیشن) بیشتری با مقالاتی که جایزه ToT ژورنال ها رو بردند داره نسبت به صرفا در نظر گرفتن ارجاع ها و یه معیار دیگه که قبلا ارائه شده بود. ولی برای پیش بینی Best Paper در کنفرانس ها چنین همبستگی ای مشخص نمیشه. علت قطعی این قضیه مشخص نیست، ولی شاید به این خاطر باشه که موقع دادن جایزه تو کنفرانسا سعی میشه Forecast کنن ولی چنین چیزی واسه ژورنال ها کمتر اتفاق میفته و کلا انگار ماهیت جایزه ها تو کنفرانسا (تازه معتبرترین ها رو در نظر گرفتن) یکم نویزی تره.
یکی دیگه هم اینکه اگه نمودار توزیع متریک بر حسب مقالات رو بکشیم بازم به توزیع نمایی با دم بسیار طولانی میرسیم که به نوعی انتظارش میرفت. یعنی درصد خیلی کمی از مقالات هستن که تاثیر گذاری بسیار بالایی دارند و این به صورت نمایی کم میشه.
🔗 لینک مقاله برای بررسی بیشتر.
پ.ن: خیلی خوشحال میشم که نظر شما رو هم در مورد این مقاله یا کلا تجربیاتتون در پیدا کردن پیپرهای مهم بدونم؟ من خودم سعی میکنم یه سری آدم رو در اسکالر دنبال کنم، توییتر آکادمیک رو جدی بگیرم و مشترک یه سری خبرنامه و کانال یوتیوب هستم که پیپرها رو معرفی میکنن.
#note
@SingularThinker
همون طور که احتمالا در جریان هستید، تعداد دیتاساینتیست های واقعی و غیر واقعی :))) به شدت رو به افزایشه و کلا سرعت منتشر شدن پیپرها تو حوزه AI فقط یکم کمتر از سرعت نوره. در حدی که حتی تو Subfield های AI هم نمیشه به خوبی سیر مقالات رو دنبال کرد که این خودش معضل بزرگیه. یکی از دلایلی که این پیگیری کردن رو مشکل میکنه اینه که خیلی نمیشه فهمید که پیپرهای کلیدی و موثر در هر حوزه کدوماست؟ شاید بشه گفت تنها ابزارهایی که در حال حاضر برای سنجش چنین چیزی داریم اینه که ببیتیم مقاله تو چه ژورنال یا کنفرانسی منتشر شده، چنتا ارجاع بهش شده و مثلا یه نگاهی به نویسندگان بندازیم و ببینیم که از کجا هستند. اما بارها برای من پیش اومده که یه پیپری هر سه تا ویژگی رو داشته اما لزوما پیپر کار راه بنداز یا خوبی نبوده و حتی تو بعضی از موارد درست کار نمیکرده یا غلط بوده.
من کلا همیشه این دغدغه رو داشتم که سعی کنم پیپرهای مهم حوزه های مورد علاقه ام رو از دست ندم و مثلا خودمو بروز نگه دارم ولی خب واقعا با این سرعت عجیب مقالات این کار نشدنیه. ولی خب سعی میکنم که راه های مختلفی رو انتخاب کنم برای در معرض قرار گرفتن پیپرها که یکمی وضع بهتر بشه. در همین راستا یه پیپری دیدم امروز از گروه Bernhard Schoelkopf و Negar Kiyavash که اومدن با استفاده از Causal Inference یه متری ساختن که به جایی که صرفا تعداد ارجاع رو در نظر بگیرید بتونن به نوعی تعداد ارجاع های موثر رو در نظر بگیرن. ایده کار این طوریه که میخواد ببینه در واقع هر پیپری چقدر تو روند ارجاع گرفتن پیپر بعدی موثر بوده.
برای سنجش چنین چیزی میاد و یه سری Counterfactual Sample پیدا میکنه و میاد مقایسه میکنه بین این پیپرهای فرضی که تو همون حوزه هستن و خیلی شبیه مقاله ارجاع دهنده هستن و پیپری که واقعا به پیپر مد نظر ما ارجاع داده کدوم موفق تر بودن(ارجاع بیشتری گرفته). در واقع، به نوعی میخواد اندازه بگیره اثر هر پیپر در موفقیت پیپرهای آینده که بر اساس اون نوشته میشه چقدره و برای این کار از LLM ها استفاده کرده.
برای سنجش اثر علی یه پدیده رو پدیده دیگهای به طور سنتی روش کار به این شکل هست که شما یه تعداد نمونه رو به صورت تصادفی به دو گروه کنترل و درمان تقسیم میکنی که در صورت درست انجام دادن اینکار انتظار داریم که توزیع همه متغییرها به جز متغییر مورد بررسی در هر دو گروه یکسان باشه و بنابراین در چنین وضعی میشه سنجید که نقش تغییر اون متغییر خاص به صورت علی تو متغییر هدف چطور بوده. به این روش میگن RCT که مخفف Randomized Control Trials عه اما در بسیاری از موارد این روش عملی نیست. مثلا اگه بخوای تاثیر مصرف دخانیات بر روی شش انسان ها رو بررسی کرد، اخلاقی نیست که آدم ها رو به تصادف انتخاب کنیم و بگیم سیگار مصرف کنن. یا مثلا در این مورد نمیتونم محققین یه حوزه خاص رو پیدا کنیم و به طور تصادفی انتخاب کنیم که بعضی هاشون یه پیپر خاص رو بهش ارجاع بدن و بقیه ارجاع ندن.
برای همین مجبوریم در چنین مواردی از روش های جایگزین استفاده کنیم. برای این کار اجازه میدیم که تقسیم نمونه ها به گروه کنترل و درمان به صورت طبیعی اتفاق بیفته. در این مقاله سعی کردن اگر پیپری به پیپر دیگری ارجاع داده، بیان و از بین سایر پیپرها پیپری که شباهت بیشتری به پیپر دوم داره رو پیدا کنن به این شرط که به پیپر اولیه ارجاع نداده باشه تا به نوعی بتونن اثر علی ارجاع دادن به اون پیپر رو تقریب بزنن.
تو بخش نتایج دو تا نکته جالب داشت یکی اینکه این متریک همبستگی(کورلیشن) بیشتری با مقالاتی که جایزه ToT ژورنال ها رو بردند داره نسبت به صرفا در نظر گرفتن ارجاع ها و یه معیار دیگه که قبلا ارائه شده بود. ولی برای پیش بینی Best Paper در کنفرانس ها چنین همبستگی ای مشخص نمیشه. علت قطعی این قضیه مشخص نیست، ولی شاید به این خاطر باشه که موقع دادن جایزه تو کنفرانسا سعی میشه Forecast کنن ولی چنین چیزی واسه ژورنال ها کمتر اتفاق میفته و کلا انگار ماهیت جایزه ها تو کنفرانسا (تازه معتبرترین ها رو در نظر گرفتن) یکم نویزی تره.
یکی دیگه هم اینکه اگه نمودار توزیع متریک بر حسب مقالات رو بکشیم بازم به توزیع نمایی با دم بسیار طولانی میرسیم که به نوعی انتظارش میرفت. یعنی درصد خیلی کمی از مقالات هستن که تاثیر گذاری بسیار بالایی دارند و این به صورت نمایی کم میشه.
🔗 لینک مقاله برای بررسی بیشتر.
پ.ن: خیلی خوشحال میشم که نظر شما رو هم در مورد این مقاله یا کلا تجربیاتتون در پیدا کردن پیپرهای مهم بدونم؟ من خودم سعی میکنم یه سری آدم رو در اسکالر دنبال کنم، توییتر آکادمیک رو جدی بگیرم و مشترک یه سری خبرنامه و کانال یوتیوب هستم که پیپرها رو معرفی میکنن.
#note
@SingularThinker
🔥10
Which one is wrong?
A) The complex vector space, C, has dimension 1.
B) R^2 can be identified with C.
A) The complex vector space, C, has dimension 1.
B) R^2 can be identified with C.
Anonymous Quiz
23%
A
13%
B
26%
Both
38%
None
👍2
Singular Thinker
0^0 = ?
📝UPDATE: As I mentioned earlier in the comments this proof seems far from convincing as in the last equation we can not easily cancel two terms which both are absolute zero. We can say there is no absolute solution for the 0 ^ 0. Some think we should define it as 1 and others as undefined. I agree with the latter more. However, defining it as 1 brings convenience in some math problems. Thus, for more information feel free to search and read and if you find interesting one share with me.
This subject is also discussed on a Wikipedia page.
@SingularThinker
This subject is also discussed on a Wikipedia page.
@SingularThinker
👍5
"ریاضیات چیزی نیست جز بیان چیزهای یکسان به روشهای مختلف."
این جمله که نقل قولی از یک ریاضیدان هست رو از بخش آخر بلاگ امیر اصغری که در مورد جادوی جدول ضرب بود، آوردم. هم جمله جالبیه هم بلاگش، اگه دوست داشتید ببینیدش.
https://math.omidedu.org/magic-of-multiplication-table/
#math
@SingularThinker
این جمله که نقل قولی از یک ریاضیدان هست رو از بخش آخر بلاگ امیر اصغری که در مورد جادوی جدول ضرب بود، آوردم. هم جمله جالبیه هم بلاگش، اگه دوست داشتید ببینیدش.
https://math.omidedu.org/magic-of-multiplication-table/
#math
@SingularThinker
👍6
Singular Thinker
Photo
#Meme s came back again. I really liked the interesting abstract of paper and Schmidhuber one.
@SingularThinker
@SingularThinker
❤4