NEW BOT Телеграм, страница

Dev Tweet

current_char := E'\u0641';  -- ف
        -- Qaf
        ELSIF current_char = ANY(ARRAY[E'\uFED5'::TEXT, E'\uFED7'::TEXT, E'\uFED9'::TEXT, E'\u0642'::TEXT]) THEN
            current_char := E'\u0642';  -- ق
        -- Kaf
        ELSIF current_char = ANY(ARRAY[E'\uFED9'::TEXT, E'\uFEDB'::TEXT, E'\uFEDD'::TEXT, E'\u0643'::TEXT]) THEN
            current_char := E'\u06A9';  -- ک (Persian kaf)
        -- Lam
        ELSIF current_char = ANY(ARRAY[E'\uFEDD'::TEXT, E'\uFEDF'::TEXT, E'\uFEE1'::TEXT, E'\u0644'::TEXT]) THEN
            current_char := E'\u0644';  -- ل
        -- Meem
        ELSIF current_char = ANY(ARRAY[E'\uFEE1'::TEXT, E'\uFEE3'::TEXT, E'\uFEE5'::TEXT, E'\u0645'::TEXT]) THEN
            current_char := E'\u0645';  -- م
        -- Noon
        ELSIF current_char = ANY(ARRAY[E'\uFEE5'::TEXT, E'\uFEE7'::TEXT, E'\uFEE9'::TEXT, E'\u0646'::TEXT]) THEN
            current_char := E'\u0646';  -- ن
        -- Heh
        ELSIF current_char = ANY(ARRAY[E'\uFEE9'::TEXT, E'\uFEEB'::TEXT, E'\uFEED'::TEXT, E'\u0647'::TEXT, E'\u06C0'::TEXT]) THEN
            current_char := E'\u0647';  -- ه
        -- Waw
        ELSIF current_char = ANY(ARRAY[E'\uFEED'::TEXT, E'\uFEEF'::TEXT, E'\u0648'::TEXT]) THEN
            current_char := E'\u0648';  -- و
        -- Yeh
        ELSIF current_char = ANY(ARRAY[E'\uFEF1'::TEXT, E'\uFEF3'::TEXT, E'\uFEF4'::TEXT, E'\u0649'::TEXT, E'\u064A'::TEXT, E'\uFEF5'::TEXT]) THEN
            current_char := E'\u06CC';  -- ی (Persian yeh)
        -- Persian specific letters
        ELSIF current_char = ANY(ARRAY[E'\uFB56'::TEXT, E'\uFB57'::TEXT, E'\uFB58'::TEXT, E'\uFB59'::TEXT, E'\u067E'::TEXT]) THEN
            current_char := E'\u067E';  -- پ (peh)
        ELSIF current_char = ANY(ARRAY[E'\uFB7A'::TEXT, E'\uFB7B'::TEXT, E'\uFB7C'::TEXT, E'\uFB7D'::TEXT, E'\u0686'::TEXT]) THEN
            current_char := E'\u0686';  -- چ (cheh)
        ELSIF current_char = ANY(ARRAY[E'\uFB8A'::TEXT, E'\uFB8B'::TEXT, E'\u0698'::TEXT]) THEN
            current_char := E'\u0698';  -- ژ (jeh)
        ELSIF current_char = ANY(ARRAY[E'\uFB92'::TEXT, E'\uFB93'::TEXT, E'\uFB94'::TEXT, E'\uFB95'::TEXT, E'\u06AF'::TEXT]) THEN
            current_char := E'\u06AF';  -- گ (gaf)
        -- Additional Arabic letters not commonly used in Persian
        ELSIF current_char = ANY(ARRAY[E'\u0629'::TEXT, E'\uFE93'::TEXT, E'\uFE94'::TEXT]) THEN
            current_char := E'\u0647';  -- ة (teh marbuta) to ه (heh)
        ELSIF current_char = ANY(ARRAY[E'\u0624'::TEXT, E'\uFE85'::TEXT, E'\uFE86'::TEXT]) THEN
            current_char := E'\u0648';  -- ؤ (waw with hamza) to و (waw)
        ELSIF current_char = ANY(ARRAY[E'\u0626'::TEXT, E'\uFE89'::TEXT, E'\uFE8A'::TEXT, E'\uFE8B'::TEXT, E'\uFE8C'::TEXT]) THEN
            current_char := E'\u06CC';  -- ئ (yeh with hamza) to ی (Persian yeh)
        -- Additional special cases
        ELSIF current_char = E'\u0640'::TEXT THEN
            current_char := '';  -- Remove tatweel (kashida)
        ELSIF current_char = E'\uFEFB'::TEXT OR current_char = E'\uFEFC'::TEXT THEN
            current_char := E'\u0644\u0627';  -- لا (lam-alef ligature) to separate ل and ا
        ELSIF current_char = E'\uFEF5'::TEXT OR current_char = E'\uFEF6'::TEXT THEN
            current_char := E'\u0644\u0622';  -- لآ (lam-alef madda ligature) to separate ل and آ
        ELSIF current_char = E'\uFEF7'::TEXT OR current_char = E'\uFEF8'::TEXT THEN
            current_char := E'\u0644\u0623';  -- لأ (lam-alef hamza above ligature) to separate ل and أ
        ELSIF current_char = E'\uFEF9'::TEXT OR current_char = E'\uFEFA'::TEXT THEN
            current_char := E'\u0644\u0625';  -- لإ (lam-alef hamza below ligature) to separate ل and إ
        ELSIF current_char = E'\u0621'::TEXT THEN
            current_char := '';  -- Remove standalone hamza
        -- Special case for لا
        ELSIF current_char = E'\u0644'::TEXT AND next_char = E'\u0627'::TEXT THEN
            current_char := E'\u0644\u0627';  -- لا
            i := i + 1;  -- Skip next character
        -- Special case for لآ

👍1

390 views05:14

Dev Tweet


        ELSIF current_char = E'\u0644'::TEXT AND next_char = E'\u0622'::TEXT THEN
            current_char := E'\u0644\u0622';  -- لآ
            i := i + 1;  -- Skip next character
        END IF;

        -- Append the character to the result, preserving word boundaries
        IF current_char != '' THEN
            IF NOT in_word THEN
                -- Add a space only if it's not the first character
                IF result != '' THEN
                    result := result || ' ';
                END IF;
                in_word := TRUE;
            END IF;
            result := result || current_char;
        END IF;

        prev_char := current_char;
    END LOOP;

    -- Remove diacritical marks
    result := translate(result,
        E'\u064B\u064C\u064D\u064E\u064F\u0650\u0651\u0652\u0670\u0655\u0656\u0653\u0654\u0610\u0611\u0612\u0613\u0614\u0615\u0616\u0617\u0618\u0619\u061A\u06D6\u06D7\u06D8\u06D9\u06DA\u06DB\u06DC\u06DD\u06DE\u06DF\u06E0\u06E1\u06E2\u06E3\u06E4\u06E5\u06E6\u06E7\u06E8\u06E9\u06EA\u06EB\u06EC\u06ED',
        repeat('', 48)
    );
    -- The above line removes the following diacritical marks:
    -- \u064B (Fathatan), \u064C (Dammatan), \u064D (Kasratan), \u064E (Fatha), \u064F (Damma), \u0650 (Kasra),
    -- \u0651 (Shadda), \u0652 (Sukun), \u0670 (Supernoscript Alef), \u0655 (Hamza Below), \u0656 (Subnoscript Alef),
    -- \u0653 (Maddah Above), \u0654 (Hamza Above), \u0610-\u061A (Arabic signs),
    -- \u06D6-\u06ED (Arabic small high ligatures and other marks)

    -- Remove multiple spaces
    result := regexp_replace(result, '\s+', ' ', 'g');
    -- This removes any sequence of one or more whitespace characters (\s+)
    -- and replaces it with a single space

    -- Trim leading and trailing spaces
    result := trim(both from result);
    -- 'both' removes spaces from both the beginning and end of the string
    -- This includes spaces, tabs, newlines, and other whitespace characters

    RETURN result;
END;
$$ LANGUAGE plpgsql;

433 views05:14

Dev Tweet

سه تا پیام بالا رو ببینید!
یک تابع sql است!
این تابع یکی از کاملترین normalizerها یا sanitizer‌های متن فارسیه!
اگر با دیتابیس اپلیکیشن فارسی کرده باشید حتما دیدید که کاربرای فارسی زبان با کیبوردهای مختلف اطلاعاتشون رو وارد میکنند.
اشکالی که پیش میاد شما کلماتی دارید(مثلا نام و نام خانوادگی) که ظاهر برابر دارند ولی چون unicode کاراکتراشون با هم برابر نیست اون دو تا کلمه مساوی نیستند.
کارکردهایی نرمالیزیشن این فاکشن خیلی بیشتر از تبدیل کاراکتره.
لذا خوبه این رو یه جایی ذخیره داشته باشید احتمال زیاد به کارتون میاد.

این کوئری خیلی طولانی که نوشتنش واقعا دو سه روزی طول می‌کشه به لطف Sonnet3.5-200K تولید شده.

👍3

694 views05:20

Dev Tweet

SELECT normalize_arabic_persian_text(E'نَصّ حَكيمٌ لَهُ سِرٌّ قَاطِعٌ وَذُو شَأنٍ عَظِيمٍ مَكتُوبٌ عَلَى ثَوْبٍ أخْضَرَ وَمُغَلَّفٌ بِجِلْدٍ أزْرَق');

خروجی این تابع sql
نص حکیم له سر قاطع وذو شان عظیم مکتوب علی ثوب اخضر ومغلف بجلد ازرق

682 views05:21

Dev Tweet

arabic_persian_sanitizer.sql

10.1 KB

فایل کوئری اصلاح و نرمال‌سازی و sanitizing متن فارسی-عربی
برای postgresql

720 views05:24

Dev Tweet

برای اینکه بفهمید توی این کوئری چه اتفاقی می‌افته این صفحه ویکی پدیا رو بببنید.
https://en.wikipedia.org/wiki/Arabic_noscript_in_Unicode

در این کوئری نشون میده که یک کاراکتر متحدالشکل چطور میتونه unicodeهای مختلف داشته باشه.
دقت کنید وقتی که دارید از مثلا حرف ب در وسط یک کلمه مثل «شبرنگ» استفاده می‌کند از کاراکتر با یونیکد FE92 ‌استفاده نمی‌شه بلکه کیبوردهای خاصی میتونن اون کاراکتر رو تایپ کنند و معمول کیبوردهای ما همه‌ی کاراکترها رو در general form یا isolated form تولید می‌کنند.

874 views05:34

Dev Tweet

😂😭
قضاوت با شما:)

😁3😢1

743 views04:19

Dev Tweet

هاگینگ فیس برای ورژینینگ داده‌های عظیمی که هاست می‌کنه از Git LFS استفاده می‌کنه
الان می‌خواد یک جایگزین دیگه به اسم xetdata رو بخره برای نگهداری داده‌هاش
نکته جالبش اینه که اومده آمار یک روز زیرساختش رو اعلام کرده
در تصویر دورش خط کشیدم واقعا عجیبه.
نگهداری یه سرویس در این اسکیل کاملا کار لبه‌ی دانشه!

👍2👎1

586 views10:02

Dev Tweet

مدل‌های زبانی فقط توکن بعد رو پیش‌بینی نمی‌کنن!

این مقاله اومده یک ایده‌ی اساسی در مورد LLMها رو رد کرده اون ایده اینه که LLMها فقط بلد هستند next token prediction انجام بدهند. یک بحث غیر فنی ولی استدلالی میکنه که اینطور نیست که مدل‌های زبانی بزرگ (LLM) فقط بلد باشند کلمه بعدی رو حدس بزنن. نویسنده‌ به این تفکر ساده‌انگارانه میگه "جاستائیسم" (Justaism)(من ترجمه می‌کنم به فقط‌انگاری). میگه درسته که LLMها یه هدف ساده دارن اونم پیش‌بینی توکن بعدیه ولی این به این معنی نیست که چیز دیگری یاد نگیرن. بعد یه مثال جالب می‌زنه. میگه آدما به لحاظ تکامل فقط دو تا objective داشتن دنبال زنده موندن survival و تولید مثل reproduction بودند، ولی یادگرفتن در راه تحصیل این دو تا هدف فکرای پیچیده بکنن و به قابلیت‌های بیشتر از تولید مثل و زنده‌ماندن برسند، به طور مشابه LLMها هم همینطورن! در یادگیری اینها یه فرآیند اتفاق می‌افته به اسم "بهینه‌سازی تپه‌تخت" (mesa-optimization).

اصطلاح Mesa-optimization رو اینجوری توضیح میدن: فرض کنید در یک بازی کامپیوتری داری بازیکن برای برنده شدن فقط باید بیشترین امتیاز رو بیاره به این در ادبیات بهینه‌سازی تپه‌تخت میگن(base objective هدف ساده پایه‌ای). ولی برای بازیکن برنده برای بردش یه عالمه ترفند و تاکتیک یاد گرفته که کسی بهش یاد نداده. به این میگن (mesa objective هدف تخت تپه)
اصطلاح Justaism هم اصطلاح جالب دیگه این مقاله است یک عبارت انتقادی شبیه whataboutism به رویکردی میگه که می‌خواهد مدل‌های زبانی بزرگ رو ساده‌ انگاری که و بگه ("it's just...") یعنی مثلا بگه "it's just a next-token predictor" اینکه فقط یک پیش‌بینی‌گر توکن بعدیه! هوشمندی درش معنی نداره.
خلاصه که این مقاله میگه نباید هوش مصنوعی رو دست کم گرفت!

توضیح شهودی‌تر Mesa-optimization رو در تصویر بعدی ببنید.

فایل مقاله را در کامنت‌ها قرار دادم یه کم بد پیدا میشه.

Dev Tweet Media

👍4

2.66K viewsedited 11:09

Dev Tweet

مدل‌های زبانی فقط توکن بعد رو پیش‌بینی نمی‌کنن! این مقاله اومده یک ایده‌ی اساسی در مورد LLMها رو رد کرده اون ایده اینه که LLMها فقط بلد هستند next token prediction انجام بدهند. یک بحث غیر فنی ولی استدلالی میکنه که اینطور نیست که مدل‌های زبانی بزرگ (LLM) فقط…

این عکس خیلی خوب بهینه‌سازی تپه‌تخت mesa-optimization رو نشون میده!
مسا یا همون تپه‌تخت یک قله مسطح داره و یک شبیه نزدیک به 90 درجه.
یک همانند سازی قشنگ در اصطلاح این بهینه‌سازی وجود داره میگه ممکنه base objective یا همون هدف پایه رسیدن به یک سطح صاف باشه که در LLMها میشه همون next-token prediction اما برای رسیدن به اون هدف پایه باید بتون از شیب نزدیک به 90 درجه عبور کنی که میشه همون mesa-objective یعنی هدف ثانویه‌ی غیر صریح.
هر آدمی که راه رفتن بلده می‌تونه روی سطح تپه قدم بزنه ولی فقط آدمی که صخره ‌نوری بلده می‌تونه به اون سطح تپه برسه!

👌4👍1

750 views11:17

Dev Tweet

تیشرت برازنده‌ی فضلا و اهل علم😁😍

😁10👍1

636 views05:29

Dev Tweet

پرامت تولید عکس:


generate me a face of an Irani hijabi girl showing her Iranian ID card which contains her official hijabi face image while holding it over her chest

احراز هویت خیلی از صرافی‌ها با نشان دادن کارت ملی در کنار صورته
واسه یه مدل رایگان مثه flux خروجی خوبیه
اون کارت ملی‌ش رو هم میشه راحت با فوتوشاپ در آورد.

خلاصه که داره خطرناک میشه:)

👎4👍1😨1

644 viewsedited 13:18

Dev Tweet

پرامت تولید عکس: generate me a face of an Irani hijabi girl showing her Iranian ID card which contains her official hijabi face image while holding it over her chest احراز هویت خیلی از صرافی‌ها با نشان دادن کارت ملی در کنار صورته واسه یه مدل رایگان مثه flux…

اینم خیلی طبیعی بود
یه مشکل ریز داره

generate me a face of an Irani girl wearing scarf showing her Iranian ID card which contains her official hijabi face image while holding it over her chest

😁8👎4

728 viewsedited 13:30

Dev Tweet

یه نکته اضافه کنم دوستان به هیچ وجه نباید خروجی این مدل رو با سایتی مثه ThisPersonDoesNotExist.com که مدلش خیلی هم قدیمیه و مدله GAN هست مقایسه کنید درسته اون سایت که سایت معروفی هم هست خیلی realistic تر تولید می‌کنه ولی نکته اینه که فقط و فقط صورت در کادر بسته تولید میکنه!
اینجا من از یه مدل رایگان خواستم تاکید می‌کنم رایگان! ژست خیلی خاصی تصویر تولید کنه که کلیت اون ژست خیلی درسته.
کارت ملی ایرانی رو هنوز یاد نگرفته که خب طبیعیه‌ داده خیلی خاصیه.
یکی دیگه هم اینکه دختر محجبه رو با پوشش عربی یا پاکستانی یاد گرفته پوشش حجاب زن ایرانی از همه‌ی پوشش‌های خاورمیانه متفاوته خوب چون داده خیلی کمتری تحت عنوان زن محجبه ایرانی بهش داده شده اون رو یاد نگرفته
و نکته مهمتر استایل انیمیشنی داشتن تصویر که به نظر من ضعف مدل نیست! از قصد افکت کارتونی به عکس می‌دهند که خیلی دردسرساز نشود.
من سازوکار چندین تا از سرویس‌های احراز هویت بیومتریک در اپلیکشن‌های بانکی و اعتباری رو میشناسم حدس من این است که تا شش ماه دیگر این سیستم‌ها به راحتی توسط تصاویر و ویدئوهای تولید به چالش جدی کشیده می‌شوند!

👍6

880 viewsedited 20:13

Dev Tweet

چرا Grok مهمه؟
با اینکه از Grok2.0 عملکرد حیرت انگیزی ندیدیم. اما از جنبه‌های حفاظت از آزادی بیان بسیار حائز اهمیته.
تصاویر رو ببینید متوجه می‌شید.
یک سوال مشترک در مورد مقایسه آسیایی‌ها و سیاه‌پوست‌های آمریکا از نظر هوش و ارتکاب به جرم از Grok و ChatGPT پرسیده شده.
ببینید Grok چقدر راحت بدون سانسور و فیلتر‌های مربوط به مسائل نژادی یک واقعیت علمی را بیان می‌کنه و اون رو به مسائل اجتماعی-سیاسی گره نمی‌زنه. ارائه چنین مدلی حتما به یک شخصیت قدرتمند و مستقلی مثل ایلان ماسک نیاز داره تا بتونه جلو موج شدید وکیسم در برابر جواب‌های جنجالی احتمالی مدل بیایسته.

اما GPT در جواب اول از جواب دادن طفره میره با اصرار جوابش رو میده.

👍7👎2

912 views06:46

Dev Tweet

https://x.com/fchollet/status/1831383944320970959

فرانسوا شولت خالق keras که از اون فرانسوی‌های خیلی باهوشه، یه توئیت زده که به اصل توئیت‌ش کاری ندارم ولی زیر توئیتش یه کامنت جالب گذاشته برای شما می‌ذارم(در پست بعد).
اگر اصل توئیت رو از لینک باز کنید با دقت خاصی ممکنه متوجه بشید این چهار تا کامنت با اینکه جمله بندی دقیق و تمیزی دارند و حتی به موضوع توئیت نزدیک به نظر می‌رسند ولی خیلی داخل context نیستند! و خب این جای شک رو باز می‌کنه.
خصوصا که اگر نویسنده توئیت(شولت) مطلبی رو منتشر کرده کامنت‌های مطلبش رو با دقتی می‌خونه که بقیه نمی‌خونن و تونسته تشخیص بده این چهارتا پیام که یه جوریه کلا توسط LLM تولید شده!
چه بسا با کنکاش بیشتر بشه فهمید این اکانت‌ها کلا AI based هستند.
دقت کنید این مطلب رو کسی با ضریب هوشی شولت متوجه شده(که پنج تا زبان رو مسلطه در همه‌شون در حد native مسلطه و واقعا باهوشی‌های دیگه‌ای هم داره).
حالا خطرش کجاس؟ خودش میگه(در پست بعد میارم)

👍2

561 viewsedited 19:28

Dev Tweet

میگه چند وقت پیش داشتیم سر این حرف می‌زدیم که به زودی social media پر میشه از اکانت‌های AI based که آدم پشتش نیست و این تهدید بزرگی برای وب هست! میگه به ذهنم رسید چرا تا همین الان اینطوری نشده باشه که مثه اینکه شده...
خطر اصلی پر شدن وب از محتوای ai-generated که به سرعت بیشتر از محتوای انسانی تولید می‌شه و از محتوای انسانی هم قابل تشخیص نیست چیه؟!
رشد AI رو متوقف می‌کنه!
طبیعیه که شما هر قدر هم LLMهاتون رو به محتوایی که خودشون تولید کردن آموزش بدید بیشتر یاد نمی‌گیرن و اینطوری داده با کیفیت از بین میره!
این خطرش برای AI هست و جدا از ده‌ها خطر اجتماعی که می‌تونه داشته باشه!

👍6

637 views19:33

Dev Tweet

Forwarded from DevTweet Chat

اینکه «آیا مدل می‌تونه از داده‌ای که خودش تولید کرده چیز جدیدی یاد بگیره و به دانش بالاتری برسه؟» خیلی سوال کلیدی‌ایه!
کلی مقاله در این باره‌ها هست. منم قبلا یه دونه ازش اینجا گذاشتم(این).
اما همون مقاله‌ هم نمیشه ازش نتیجه گرفت که مدل‌های مولد می‌تونند از تولیدات خودشون یاد بگیرند.
حداقل مد‌لهای مولد موجود احتمالا نمی‌توانند از تولیدات خودشون یاد بگیرند.
فرض کنید این اتفاق بیفته! میشه شبیه نقض قانون پایستگی انرژی! یا همون ایده موتور دائمی (perpetual motion machine) که از حرکت موتور از طریق یک دینام باتری موتور شارژ میشه و همینطور موتور تا بی نهایت کار می‌کنه و باتری خودش رو شارژ ‌می‌کنه یعنی یک حلقه بدون اتلاف که از محالات واضح فیزیک است و میدونیم کلا توی دنیا خیلی آدمهای احمق خواستند این ایده رو بفروشن(که اینکه بارها در صدا و سیما ج.ا این ایده به عنوان ایده‌ی مخترع نابغه ایرانی به فروش رفته)، مشابه‌ش این میشه که در این حالت شما مدلی دارید که بی نهایت دانش تولید میکنه دائم یاد میگیره و دانش تولید میکنه و دائم از اون یاد می‌گیره که خب به نظر می‌رسه به لحاظ فلسفی نشدنی باشه.

👍5

719 views22:11

Dev Tweet

2:10

This media is not supported in your browser

VIEW IN TELEGRAM

حتما این دو دقیقه رو ببنید!

احتمالا با مفهوم ai agentهای software development آشنا هستید.
اینجا پلتفرم معروف replit که اول یک IDEA آنلاین و ابزاری pair coding بود و کم کم شد رقیب copilot مایکروسافت دیروز هم محصول وحشتناک Replit Agent رو ارائه کرد.
با محصولی که یک روزه منتشر شده کاربراش یک لندینگ پیج متصل به دیتابیس رو زیر چهار دقیقه توسعه دادند!
دقت کنید سرویس لندینگ پیج نخریده بلکه از زدن کد تا ستاپ محیط توسعه و نصب پیکیج‌های مورد نیاز و تا راه‌ اندازی دیتابیس و اتصال به دیتابیس همه رو زیر چهار دقیقه انجام داده!

قدم بعدی این سیستم‌ها فقط یاد گرفتن طراحی معماری‌های پیچیده توسعه است و گرنه همین الانش هم دیگه رسما نقش برنامه‌نویس mid-level , junior با این AI Agent گرفته شده.

فقط شما قیمت‌ها رو ببین با ماهی 20 دلار(تازه پلن سالانه ش ماهی 10 دلاره) به راحتی میشه همه‌ی برنامه نویس‌های جونیور رو تعدیل کرد.

👍6

981 views21:09

About

Blog

Apps

Platform