این مقاله، کاملترین تاریخچه الگوریتم های شبکه های عصبی است و با هم به لحظه پیدایش تا تحویل امروزی این الگوریتم ها سفر می کنیم. تصور کنید سال ۱۹۵۸ است؛ یک روانشناس جوان به نام فرانک روزنبلات در دانشگاه کرنل، دستگاهی به اسم مارک ۱ پرسپترون را روشن می کند. فقط یک لایه نورون، چند وزن قابل تنظیم و یک قانون سادهی یادگیری، همین و بس. اما همین دستگاه کوچک، همان لحظه ای که توانست تصاویر ساده را از هم تشخیص دهد، رویای تقلید مغز انسان را به یک احتمال واقعی تبدیل کرد. از آن روز تا بحال؛ هر بار که یک مدل جدید تصاویر را بهتر می بیند، متن می نویسد یا حتی آهنگ می سازد، در حقیقت همان رویای روزنبلات است که بزرگ تر شده و نفس می کشد. با ما همراه باشید تا داستان اولین ضربان قلب ایجاد الگوریتم های شبکه های عصبی را تا جایی که امروز دنیا را زیر و رو کرده است، بدانید.

مفهوم الگوریتم های شبکه های عصبی چیست؟

الگوریتم های شبکه های عصبی روش های محاسباتی هستند که از ساختار مغز انسان الهام گرفته شده اند و برای یادگیری الگوها در داده ها استفاده می شوند. در واقع، الگوریتم های اصلی شامل پرسپترون (برای شبکه های تک لایه)، پرسپترون چندلایه (MLP) برای وظایف پیچیده تر و الگوریتم های یادگیری مانند پس انتشار خطا (Backpropagation) و گرادیان نزولی (Gradient Descent) برای تنظیم وزن ها و بهینه سازی عملکرد شبکه هستند. الگوریتم های دیگری نیز مانند شبکه های پیچشی (CNN) برای پردازش تصویر و شبکه های حافظه بلند و کوتاه مدت (LSTM) برای پردازش داده های متوالی (مانند زبان) نیز وجود دارند.
خیلی ها وقتی عبارت «الگوریتم شبکه عصبی» را می شنوند، فورا به تعداد لایه ها، به ResNet-۱۵۲ یا GPT-۴ یا ViT فکر می کنند؛ درست مثل وقتی کسی عاشق چیزی میشود و اول به ظاهر آن نگاه می کند، اما ظاهر فقط پوسته است. چیزی که باعث می شود یک شبکه عصبی واقعا «یاد بگیرد» و هر روز از دیروز باهوش تر باشد، الگوریتم یادگیری هستند. به عبارت دیگر، معماری فقط اسکلت است؛ الگوریتم، خونی گرم در داخل رگ هاست.
بدون الگوریتم های شبکه های عصبی درست، حتی عمیق ترین شبکه هم مثل یک بدن بی جان می ماند؛ سال های ۲۰۱۰ تا ۲۰۱۲ را یادتان هست؟ همه شبکه ها معماری های عمیق را داشتند، اما کسی نمی توانست آن ها را درست آموزش دهد؛ وزن ها یا منفجر می شدند یا به صفر می رسیدند. تا اینکه همان الگوریتم های سادهی بهینه سازی و ترفندهای اولیه سازی آمدند و ناگهان ImageNet لرزید. الگوریتم نه تنها قلب است؛ گاهی وقت ها روح هم هست. چون فقط اوست که می تواند به شبکه بگوید: «دردت اینجاست، اشتباهت اینجاست، بیا درستش کنیم.» و این دقیقا همان چیزی است که در بخش بعدی می خواهیم با تمام وجود حسش کنیم.
تاریخچه تحول الگوریتم های شبکه های عصبی

تاریخچه الگوریتم های شبکه های عصبی، از زمستان سال ۱۹۸۶ شروع شد؛ سه نفر (راملهارت، هینتون، ویلیامز) مقاله ای منتشر کردند که فقط ۳۰ صفحه بود، اما دنیا را برای همیشه عوض کرد. اسمش ساده بود: «یادگیری نمایش ها با انتشار رو به عقب خطا». اما در دلش یک انقلاب خوابیده بود.
تا قبل از آن، اگر شبکه عصبی، دو یا سه لایه داشت و آموزشش مثل کابوس بود؛ حتی خطا را نمی شد درست به لایه های قبلی رساند. اما این سه نفر گفتند: «بیایید خطا را از آخر به اول بفرستیم.» مثل معلمی که امتحان دانش آموز را از سوال آخر شروع می کند و به او می گوید: «اینجا اشتباه کردی، چون اینجا را اشتباه فهمیدی، و آن یکی را هم به همین خاطر.»
این ایده ی به ظاهر ساده، در حقیقت یک شاهکار ریاضی بود: استفاده از قانون زنجیره ای برای محاسبه ی مشتق جزئی هر وزن نسبت به خطای کل. ناگهان همه چیز ممکن شد. گرادیان دیگر گم نمی شد (حداقل نه خیلی زود). وزن ها دیگر تصادفی تغییر نمی کردند؛ با دقت جراحی تنظیم می شدند. همان سال بود که یادگیری عمیق از یک رویای غیرممکن به یک علم قابل اجرا تبدیل شد.
امروز که تو سال ۲۰۲۵ یک مدل ۷۰ میلیارد پارامتری را با لپ تاپ شخصی فاین تیون می کنی و فقط با چند ساعت آموزش نتیجه می گیری، در حقیقت داری از همان معلمی استفاده می کنی که سال ۱۹۸۶ به دنیا آمد. فقط لباسش عوض شده، موهایش سفیدتر شده و اسم های جدیدتری به خودش گرفته (مثل backprop through time، truncated BPTT، یا حتی backprop در ترنسفورمرها)، ولی قلبش هنوز همان قلب است: خطا را بگیر، به عقب بفرست، به هر نورون بگو چقدر در این اشتباه شریک بوده و بعد وزن ها را کمی جابه جا کن… و این چرخه را میلیون ها بار تکرار کن تا دنیا را بفهمی! البته این تازه اول راه بود؛ چون همین معلم مهربان، خیلی زود با مشکلات خودش روبرو شد و مجبور شد شاگردانی باهوش تر تربیت کند؛ شاگردانی به اسم Momentum، Adam و Lion که در بخش های بعدی یکی یکی می آیند و داستان را شیرین تر می کنند…
گرادیان نزولی و سه طعم جادویی آن

حالا که معلم (انتشار رو به عقب) خطا را به همه ی نورون ها رسانده، وقت آن است که واقعا کاری کنیم. اینجا وارد قلمرو «گرادیان نزولی» می شویم؛ همان مسیری که شبکه هر بار با یک قدم کوچک به سمت کمترین خطا می رود. تصور کن روی قله ی یک کوه پر از مه ایستاده ای و فقط می دانی «شیب اینجاست». هر قدمت را در جهت شیب تندتر برمی داری. این دقیقا همان کاری است که گرادیان نزولی انجام می دهد.
اولین طعم، وانیلی و کلاسیک است: SGD خام. ساده، پاک و گاهی لجباز. یک مینی بچ را نگاه می کند، گرادیان را حساب می کند و با یک نرخ یادگیری ثابت قدم برمی دارد. گاهی در گودال های کوچک گیر می کند، گاهی هم توی مسیرهای باریک و زیگزاگی دیوانه وار می چرخد. اما روحش پاک است و هنوز در سال ۲۰۲۵ وقتی کسی می خواهد دقیقا بفهمد شبکه چه کار می کند، اول با SGD خام شروع می کند.
دومین طعم، مومنتوم (Momentum) است؛ همان لحظه ای که فیزیک وارد هوش مصنوعی شد. به جای اینکه فقط به شیب فعلی نگاه کنیم، یادمان می ماند قبلاً به کدام سمت می رفتیم. مثل وقتی با دوچرخه از سراشیبی می آیی پایین؛ حتی اگر شیب کم شود، سرعتت هنوز بالاست و از گودال های کوچک رد می شوی. سال ۲۰۱۲ که الکسی نت دنیا را گرفت، تقریبا همه از مومنتوم استفاده می کردند. هنوز هم وقتی کسی می گوید «آموزشم نوسان داره»، اولین چیزی که می گوییم این است: «مومنتوم بذار، نفسش باز می شه».
سومین طعم، آدام (Adam) است؛ پادشاهی که سال ۲۰۱۵ تاج گذاری کرد و هنوز هم تختش را از دست نداده. آدام نه فقط شتاب می گیرد، بلکه اندازه ی قدم هر وزن را هم جداگانه تنظیم می کند. وزن هایی که زیاد تغییر می کنند، قدم های کوچک تر برمی دارند؛ وزن هایی که آرام حرکت می کنند، جرأت می کنند قدم های بزرگ تر بردارند. نتیجه؟ تقریباً در هر مسئله ای، از تصویر تا متن تا صدا، از همان اپوک اول شروع به یادگیری می کند. امروز که مدل های چندصده میلیارد پارامتری را آموزش می دهیم، آدام (یا پسرعمویش AdamW) هنوز قهرمان بی چون و چرای زمین بازی است.
سه شخصیت، یک هدف را دنبال کردند؛ آن هم پایین آمدن از کوه خطا، هر کدام با سبک خودشان بود. اما کوه گاهی خیلی بزرگ تر از آن چیزی است که فکر می کنیم و اینجا کابوس واقعی شروع می شود.
کابوس گرادیان گم شونده و راه حل های هوشمندانه

کابوس گرادیان گم شونده اینطور رخ می دهد که شبکه را عمیق تر می کنیم؛ ۱۰ لایه، ۵۰ لایه، ۱۰۰ لایه؛ ناگهان یک چیز عجیب اتفاق می افتد؛ لایه های ابتدایی دیگر هیچ چیزی یاد نمی گیرند. گرادیان وقتی به آنها میرسد، آنقدر کوچک شده که عملا صفر است. انگار فریاد خطا در یک تونل بی نهایت بلند گم شده باشد. به این می گویند گرادیان گم شونده (Vanishing Gradient). البته بر عکسش هم هست؛ گاهی گرادیان منفجر می شود و وزن ها به اعداد نجومی می رسند؛ همه چیز خراب می شود.
اولین کسی که سال ۲۰۱۰، واقعا این کابوس الگوریتم های شبکه های عصبی را حل کرد، یک تابع فعال سازی ساده به اسم ReLU آورد و گفت: «به جای سیگموئید که گرادیان را خفه می کند، بذارید وقتی مثبت است گرادیان همیشه ۱ باشد.» و دنیا نفس راحتی کشید.
بعد نوبت اولیه سازی وزن رسید؛ روش های Xavier و He آمدند و گفتند: «وزن ها را نه خیلی بزرگ بدهید که منفجر شوند، نه خیلی کوچک که گم شوند.»
سپس Batch Normalization مثل یک جادوگر وارد شد؛ هر لایه را مجبور کرد خروجی اش میانگین صفر و واریانس یک داشته باشد. ناگهان گرادیان ها مثل رودخانه ای روان جریان پیدا کردند.
Layer Normalization، Gradient Clipping، Skip Connectionها و Residual Networkها هم یکی یکی آمدند و هر کدام تکه ای از پازل را تکمیل کردند. نتیجه اش این شد که امروز یک مدل با ۱۵۲ لایه (ResNet) روی یک GPU معمولی در چند ساعت آموزش می بیند، در حالیکه سال ۲۰۱۰ آموزش یک شبکه ی ۸ لایه هم کابوس بود.
این کابوس تمام شد، اما رویا تازه شروع شده بود؛ چون همین راه حل ها درهای جدیدی برای الگوریتم شبکه های عصبی باز کردند. درهایی به سمت ترنسفورمرها، به سمت مدل هایی که دیگر فقط تصویر نمی بینند، بلکه دنیا را می فهمند و این داستان، هنوز ادامه دارد…
از پرسپترون تا ترنسفورمر تکامل یک رویا

بیایید نگاهی بیندازیم به پرسپترون تا ترنسفورمر و تکامل یک رویا؛ آن دستگاه کوچک سال ۱۹۵۸ فقط یک لایه داشت و فقط می توانست خطوط را از هم جدا کند، اما رویایی در دلش بود؛ اینکه «من می خواهم مثل مغز باشم». شصت و اندی سال بعد، همان رویا امروز صبح در گوشی ات بیدار شد، به زبان فارسی بهت جواب داد، عکس گربه ات را تشخیص داد و حتی برایت شعر گفت. این مسیر از پرسپترون تا ترنسفورمر، یکی از زیباترین داستان های تکامل است که درباره الگوریتم های شبکه های عصبی در طول تاریخ علم شاهد آن هستیم.
اولین جهش بزرگ دهه ی ۸۰ با شبکه های چندلایه و انتشار رو به عقب بود که رویا یاد گرفت راه برود. دههی ۹۰ و اوایل ۲۰۰۰ دورهی تاریک بود؛ همه فکر می کردند این رویا مرده است. اما در دل آزمایشگاه های کوچک، شبکه های کانولوشنی (LeNet) و شبکه های بازگشتی (LSTM و GRU) آرام آرام نفس می کشیدند و منتظر لحظه ی خودشان بودند.
لحظهی انفجار سال ۲۰۱۲ آمد؛ الکسی نت با پنج لایه ی کانولوشنی و دو لایه ی کاملا متصل، مسابقه ی ImageNet را چنان خرد کرد که دیگر هیچ کس نتوانست بگوید «شبکه های عصبی فقط اسباب بازی اند». چهار سال بعد، آلفاگو با ترکیب شبکه های کانولوشنی و مونت کارلو، قهرمان جهان گو را شکست و به همه ثابت کرد این رویا دیگر فقط تصویر نمی بیند؛ فکر هم می کند.
در مسیر این تکامل الگوریتم های شبکه های عصبی، نوبت حافظه رسید؛ LSTM و GRU جمله های بلند را به یاد می آوردند، اما هنوز کند بودند و گرادیانشان در زمان گم می شد. تا اینکه تابستان ۲۰۱۷، هشت محقق گوگل مقاله ای هشت صفحه ای منتشر کردند با عنوان ساده ی «Attention is All You Need». آن ها گفتند: «ما دیگر به بازگشتی نیاز نداریم. فقط توجه کنیم کافی است.» ترنسفورمر متولد شد. یک سال بعد BERT آمد، یک سال بعدش GPT-۲، بعد GPT-۳ و ناگهان دنیا فهمید که همان پرسپترون تک لایه حالا می تواند شعر حافظ را ادامه دهد، کد پایتون بنویسد و حتی وکیل شود.
از سال ۲۰۲۰ به بعد، سرعت تکامل دیوانه کننده شد؛ ViT نشان داد کانولوشن هم لازم نیست؛ فقط توجه کافی است. Perceiver گفت حتی تعداد توکن ها هم مهم نیست. Mamba و RWKV آمدند و گفتند توجه هم گاهی گران است؛ می شود با حالت های پنهان خطی هم کار را راه انداخت. اما روح همه ی این ها هنوز همان رویای روزنبلات است؛ فقط لباسش عوض شده، قلبش بزرگتر شده و حالا کل دنیا را در آغوش گرفته.
الگوریتم های شبکه های عصبی نسل جدید

امروز که این مقاله را میخوانید الگوریتم های شبکه های عصبی نسل جدید، دیگر فقط سریع تر نشده اند؛ آنها در زمان صرفه جویی می کنند، هوشمند هستند و حتی روی گوشی های موبایل، اجرا می شوند. به نظر می رسد LoRA و QLoRA شاید بزرگترین شوک دو سال اخیر باشند. چون دیگر لازم نیست کل مدل ۷۰ میلیارد پارامتری را آموزش بدهی؛ فقط چند ماتریس کوچک اضافه می کنی، آن ها را آموزش می دهی و مدل غول پیکر ناگهان زبان جدید یاد می گیرد، لحن تو را تقلید می کند یا حرفهی تخصصیات را می فهمد؛ آن هم با چند صد مگابایت حافظه و چند ساعت روی یک GPU خانگی. این دقیقا همان لحظه ای است که رویای روزنبلات از آزمایشگاه بیرون آمد و وارد جیب همه شد.
Lion، Sophia و Adafactor هم آمدند و گفتند: «آدام عزیز است، اما حافظه زیادی می خورد». Lion با نصف حافظهی آدام همان کار را می کند و گاهی حتی بهتر. Sophia حتی جرات کرد بگوید «می شود بدون مومنتوم هم سریع بود». نتیجه؟ مدل های یک تریلیون پارامتری حالا روی خوشه های کوچک تر و ارزان تر آموزش می بینند.
FlashAttention-2 و PagedAttention هم آمدند و حافظهی GPU را مثل یک جادوگر مدیریت کردند. دیگر لازم نیست مدل ۴۰۵ میلیارد پارامتری را در چند GPU غول پیکر جا بدهی؛ یک سرور معمولی کافیست.
در نهایت، تکنیک های جدید موقعیت دهی مثل RoPE، ALiBi و xPos نشان دادند حتی نحوهی کدگذاری موقعیت هم می تواند هوشمندتر باشد؛ دیگر لازم نیست موقعیت مطلق یا نسبی را سخت کد کنیم، مدل خودش یاد می گیرد چطور طول متن را تا صدها هزار توکن بفهمد.
این الگوریتم های شبکه های عصبی دیگر فقط ابزار نیستند؛ آن ها ادامهی همان رویایی هستند که سال ۱۹۵۸ با یک لایه شروع شد. حالا دیگر پرسپترون کوچک روزنبلات در جیب تو زندگی می کند، با تو حرف می زند، به تو کمک می کند و هر روز باهوش تر می شود. این داستان هنوز تمام نشده؛ فقط فصل های هیجان انگیزترش تازه شروع شده اند.
تجربه الگوریتم های شبکه های عصبی جدید در پلتفرم اکیان

وقت آن رسیده تا استفاده از بهترین الگوریتم های شبکه های عصبی جدید را در یک پلتفرم، تجربه کنی. یادت هست چقدر طول کشید تا اولین بار، بک پروپ را روی یک شبکه ی کوچک اجرا کنی؟ چقدر منتظر ماندی تا یک سرور خالی پیدا کنی؟ چقدر پول دادی تا فقط چند ساعت به GPT-4 دسترسی داشته باشی؟ حالا تصور کن تمام این رویا از پرسپترون روزنبلات تا جدیدترین LoRA و FlashAttention، فقط با یک کلیک جلوی دستت باشد.
اکیان دقیقا همان جایی است که این رویای شصت ساله را به واقعیت روزمره تبدیل کرده. یک پلتفرم ایرانی که درِ تمام مدل های برتر دنیا را همزمان باز کرده:
- گروک (Grok) از xAI با طنز و سرعت دیوانه کننده اش
- GPT-4 و GPT-4o کاملا رایگان و بدون محدودیت صف
- Gemini 1.5 Pro و Flash با یک میلیون توکن کانتکست
- Claude 3 Opus و Sonnet
- DeepSeek، Qwen، Llama-3-70B و ده ها مدل منبع باز قدرتمند دیگر
همه در یک داشبورد تمیز، با زبان فارسی کامل، با سرعت بالا و بدون نیاز به وی پی ان در دسترس هستند. فقط ثبت نام می کنی، اعتبار می خری (یا از اعتبار رایگان خوشامدگویی استفاده می کنی) و همان لحظه می توانی هم زمان با گروک گپ بزنی، با جمنای کد بنویسی، با دیپ سیک ریاضی حل کنی و با GPT-4 پروژه ات را پیش ببری.
و میپرسید بهترین بخش کجاست؟ GPT-4 در اکیان کاملا رایگان است؛ نه محدودیت روزانه، نه صف، نه نیاز به اشتراک ChatGPT Plus؛ فقط وارد می شوی و شروع می کنی.
اکیان فقط یک چت بات نیست؛ دروازهای به همان آینده ای هست که روزنبلات سال ۱۹۵۸ خوابش را می دید. حالا دیگر لازم نیست میلیون ها تومان هزینه کنی یا منتظر نوبت استفاده بمانی. تمام الگوریتم هایی شبکه های عصبی که در این مقاله خواندی، همین امروز در اکیان منتظر تو هستند تا باهم بسازید، بنویسید، فکر کنید و آینده را تغییر دهید. همین حالا سری به اکیان بزن، از پلن رایگان تا ارتقا بسته دلخواهت شروع کن:
