آموزش شبکه عصبی با الگوریتم‌های متاهیوریستیک — جامع و کاربردی

شبکه‌های عصبی مصنوعی یکی از مهم‌ترین روش‌های یادگیری ماشین هستند که از ساختار مغز انسان الهام گرفته‌اند. این شبکه‌ها به‌عنوان مدلی برای پردازش داده‌ها به کار می‌روند و در مسائل پیچیده‌ای چون شناسایی تصویر، ترجمه زبان و پیش‌بینی‌های پیچیده به‌کار گرفته می‌شوند. آموزش شبکه عصبی به فرآیندی اشاره دارد که در طی آن شبکه با استفاده از مجموعه‌ای از داده‌ها یاد می‌گیرد و قادر به پیش‌بینی و انجام وظایف مختلف می‌شود. این مقاله به بررسی اصول اساسی شبکه‌های عصبی، نحوه آموزش آن‌ها، الگوریتم‌های مورد استفاده برای تنظیم وزن‌ها و بایاس‌ها و ترکیب آن‌ها با الگوریتم‌های فرا ابتکاری «متاهیوریستیک» می‌پردازد.

فهرست مطالب این نوشته پنهان

شبکه عصبی چیست؟

اجزای اصلی شبکه عصبی

نحوه عملکرد شبکه عصبی

الگوریتم‌های آموزش شبکه عصبی

1. انتشار معکوس (Backpropagation)

اصول اولیه انتشار معکوس

مراحل کلی انتشار معکوس

نحوه عملکرد انتشار معکوس

قانون زنجیره‌ای در انتشار معکوس

مزایا و محدودیت‌های انتشار معکوس

2. الگوریتم نزول گرادیان (Gradient Descent)

3. روش‌های مبتنی بر تغییر نرخ یادگیری (Learning Rate)

ترکیب شبکه عصبی با الگوریتم‌های متاهیوریستیک

1. ترکیب شبکه عصبی با الگوریتم ژنتیک برای تعیین وزن‌ها و بایاس‌ها

الف) نمایش کروموزوم‌ها

ب) جمعیت اولیه

پ) محاسبه تابع تناسب (Fitness Function)

ت) انتخاب (Selection)

ث) ترکیب (Crossover)

ج) جهش (Mutation)

چ) تکرار و به‌روزرسانی نسل‌ها

2. ترکیب شبکه عصبی با الگوریتم PSO برای تعیین وزن‌ها و بایاس‌ها

گام 1: تعریف ساختار شبکه عصبی

گام 2: مقداردهی اولیه ذرات PSO

گام 3: محاسبه خطای شبکه عصبی (تابع هدف)

گام 4: به‌روزرسانی موقعیت و سرعت ذرات

گام 5: به‌روزرسانی بهترین موقعیت‌ها

گام 6: تکرار مراحل تا همگرایی

3. ترکیب شبکه عصبی با سایر الگوریتم‌ها برای تعیین وزن‌ها و بایاس‌ها

نتیجه‌گیری

شبکه عصبی چیست؟

شبکه عصبی مصنوعی «Artificial Neural Network» یک مدل محاسباتی است که با الهام از شبکه‌های عصبی بیولوژیکی مغز انسان ساخته شده است. این شبکه‌ها از واحدهایی به نام نرون تشکیل شده‌اند که به‌صورت لایه‌ای سازماندهی شده و به یکدیگر متصل هستند. در یک شبکه عصبی، اطلاعات ورودی از طریق لایه‌های مختلف عبور می‌کند تا در نهایت خروجی مطلوب تولید شود.

اجزای اصلی شبکه عصبی

لایه ورودی: داده‌های خام را دریافت می‌کند و به لایه‌های بعدی ارسال می‌کند.
لایه‌های پنهان: این لایه‌ها وظیفه پردازش اطلاعات را بر عهده دارند. تعداد و اندازه این لایه‌ها بر اساس پیچیدگی مسأله تغییر می‌کند.
لایه خروجی: نتیجه نهایی پردازش را تولید می‌کند.

هر اتصال میان نرون‌ها دارای وزن‌ها است که تعیین می‌کنند هر نرون چقدر بر نرون‌های دیگر تأثیر می‌گذارد. به‌علاوه، بایاس به‌عنوان یک مقدار اضافی به هر نرون افزوده می‌شود که به شبکه کمک می‌کند تا به دقت بیشتری در پیش‌بینی‌ها برسد.

پاورپوینت‌های آماده شبکه های عصبی — ویژه تحیق و ارائه

کلیک کنید

نحوه عملکرد شبکه عصبی

شبکه‌های عصبی با استفاده از فرآیند یادگیری بهینه‌سازی می‌شوند. داده‌های ورودی از طریق شبکه جریان می‌یابند و در نهایت خروجی محاسبه می‌شود. در طی این فرآیند، شبکه تلاش می‌کند تا خطا را بین خروجی پیش‌بینی‌شده و خروجی واقعی (داده‌های برچسب‌دار) به حداقل برساند.

ورود داده‌ها: داده‌های ورودی به لایه ورودی شبکه تغذیه می‌شوند.
انتشار مستقیم (Feedforward): داده‌ها از لایه ورودی به لایه‌های پنهان و در نهایت به لایه خروجی منتقل می‌شوند.
محاسبه خطا: اختلاف میان خروجی پیش‌بینی‌شده و مقدار واقعی محاسبه می‌شود.
به‌روزرسانی وزن‌ها و بایاس‌ها: با استفاده از الگوریتم‌های بهینه‌سازی، وزن‌ها و بایاس‌ها به گونه‌ای تغییر می‌کنند که خطا کاهش یابد.

الگوریتم‌های آموزش شبکه عصبی

آموزش شبکه عصبی عمدتاً بر اساس تنظیم وزن‌ها و بایاس‌های نرون‌ها صورت می‌گیرد. بهینه‌سازی وزن‌ها نقش حیاتی در کاهش خطا و بهبود عملکرد شبکه دارد. برای این منظور، از الگوریتم‌های مختلفی استفاده می‌شود. آموزش شبکه عصبی بر اساس بهینه‌سازی وزن‌ها انجام می‌شود که یکی از معروف‌ترین روش‌های آن «انتشار معکوس» است.

1. انتشار معکوس (Backpropagation)

انتشار معکوس یا Backpropagation یکی از مهم‌ترین و پرکاربردترین الگوریتم‌های یادگیری در شبکه‌های عصبی مصنوعی است. این الگوریتم با استفاده از روش گرادیان کاهشی (Gradient Descent)، وزن‌های شبکه را بهینه می‌کند تا خطای خروجی کاهش یابد. انتشار معکوس در فرآیند یادگیری شبکه عصبی نقشی حیاتی دارد و به شبکه امکان می‌دهد از داده‌های ورودی خود یاد بگیرد و خروجی دقیق‌تری تولید کند.

اصول اولیه انتشار معکوس

انتشار معکوس بر اساس یک اصل ساده عمل می‌کند و آن هم تلاش برای کاهش خطا بین خروجی پیش‌بینی شده شبکه و خروجی واقعی (هدف) در هر تکرار از فرآیند یادگیری. شبکه عصبی در هر تکرار «epoch»، داده‌های ورودی را پردازش کرده و یک خروجی تولید می‌کند. سپس این خروجی با مقدار واقعی مقایسه می‌شود و خطا محاسبه می‌گردد. وظیفه الگوریتم انتشار معکوس این است که خطا را از لایه خروجی به سمت لایه‌های قبلی انتشار دهد و وزن‌های مرتبط با نرون‌ها را طوری به‌روزرسانی کند که این خطا کاهش یابد.

مراحل کلی انتشار معکوس

انتشار پیش‌رو (Feedforward): داده‌های ورودی به شبکه وارد می‌شوند و از طریق لایه‌های پنهان عبور کرده و خروجی تولید می‌شود.
محاسبه خطا: خروجی شبکه با خروجی واقعی (هدف) مقایسه می‌شود و خطا (معمولاً با استفاده از تابع هزینه مانند میانگین مربعات خطا یا MSE) محاسبه می‌شود.
انتشار معکوس: خطا از لایه خروجی به لایه‌های پنهان و در نهایت به لایه ورودی منتقل می‌شود. این فرآیند بر اساس گرادیان تابع هزینه نسبت به وزن‌ها و بایاس‌ها انجام می‌شود.
به‌روزرسانی وزن‌ها: با استفاده از روش نزول گرادیان، وزن‌ها و بایاس‌ها در هر تکرار به‌روزرسانی می‌شوند تا خطا در تکرارهای بعدی کمتر شود.

نحوه عملکرد انتشار معکوس

انتشار معکوس به دو مرحله کلی تقسیم می‌شود: انتشار پیش‌رو و انتشار معکوس.

1. انتشار پیش‌رو (Feedforward)

در این مرحله، داده‌های ورودی از طریق لایه‌های شبکه عبور می‌کنند. هر نرون ورودی از داده‌ها را می‌گیرد و با استفاده از وزن‌های مرتبط و تابع فعال‌سازی، یک خروجی محاسبه می‌کند. این فرآیند تا لایه خروجی ادامه پیدا می‌کند و در نهایت، شبکه یک خروجی نهایی تولید می‌کند. رابطه کلی برای خروجی هر نرون به شکل زیر است:

$$y = f(\sum ({x_i} \cdot {w_i}) + b)$$

${x_i}$: ورودی‌های نرون
${w_i}$: وزن‌های مرتبط با هر ورودی
$b$: بایاس نرون
$f$: تابع فعال‌سازی (مثل سیگموید، تانژانت هایپربولیک، ReLU و غیره)

2. انتشار معکوس (Backpropagation)

پس از تولید خروجی شبکه، خطا محاسبه می‌شود. این خطا نمایانگر اختلاف بین خروجی واقعی و خروجی پیش‌بینی شده توسط شبکه است. هدف انتشار معکوس این است که این خطا را از طریق لایه‌ها به عقب انتشار دهد و وزن‌ها را به نحوی به‌روزرسانی کند که خطا در دفعات بعدی کاهش یابد.

در این مرحله، از قانون زنجیره‌ای مشتقات برای محاسبه گرادیان‌های مرتبط با وزن‌ها و بایاس‌ها استفاده می‌شود. این گرادیان‌ها به ما نشان می‌دهند که تغییر هر وزن چقدر بر روی خطای کلی تأثیر دارد. به عبارت دیگر، با محاسبه مشتق جزئی تابع خطا نسبت به هر وزن، می‌توانیم تعیین کنیم که چقدر باید وزن را تغییر دهیم تا خطا کاهش یابد.

3. به‌روزرسانی وزن‌ها

وزن‌ها با استفاده از رابطه زیر به‌روزرسانی می‌شوند:

$${w_{new}} = {w_{old}} – \eta \cdot {{\partial E} \over {\partial w}}$$

${w_{new}}$: وزن جدید پس از به‌روزرسانی
${w_{old}}$: وزن فعلی
$\eta$: نرخ یادگیری (Learning Rate) که اندازه گام تغییرات وزن‌ها را تعیین می‌کند.
${{\partial E} \over {\partial w}}$: گرادیان تابع هزینه نسبت به وزن.

نرخ یادگیری به عنوان یک پارامتر حیاتی در فرآیند به‌روزرسانی وزن‌ها عمل می‌کند. اگر نرخ یادگیری خیلی کوچک باشد، فرآیند یادگیری کند خواهد بود، و اگر خیلی بزرگ باشد، ممکن است شبکه نتواند به حالت بهینه برسد.

قانون زنجیره‌ای در انتشار معکوس

انتشار معکوس بر اساس قانون زنجیره‌ای مشتقات عمل می‌کند. این قانون اجازه می‌دهد تا گرادیان تابع هزینه نسبت به هر وزن و بایاس در شبکه محاسبه شود. فرض کنید تابع هزینه $E$ به خروجی یک نرون بستگی دارد و خروجی نرون نیز تابعی از وزن‌ها و بایاس‌هاست. برای به‌روزرسانی وزن‌ها، باید مشتق جزئی تابع هزینه نسبت به هر وزن را محاسبه کنیم.

برای نرون در لایه $l$ l با ورودی ${z^{(l)}}$ و خروجی ${a^{(l)}}$، گرادیان تابع هزینه نسبت به وزن‌ها به شکل زیر محاسبه می‌شود:

$${{\partial E} \over {\partial {w^{(l)}}}} = {{\partial E} \over {\partial {a^{(l)}}}} \cdot {{\partial {a^{(l)}}} \over {\partial {z^{(l)}}}} \cdot {{\partial {z^{(l)}}} \over {\partial {w^{(l)}}}}$$

در این رابطه، از مشتق تابع فعال‌سازی و ورودی‌های نرون برای محاسبه به‌روزرسانی‌های وزن‌ها استفاده می‌شود.

مزایا و محدودیت‌های انتشار معکوس

کارایی بالا: انتشار معکوس یکی از کارآمدترین روش‌ها برای آموزش شبکه‌های عصبی است و با داده‌های حجیم و شبکه‌های پیچیده نیز به خوبی کار می‌کند.
تعامل مستقیم با گرادیان‌ها: این الگوریتم مستقیماً گرادیان تابع هزینه را نسبت به وزن‌ها محاسبه می‌کند و بهینه‌سازی دقیقی را فراهم می‌کند.
قابلیت استفاده در انواع شبکه‌ها: انتشار معکوس در انواع شبکه‌های عصبی از جمله شبکه‌های پیچشی (CNN)، شبکه‌های بازگشتی (RNN) و شبکه‌های چندلایه (MLP) قابل استفاده است.
بهینه‌سازی محلی: الگوریتم ممکن است در یک مینیمم محلی گیر کند و نتواند به بهترین راه‌حل (مینیمم سراسری) دست یابد.
وابستگی به نرخ یادگیری: انتخاب نرخ یادگیری مناسب بسیار حساس است و می‌تواند فرآیند یادگیری را تحت تأثیر قرار دهد.
مسئله محوشدگی گرادیان‌ها: در شبکه‌های عمیق، گرادیان‌ها ممکن است به‌طور تدریجی کوچک شوند و این باعث کاهش سرعت یادگیری در لایه‌های ابتدایی شبکه می‌شود.

در این الگوریتم، هدف کاهش مقدار تابع هزینه (Cost Function) است که تفاوت میان خروجی واقعی و خروجی پیش‌بینی‌شده را نشان می‌دهد. این الگوریتم تا زمانی که تابع هزینه به حداقل برسد، تکرار می‌شود.

2. الگوریتم نزول گرادیان (Gradient Descent)

الگوریتم نزول گرادیان یکی از معروف‌ترین روش‌های بهینه‌سازی در یادگیری ماشین است. این الگوریتم با هدف کمینه‌سازی تابع هزینه، به‌روزرسانی وزن‌ها و بایاس‌ها را انجام می‌دهد. انواع مختلفی از این الگوریتم وجود دارد، از جمله:

نزول گرادیان دسته‌ای (Batch Gradient Descent): تمامی داده‌ها در هر مرحله استفاده می‌شوند.
نزول گرادیان تصادفی (Stochastic Gradient Descent – SGD): تنها یک نمونه از داده‌ها در هر مرحله استفاده می‌شود.
نزول گرادیان دسته‌ای کوچک (Mini-batch Gradient Descent): گروه‌های کوچکی از داده‌ها در هر مرحله استفاده می‌شوند.

3. روش‌های مبتنی بر تغییر نرخ یادگیری (Learning Rate)

نزول گرادیان تطبیقی (Adaptive Gradient Descent – AdaGrad): نرخ یادگیری را برای هر پارامتر به‌طور جداگانه تنظیم می‌کند.
روش تجمع گرادیان‌ها (RMSprop): میانگین مربع گرادیان‌ها را برای تنظیم نرخ یادگیری استفاده می‌کند.
آدام (Adam): ترکیبی از دو روش قبلی برای بهینه‌سازی سریع‌تر است.

ترکیب شبکه عصبی با الگوریتم‌های متاهیوریستیک

الگوریتم‌های فرا ابتکاری (متاهیوریستیک) در حل مسائل بهینه‌سازی با فضای جستجوی بزرگ و پیچیده به کار می‌روند. ترکیب شبکه‌های عصبی با این الگوریتم‌ها به بهبود عملکرد آن‌ها در یادگیری و کاهش زمان محاسباتی کمک می‌کند. در ادامه به برخی از این ترکیبات اشاره می‌شود.

1. ترکیب شبکه عصبی با الگوریتم ژنتیک برای تعیین وزن‌ها و بایاس‌ها

شبکه‌های عصبی مصنوعی به‌طور سنتی با استفاده از روش‌های گرادیان‌محور مانند انتشار معکوس (Backpropagation) آموزش داده می‌شوند. با این حال، این روش‌ها گاهی ممکن است در مسائل پیچیده با مشکلاتی مانند گیر کردن در مینیمم‌های محلی یا مواجهه با محوشدگی گرادیان‌ها روبه‌رو شوند. یکی از روش‌های جایگزین برای بهینه‌سازی وزن‌ها و بایاس‌های شبکه‌های عصبی، استفاده از الگوریتم‌های فراابتکاری مانند الگوریتم ژنتیک (Genetic Algorithm – GA) است. ترکیب این الگوریتم با شبکه‌های عصبی می‌تواند به حل برخی از این مشکلات کمک کند و شبکه را قادر سازد تا بهینه‌سازی بهتری انجام دهد.

در ادامه آموزش شبکه عصبی، نحوه ترکیب شبکه عصبی با الگوریتم ژنتیک برای تعیین وزن‌ها و بایاس‌ها به‌طور کامل شرح داده می‌شود.

در ترکیب شبکه عصبی با الگوریتم ژنتیک، به جای استفاده از روش‌های سنتی مانند انتشار معکوس برای تنظیم وزن‌ها و بایاس‌ها، از الگوریتم ژنتیک برای یافتن بهینه‌ترین وزن‌ها و بایاس‌ها استفاده می‌شود. گام‌های کلی این ترکیب عبارتند از:

الف) نمایش کروموزوم‌ها

هر کروموزوم در الگوریتم ژنتیک یک راه‌حل بالقوه است که در آموزش شبکه عصبی نشان‌دهنده یک مجموعه از وزن‌ها و بایاس‌ها در شبکه عصبی است. برای این منظور، تمام وزن‌ها و بایاس‌های شبکه عصبی به صورت یک بردار نمایش داده می‌شوند. هر کروموزوم در الگوریتم ژنتیک معادل این بردار از پارامترهاست.

به‌عنوان مثال، فرض کنید شبکه عصبی دارای 2 نرون در لایه ورودی، 3 نرون در لایه پنهان و 1 نرون در لایه خروجی باشد. تعداد کل وزن‌ها و بایاس‌ها را می‌توان به صورت زیر محاسبه کرد:

وزن‌های بین لایه ورودی و پنهان: $2 \times 3 = 6$
وزن‌های بین لایه پنهان و خروجی: $3 \times 1 = 3$
بایاس‌های نرون‌های لایه پنهان: $3$
بایاس‌های نرون لایه خروجی: $1$

در نتیجه، هر کروموزوم یک بردار با 13 مقدار است که هر مقدار نشان‌دهنده یک وزن یا بایاس است.

ب) جمعیت اولیه

در مرحله اول الگوریتم ژنتیک، یک جمعیت اولیه از کروموزوم‌ها به صورت تصادفی تولید می‌شود. هر کروموزوم به‌طور تصادفی مقداردهی می‌شود و هر مقدار در بردار، نشان‌دهنده یک وزن یا بایاس در شبکه عصبی است. این جمعیت معمولاً دارای تعداد زیادی کروموزوم است تا تنوع کافی برای جستجو در فضای راه‌حل‌ها فراهم شود.

پ) محاسبه تابع تناسب (Fitness Function)

برای ارزیابی کیفیت هر کروموزوم، از یک تابع تناسب استفاده می‌شود. این تابع معمولاً بر اساس خطای شبکه عصبی محاسبه می‌شود. مراحل این فرآیند به‌طور خلاصه عبارتند از:

کروموزوم انتخاب‌شده به عنوان وزن‌ها و بایاس‌های شبکه عصبی تنظیم می‌شود.
داده‌های آموزشی از طریق شبکه عبور داده می‌شوند.
خروجی شبکه با خروجی واقعی مقایسه شده و خطا (مانند میانگین مربعات خطا یا MSE) محاسبه می‌شود.
هر چه خطا کمتر باشد، تناسب کروموزوم بالاتر است.

ت) انتخاب (Selection)

پس از محاسبه تناسب برای تمامی کروموزوم‌ها، کروموزوم‌هایی که عملکرد بهتری دارند (یعنی خطای کمتری دارند) برای ایجاد نسل جدید انتخاب می‌شوند. روش‌های مختلفی برای انتخاب وجود دارد:

روش چرخ رولت: احتمال انتخاب هر کروموزوم بر اساس مقدار تناسب آن است؛ هر چه تناسب بیشتر باشد، احتمال انتخاب بالاتر است.
روش انتخاب تورنمنت: تعدادی از کروموزوم‌ها به صورت تصادفی انتخاب می‌شوند و بهترین کروموزوم از بین آن‌ها انتخاب می‌شود.
روش انتخاب تصادفی: تعدادی از کروموزوم‌ها به صورت کلاً تصادفی انتخاب می‌شوند.

ث) ترکیب (Crossover)

در مرحله ترکیب، دو کروموزوم منتخب (والدین) با یکدیگر ترکیب می‌شوند تا کروموزوم‌های جدید (فرزندان) ایجاد شوند. این ترکیب به این صورت است که بخش‌هایی از کروموزوم والد اول و بخش‌هایی از کروموزوم والد دوم برای ساخت فرزند جدید ترکیب می‌شوند. روش‌های مختلفی برای این ترکیب وجود دارد:

ترکیب تک نقطه‌ای (Single-point Crossover): یک نقطه تصادفی در کروموزوم انتخاب می‌شود و بخش‌های بعد از آن نقطه بین دو والد جابه‌جا می‌شود.

ترکیب چند نقطه‌ای (Multi-point Crossover): چندین نقطه تصادفی در کروموزوم انتخاب شده و بخش‌های مختلف بین والدین جابه‌جا می‌شوند.

ج) جهش (Mutation)

برای جلوگیری از همگرا شدن الگوریتم ژنتیک به یک نقطه محلی و حفظ تنوع در جمعیت، برخی از کروموزوم‌ها به صورت تصادفی تغییر می‌کنند. در فرآیند جهش، یک یا چند وزن یا بایاس در کروموزوم تغییر داده می‌شوند. به عنوان مثال، ممکن است یک وزن به طور تصادفی تغییر کند تا یک مقدار کوچک به آن اضافه یا کم شود.

چ) تکرار و به‌روزرسانی نسل‌ها

پس از ایجاد نسل جدید، تمامی مراحل از ابتدا تکرار می‌شوند: محاسبه تناسب، انتخاب، ترکیب و جهش. این فرآیند تا زمانی ادامه می‌یابد که شرایط توقف برقرار شود، مثلاً رسیدن به تعداد مشخصی از تکرارها یا دستیابی به حداقل خطای ممکن.

سورس کد آماده آموزش شبکه عصبی با الگوریتم ژنتیک GA در متلب

کلیک کنید

2. ترکیب شبکه عصبی با الگوریتم PSO برای تعیین وزن‌ها و بایاس‌ها

ترکیب شبکه‌های عصبی مصنوعی (ANN) با الگوریتم بهینه‌سازی ازدحام ذرات (PSO) یکی از روش‌های محبوب برای بهبود عملکرد شبکه‌های عصبی است. این ترکیب می‌تواند به تعیین بهینه وزن‌ها و بایاس‌های شبکه عصبی کمک کند. در ادامه، مراحل و جزئیات ترکیب PSO با شبکه عصبی برای تعیین وزن‌ها و بایاس‌ها به طور کامل توضیح داده می‌شود.

در ترکیب PSO و شبکه عصبی، وظیفه PSO بهینه‌سازی وزن‌ها و بایاس‌های شبکه عصبی است. در بخش مراحل ترکیب به تفصیل آورده شده است:

گام 1: تعریف ساختار شبکه عصبی

ابتدا باید ساختار شبکه عصبی تعریف شود. به عنوان مثال، مشخص کنید که شبکه چند لایه پنهان دارد و هر لایه چند نرون دارد. سپس، تعداد وزن‌ها و بایاس‌ها مشخص می‌شود. اگر تعداد ورودی‌ها $n$ ، تعداد نرون‌های لایه پنهان $h$، و تعداد خروجی‌ها $o$ باشد، تعداد وزن‌ها برابر است با:

$$(n \times h) + (h \times o)$$
و تعداد بایاس‌ها نیز برابر با تعداد نرون‌ها در لایه‌های پنهان و خروجی است.

گام 2: مقداردهی اولیه ذرات PSO

در این مرحله، هر ذره PSO نماینده‌ای از یک مجموعه وزن و بایاس است. هر ذره با یک مجموعه تصادفی از وزن‌ها و بایاس‌ها مقداردهی می‌شود. برای هر ذره باید مقدار سرعت اولیه نیز تعیین شود.

گام 3: محاسبه خطای شبکه عصبی (تابع هدف)

برای هر ذره، مقدار وزن‌ها و بایاس‌ها در شبکه عصبی اعمال می‌شود. سپس شبکه با این مقادیر به عنوان ورودی آموزش داده می‌شود و خروجی‌ها تولید می‌شود. خطای شبکه (مثلاً میانگین مربعات خطا – MSE) به عنوان تابع هدف برای PSO محاسبه می‌شود. هدف PSO کمینه کردن این خطا است.

گام 4: به‌روزرسانی موقعیت و سرعت ذرات

موقعیت و سرعت ذرات با استفاده از فرمول‌های زیر به‌روزرسانی می‌شود:

$$\eqalign{ & {v_{i}}(t + 1) = w \cdot {v_i}(t) + {c_1} \cdot {r_1} \cdot (pBes{t_i} – {x_i}(t)) + {c_2} \cdot {r_2} \cdot (gBest – {x_i}(t)) \cr & {x_i}(t + 1) = {x_i}(t) + {v_i}(t + 1) \cr} $$

${v_i}(t)$: سرعت ذره $i$ در زمان $t$
${x_i}(t)$: موقعیت ذره $i$ در زمان $t$
$pBes{t_i}$: بهترین موقعیت شخصی ذره $i$
$gBest$: بهترین موقعیت جمعی
$w$: ضریب اینرسی که تعادل بین اکتشاف و بهره‌برداری را کنترل می‌کند.
${c_1}$ و ${c_2}$: ضرایب یادگیری برای هدایت ذرات به سمت بهترین موقعیت‌ها
${r_1}$ و ${r_2}$: اعداد تصادفی بین 0 و 1.

گام 5: به‌روزرسانی بهترین موقعیت‌ها

بعد از به‌روزرسانی موقعیت هر ذره، خطای جدید محاسبه می‌شود. اگر خطای جدید کمتر از مقدار قبلی باشد، موقعیت فعلی به عنوان بهترین موقعیت شخصی $pBes{t_i}$ ذخیره می‌شود. همچنین اگر خطای جدید از بهترین موقعیت جمعی $gBest$ کمتر باشد، آن نیز به‌روزرسانی می‌شود.

گام 6: تکرار مراحل تا همگرایی

مراحل به‌روزرسانی سرعت و موقعیت ذرات تا زمانی که به یک معیار همگرایی برسد (مثل تعداد تکرارها یا رسیدن به خطای مطلوب) تکرار می‌شود.

در این رویکرد ترکیبی، PSO نقش بهینه‌سازی وزن‌ها و بایاس‌های شبکه عصبی را ایفا می‌کند. با حرکت ذرات در فضای جستجو و کمینه کردن خطای شبکه، وزن‌ها و بایاس‌ها به سمت مقادیر بهینه هدایت می‌شوند. این روش، در مقایسه با روش‌های کلاسیک مثل پس‌انتشار، کارایی بیشتری در مقابله با مشکلات بهینه‌های محلی دارد و می‌تواند عملکرد بهتری در یادگیری شبکه ارائه دهد.

سورس کد آماده تعیین وزن شبکه عصبی با الگوریتم PSO در متلب

کلیک کنید

3. ترکیب شبکه عصبی با سایر الگوریتم‌ها برای تعیین وزن‌ها و بایاس‌ها

ترکیب شبکه عصبی با الگوریتم های مختلف برای یافتن مقدار بهینه وزن یال‌ها و بایاس‌ها به عنوان یک چالش و روشی نوآورانه در اکثر مقالات و تحقیقات مورد استفاده قرار می گیرد. اینکه کدام الگوریتم روشی بهتری نسبت الگوریتم های دیگر است بستگی زیادی به تنظیمات پارامترهای شبکه عصبی و الگوریتم ترکیبی دارد. از اینرو بهتر است روش‌های مختلف برای مقایسه بایستی مورد تست و آزمون قرار بگیرد. در ادامه چند نمونه از کارهای انجام شده در این زمینه ارائه شده است.

نتیجه‌گیری

آموزش شبکه عصبی یکی از مهم‌ترین فرآیندهای یادگیری ماشین است که با استفاده از الگوریتم‌های مختلف بهینه‌سازی انجام می‌شود. انتخاب صحیح الگوریتم‌های آموزش و تنظیم وزن‌ها و بایاس‌ها نقش اساسی در دقت و کارایی شبکه دارد. علاوه بر این، ترکیب شبکه‌های عصبی با الگوریتم‌های فرا ابتکاری مانند الگوریتم ژنتیک، ازدحام ذرات و سایر الگوریتم‌ها می‌تواند عملکرد شبکه‌ها را به‌طور قابل‌توجهی بهبود بخشد. با توجه به کاربرد گسترده شبکه‌های عصبی در حوزه‌های مختلف علمی و صنعتی، ادامه تحقیق و توسعه در این زمینه از اهمیت بالایی برخوردار است.

آموزش شبکه عصبی با الگوریتم‌های متاهیوریستیک — جامع و کاربردی