mr.rezaei
/
haji_thesis


			
							123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280281282283284285286287288289290291292293294295296297298299300301302303304305306307308309310311312313314315316317318319320321322323324325326327328329330331332333334335336337338339340341342343344345346347348349350351352353
							% !TEX encoding = UTF-8 Unicode
\chapter{روش پیشنهادی}\label{Chap:Chap3}

در فصل قبل، روش‌های حل مساله‌ی پیش‌بینی نرخ کلیک را دسته‌بندی کرده و تعدادی از پژوهش‌های مهم هر دسته را بررسی و مقایسه کرده و با بیان مزایا و کاستی‌های هر کدام، دید مناسبی از دشواری‌ها و چالش‌های این مساله کسب کردیم.

در این فصل، با در نظر گرفتن چالش‌های مساله‌ی پیش‌بینی نرخ کلیک و همچنین با توجه به ایرادات یا کاستی‌های مشترک روش‌های پیشین، اقدام به طراحی یک مدل جدید، برای حل این مساله می‌نماییم. برای طراحی این مدل جدید، اقدام به معرفی ایده‌های جدید و همچنین بهره‌گیری از برخی ایده‌های موجود در ادبیات یادگیری ماشین کرده و در هر گام، با توجه به چالش‌های ذاتی مساله و همچنین محدودیت‌های ناشی از گام‌های قبلی، روش پیشنهادی را توسعه می‌دهیم.

\section{تعبیه‌ی ویژگی‌ها}
از آن‌جا که استفاده از بردار‌های تعبیه شده، امری ضروری برای بهره‌گیری از ویژگی‌های دسته‌ای موجود در مجموعه‌های داده‌ی پیش‌بینی نرخ کلیک به شمار می‌رود، طراحی مدل پیشنهادی را از همین بخش آغاز می‌نماییم.

در فصل قبل با مطالعه‌ی تعداد قابل توجهی از روش‌های پیشین، مشاهده کردیم که همه‌ی این پژوهش‌ها، در یک اصل مشترک هستند. همه‌ی این روش‌ها، با استفاده از ترفند تعبیه، ویژگی‌های دسته‌ای ورودی را به بردار‌های چگال قابل یادگیری تبدیل کرده و سپس این بردار‌ها را برای استفاده در بقیه‌ی قسمت‌های مدل، به کار می‌بندند. نکته‌ی دیگرِ قابل توجه و مشترک در همه‌ی این روش‌ها، استفاده از بردار‌های تعبیه با بعد یکسان برای ویژگی‌های همه‌ی فیلد‌ها است.

می‌توانیم استفاده از بردار‌های هم‌بعد را به این صورت تعبیر کنیم که در این مدل‌ها، برای هر فیلد یک فضای $k$ بعدی در نظر گرفته شده و تمامی ویژگی‌ها (حالت‌ها)ی این فیلد، به عنوان نقاطی در این فضای $k$ بعدی جای می‌گیرند. به عنوان مثال، در صورتی که فیلد $F_{a}$ دارای 3 حالت مختلف و فیلد $F_{b}$ دارای 1000 حالت مختلف باشند، در فضای تعبیه‌ی فیلد اول ($E_{a}$) سه نقطه (یا سه بردار $k$ بعدی) و همچنین در فضای تعبیه‌ی فیلد دوم ($E_{b}$) هزار نقطه (یا بردار $k$ بعدی) حضور خواهند داشت؛ پس جایگیری نقاط در فضای $E_{b}$ نسبت به جایگیری نقاط در فضای $E_{a}$ شرایط فشرده‌تری دارد.

با ملاحظه‌ی نکته‌ی فوق، این سوال به وجود می‌آید که \textbf{آیا تعبیه‌ی ویژگی‌های همه‌ی فیلد‌ها در فضای دارای ابعاد یکسان (که همه‌ی روش‌های پیشین در انجام آن اتفاق دارند)، بهترین تصمیم ممکن است؟} برای پاسخ به این سوال، می‌توانیم از دو روش مختلف استفاده کنیم. روش اول، استفاده از نگرش مرسوم در \trans{نظریه‌ی اطلاعات}{Information Theory} برای اندازه‌گیری اطلاعات موجود در این بردار‌ها و روش دوم، بررسی شهودی این مساله، با توجه به مفاهیم مرسوم در ادبیات یادگیری ماشین و \trans{یادگیری ژرف}{Deep Learning} است.

\subsection{بررسی ابعاد بردار‌های تعبیه به کمک نظریه‌ی اطلاعات}
در نظریه‌ی اطلاعات\cite{ShannonWeaver49}،  \trans{آنتروپی}{Entropy} یک ویژگی دسته‌ای (فیلد)، به صورت زیر محاسبه می‌شود:
\begin{latin}
\begin{equation}
H(F) = - \sum_{i = 1}^{|F|}{p_{i}log_{2}(p_{i})}\label{entropy_source}
\end{equation}
\end{latin}

که در آن $|F|$ تعداد دسته‌ها و $p_{i}$ احتمال وقوع حالت $i$‌ام این ویژگی هستند.

در صورتی که این ویژگی دسته‌ای را در فضای $k$ بعدی تعبیه کنیم و هر‌یک از عناصر موجود در بردار‌های تعبیه، دارای $s$ بیت باشند، می‌توانیم آنتروپی بردار تعبیه‌شده را محاسبه کنیم:
\begin{latin}
\begin{equation}
H(E) = - \sum_{i = 1}^{2^{ks}}{p_{i}log_{2}(p_{i})}\label{entropy_embedding}
\end{equation}
\end{latin}
که در آن $p_{i}$ احتمال یک بودن بیت $i$ام این بردار است.

با مقایسه‌ی دو رابطه‌ی \ref{entropy_source} و \ref{entropy_embedding} می‌توانیم میزان اطلاعات موجود در آن فیلد را، با میزان اطلاعات قابل بیان توسط بردار تعبیه شده مقایسه کنیم.

در پژوهش \cite{Naumov_embedding_dim} با فرض هم احتمال بودن توزیع حالت‌های ویژگی دسته‌ای و همچنین هم احتمال بودن توزیع بیت‌های بردار تعبیه شده، مقایسه‌ی فوق را انجام داده و در نتیجه به رابطه‌ی زیر رسیدند:
\begin{latin}
\begin{equation}
log_{2}(|F|) = k . s
\end{equation}
\end{latin}

می‌توان این رابطه را به این صورت تعبیر کرد که برای تناسب اطلاعات موجود در ویژگی دسته‌ای و بردار تعبیه شده‌ی مربوطه، باید بعد تخصیص داده شده به آن بردار با لگاریتم کاردینالیتی مجموعه‌ی حالات مختلف انتخاب آن متناسب باشد؛ پس فیلدی که کاردینالیتی بالاتری داشته باشد، باید در فضای دارای ابعاد بیشتر تعبیه شود.

با در نظر گرفتن این نکته که مورد استفاده‌ی اصلی بردار‌های تعبیه شده در مدل‌های یادگیری ماشین و یادگیری ژرف است، می‌توان رابطه‌ی بالا را نقد کرد. در رابطه‌ی گفته شده، فرض شده است که همه‌ی اطلاعات موجود در فیلد باید در بردار‌های تعبیه شده موجود باشد. همچنین فرض شده است که از همه‌ی بیت‌های بردار‌های تعبیه شده برای ذخیره‌ی این اطلاعات استفاده می‌شود. این در حالی است که در یادگیری ماشین و یادگیری ژرف، هیچ یک از این دو فرض صحت ندارند. مدل‌های یادگیری ماشین و یادگیری ژرف، به جای همه‌ی اطلاعات موجود در ویژگی دسته‌ای، تنها به اطلاعات مشترک این ویژگی با متغیر هدف (خروجی) نیاز داشته و همچنین، از بردار‌های تعبیه شده این انتظار می‌رود که به جای فشرده‌سازی حداکثری، دارای فواصل کم بین ویژگی‌های مشابه و فواصل زیاد بین ویژگی‌های متفاوت باشد. در نتیجه مدل‌های گفته شده، بتوانند از اطلاعات موجود در این بردار‌ها به صورت مطلوب استفاده کنند.

با وجود این فرض‌های اشتباه و فرض ساده‌کننده‌ی توزیع یکنواخت، این روابط تنها با افزودن چند ضریب قابل اصلاح است. فرض می‌کنیم اطلاعات مشترک بین متغیر هدف و هر‌یک از فیلد‌ها، به صورت ضریب ثابتی ($\mu$) از اطلاعات موجود در آن فیلد باشد. همچنین، فرض می‌کنیم هر چند ($\delta$) بردار تعبیه، به دلیل شباهت مفهوم مربوطه، در محل یکسانی از فضای تعبیه جا بگیرند.
\begin{latin}
	\begin{equation}
I(y, F_{i}) = H(F_{i}) \times \mu = log_{2}(\frac{|F_{i}|}{\delta}) \times \mu \label{prop_mutual}
\end{equation}
\end{latin}

همچنین فرض می‌کنیم برای مطلوب بودن فضای تعبیه، انتظار می‌رود تنها از کسر ثابتی ($\kappa$) از ظرفیت بیت‌های موجود در بردار تعبیه استفاده شود.
\begin{latin}
	\begin{equation}
H(E) = k . s . \kappa \label{prop_entropy}
\end{equation}
\end{latin}
حال با برابر قرار دادن روابط \ref{prop_mutual} و \ref{prop_entropy}، به این رابطه می‌رسیم:
\begin{latin}
\begin{equation}
k = log_{2}(\frac{|F_{i}|}{\delta}) \times \frac{\mu}{s \times \kappa}
\end{equation}
\end{latin}
که می‌توان آن را به صورت زیر هم نوشت:
\begin{latin}
\begin{equation}
k = \omega . \ln(|F_{i}|) + \epsilon
\end{equation}
\end{latin}
که در آن، با معرفی پارامتر‌های $\omega$ و $\epsilon$ همه‌ی ضرایب ثابت را یک جا جمع می‌کنیم. حال از طریق رابطه‌ی فوق، می‌توانیم ابعاد مناسب برای تعبیه‌ی هر فیلد را محاسبه کنیم.

\subsection{بررسی ابعاد بردار‌های تعبیه به کمک مفاهیم شهودی یادگیری ماشین و یادگیری ژرف}
در بخش قبل، به کمک مفاهیم نظریه‌ی اطلاعات، رابطه‌ای برای تخصیص مناسب بعد به فیلد‌ها ارائه کنیم. در این بخش، با بهره‌گیری از شهود و همچنین برخی از مفاهیم مورد استفاده در ادبیات یادگیری ماشین و یادگیری ژرف، نسبت به توجیه، نقد و اصلاح رابطه‌ی ارائه شده اقدام می‌کنیم.

فرض کنید یک ویژگی دسته‌ای توسط بردار‌هایی تعبیه می‌شود و یک مدل شبکه عصبی، با استفاده از اطلاعات موجود در این بردار‌ها، نسبت به تخمین یک متغیر هدف اقدام می‌کند. چون واحد‌های سازنده‌ی شبکه‌های عصبی، نورون‌های خطی هستند، در شرایطی که بیش‌برازش شدید موجود نباشد، این شبکه مرز تصمیم‌گیری نرمی خواهد داشت. به این معنا که نقاطی‌که در کنار هم تعبیه شده‌اند، به احتمال بسیار زیاد به یک کلاس تخصیص داده خواهند شد.

در صورتی که بعد تعبیه‌ی این مدل را افزایش دهیم، این نقاط می‌توانند از هم دورتر شده و لذا چگالی نقاط در این فضا کاهش می‌یابد. با کاهش چگالی نقاط، مدل قادر خواهد بود این نقاط را با دقت بیشتری از هم جدا کرده و لذا در صورت زیاده روی در افزایش بعد تعبیه، شباهت بین این نقاط توسط مدل قابل درک نخواهد بود. این پدیده می‌تواند یکی از شکل‌های بیش‌برازش را ایجاد کند.

در مقابل، اگر بعد تعبیه‌ی این مدل را کاهش دهیم، این نقاط به هم نزدیک‌تر شده و لذا چگالی نقاط در این فضا افزایش می‌یابد. با افزایش چگالی نقاط، مدل توانایی جداسازی این نقاط از هم را از دست می‌دهد. در نتیجه توان مدل‌سازی مدل کاهش یافته و عملا کیفیت عملکرد مدل افت خواهد کرد.

از مثال بالا، می‌توانیم این مفهوم را برداشت کنیم که برای دسترسی به بهترین عملکرد ممکن، چگالی نقاط در فضای تعبیه باید مقدار معینی داشته باشد. برای درک بهتر این مفهوم، می‌توانیم تعریف فیزیکی چگالی را در نظر گرفته و سعی کنیم رابطه‌ای برای بعد تعبیه به دست آوریم.

از آن‌جا که تعریف فیزیکی چگالی، از تقسیم تعداد ذرات به حجم محاسبه می‌شود، ولی فضای تعبیه حجم بی‌نهایت دارد، مجبوریم این تعریف را تا حدودی تغییر دهیم. اعمال تکنیک‌های تنظیم بر پارامتر‌های تعبیه، باعث محدود شدن محل هندسی بردار‌های تعبیه شده می‌شوند و لذا می‌توانیم فرض کنیم همه‌ی پارامتر‌های تعبیه، در بازه‌ی $(-\frac{L}{2}, \frac{L}{2})$ محدود خواهند بود؛ پس اگر بعد تعبیه را $k$ و تعداد نقاطی که در این فضا تعبیه می‌شوند را $n$ در نظر بگیریم، می‌توانیم چگالی متوسط این نقاط را محاسبه کنیم:
\begin{latin}
\begin{equation}
density(E) = \frac{n}{L^{k}}
\end{equation}
\end{latin}

حال اگر در یک مدل که بیش از یک ویژگی دسته‌ای ورودی دارد، مقدار چگالی را برای فضای تعبیه‌ی همه‌ی فیلد‌ها یکسان در نظر بگیریم:
\begin{latin}
\begin{equation}
\frac{|F_{i}|}{L^{k_{i}}} = \frac{|F_{j}|}{L^{k_{j}}} = c.t.e.
\end{equation}
\end{latin}

با لگاریتم گرفتن از رابطه‌ی فوق می‌توانیم:

\begin{latin}
\begin{equation}
\ln(|F_{i}|) - k_{i} \ln(L) = \ln(|F_{j}|) - k_{j} \ln(L) = c
\end{equation}
\end{latin}
که در آن $c$ یک عدد ثابت بوده و خواهیم داشت:
\begin{latin}
\begin{equation}
\forall i: k_{i} = \frac{\ln(|F_{i}|) - c}{ln(L)}
\end{equation}
\end{latin}
با تغییر دادن پارامتر‌ها، می‌توان این رابطه را به شکل زیر در آورد:
\begin{latin}
\begin{equation}
\forall i: k_{i} = \omega \times \ln(|F_{i}|) + \epsilon
\end{equation}
\end{latin}
که رابطه‌ی اخیر، کاملا بر رابطه‌ی به دست آمده به کمک مفاهیم نظریه‌ی اطلاعات مطابقت دارد.

رابطه‌ی به دست آمده، نسبت به کاردینالیتی فیلد، صعودی است. به این معنا که فیلد دارای دسته‌های بیشتر، لزوما در فضای دارای بعد‌های بالاتر تعبیه خواهد شد؛ پس در صورتی که مدلی از این رابطه برای تخصیص پارامتر‌های تعبیه به فیلد‌های ورودی استفاده کند، همیشه تعداد پارامتر‌های بیشتری به فیلد‌هایی که کاردینالیتی بالاتر دارند در نظر می‌گیرد. اگر بخواهیم یک مثال افراطی از این مساله را مطرح کنیم، می‌توانیم فیلد‌های \trans{شناسه}{ID} را در نظر بگیریم. فیلد شناسه، به ویژگی‌هایی گفته می‌شود که در هر رکورد از مجموعه‌ی داده، یک مقدار متفاوت به خود گرفته و لذا هرگز در مجموعه‌ی داده تکرار نمی‌شوند. هر چند چنین ویژگی‌هایی از نظر نظریه‌ی اطلاعات، دارای آنتروپی و اطلاعات زیادی هستند، اما واضح است که به دلیل عدم تکرار (یا تکرار بسیار کم) آن‌ها در مجموعه‌ی داده، یادگیری از آن‌ها را غیر ممکن ساخته و لذا تخصیص پارامتر‌های زیاد به این ویژگی‌ها، باعث هدر رفتن قدرت محاسباتی و همچنین افزایش خطر بیش‌برازش می‌شود.

برای اصلاح این مشکل، می‌توانیم رابطه‌ی فوق را به شکل زیر تغییر دهیم:
\begin{latin}
\begin{equation}
\forall i: k_{i} = \omega \times \ln(|F_{i}|) \times \frac{|Dataset| - |F_{i}|}{|Dataset|} + \epsilon
\end{equation}
\end{latin}
که در آن $|Dataset|$ تعداد رکورد‌های موجود در مجموعه‌ی داده است. همان‌طور که مشخص است، کسر $\frac{|Dataset| - |F_{i}|}{|Dataset|}$ در صورتی که $|F_{i}|$ نسبت به تعداد رکورد‌های مجموعه‌ی داده، مقدار کمی داشته باشد، تقریبا برابر یک بوده و تاثیر چندانی روی نتیجه‌ی رابطه نمی‌گذارد؛ اما در صورتی که $|F_{i}|$ نسبت به $|Dataset|$ قابل مقایسه باشد، این کسر میزان کمتر از یک به خود گرفته و لذا بعد تعبیه را برای این ویژگی‌ها کاهش می‌دهد. به عبارت دیگر، برای ویژگی‌هایی که تعداد تکرار موجودیت‌های آن‌ها در مجموعه‌ی داده کم باشد، بعد تعبیه را کمی کاهش می‌دهیم. در حالت افراطی ویژگی‌های شناسه، که در آن‌ها $|F_{i}|$ تقریبا با $|Dataset|$ برابر است، میزان این کسر تقریبا برابر صفر شده و لذا بعد تعبیه برای این ویژگی‌ها به حداقل کاهش می‌یابد.

با توجه به نکات مطرح شده، در این پژوهش بعد تعبیه‌ی هر‌یک از ویژگی‌های دسته‌ای، از رابطه‌ی نهایی زیر محاسبه خواهد شد:
\begin{latin}
\begin{equation}
\forall_{1 \le i \le f}: Dim(F_{i}) = \omega \times \ln(|F_{i}|) \times \frac{|Dataset| - |F_{i}|}{|Dataset|} + \epsilon
\end{equation}
\end{latin}
که در آن، $f$ تعداد فیلد‌های ورودی است. همچنین، پارامتر‌های مربوط به تعبیه‌ی فیلد‌های مدل را به صورت زیر تعریف می‌کنیم:

\begin{latin}
\begin{equation}
\forall_{1 \le i \le f}:\mathbf{E}_{i} \in \mathbb{R}^{|F_{i}|\times Dim(|F_{i}|)}
\end{equation}
\end{latin}
حال اگر $x_{i}$ اندیس ویژگی فعال در فیلد $i$ام باشد، بردار‌های تعبیه شده‌ی مدل به این صورت تعریف می‌شوند:
\begin{latin}
\begin{equation}
\forall_{1 \le i \le f}:e_{i} = \mathbf{E}_{i}^{x_{i}} \in \mathbb{R}^{Dim(|F_{i}|)}
\end{equation}
\end{latin}

در این بخش از دو زاویه‌ی متفاوت به مساله‌ی محاسبه‌ی بعد تعبیه برای فیلد‌های ورودی نگریسته و به یک نتیجه‌ی یکسان رسیدیم. نتایج هر دو بررسی، پرسشی را که در ابتدای این بخش مطرح کرده بودیم را رد کرده و لذا برخلاف همه‌ی روش‌های پیشین، در این پژوهش فیلد‌های مختلف ورودی را در فضا‌هایی با ابعاد متفاوت تعبیه کرده و مدل محاسباتی خود را، بر مبنای این بردار‌های تعبیه شده، طراحی می‌نماییم.
\section{محاسبه‌ی تعامل}
در ادبیات پیش‌بینی نرخ کلیک، مفهوم تعامل، به ویژگی‌های درجه دوم (یا بیشتر)‌ی اشاره می‌کند که نشان دهنده‌ی تاثیر رخداد همزمان دو (یا چند) ویژگی باینری بر تصمیمات مدل هستند. به عبارت دیگر، تمامی اطلاعاتی که مدل از رخداد همزمان دو ویژگی باینری نیاز دارد، باید از طریق تعامل بین این دو ویژگی تامین شود. بدون در نظر گرفتن مفهوم تعامل، اکثر روش‌های موجود در ادبیات پیش‌بینی نرخ کلیک، به یک مدل خطی و ساده کاهش یافته و این مساله، اهمیت بالای این مفهوم را می‌رساند.

در اکثر روش‌های معرفی شده‌ی پیشین که از مفهوم تعامل برای افزایش قابلیت مدل‌سازی استفاده می‌کنند، برای محاسبه‌ی میزان تعامل از مکانیزم‌های بسیار ساده‌ای نظیر ضرب داخلی (در روش‌های مبتنی بر ماشین فاکتور‌گیری ساده)، یا ضرب درایه به درایه و سپس ترکیب خطی از نتایج حاصل از آن (در روش‌های مبتنی بر ماشین فاکتورگیری با توجه) استفاده می‌کنند. در نتیجه همه‌ی این مدل‌ها از نیاز به استفاده از بردار‌های تعبیه‌ی هم بعد برای همه‌ی فیلد‌‌ها (که در بخش قبل نشان دادیم ویژگی مناسبی نیست) رنج می‌برند.

به دلیل محدودیت عملگر‌های ضرب داخلی و ضرب درایه به درایه به استفاده از بردار‌های تعبیه‌ی هم بعد، در این پژوهش نمی‌توانیم به صورت مستقیم از این عملگر‌ها برای محاسبه‌ی میزان تعامل بین ویژگی‌های فیلد‌های مختلف بهره ببریم؛ در نتیجه باید راه دیگری برای پیاده‌سازی مفهوم تعامل بیابیم. در این بخش دو روش ممکن برای محاسبه‌ی مقادیر تعامل را معرفی می‌کنیم.

\subsection{نگاشت خطی بردار‌های تعبیه به فضای هم‌بعد}
در پژوهش \cite{Ginart_MixedDimEmb}، یک روش ساده برای مقابله با این مشکل معرفی شده است. می‌دانیم ضرب ماتریسی بردار‌های یک فضای $k_{in}$ بعدی، در یک ماتریس با ابعاد $k_{in} \times k_{out}$، یک نگاشت خطی بین فضای $k_{in}$ بعدی گفته شده و یک فضای $k_{out}$ بعدی جدید است. یعنی اگر $n$ بردار از فضای اول را در سطر‌های ماتریس $X$ قرار دهیم و همچنین ماتریس $W_{k_{in} \times k_{out}}$ را از سمت راست در $X$ ضرب کنیم، حاصل این عمل نگاشت این بردار‌ها در یک فضای جدید $k_{out}$ بعدی خواهد بود:
\begin{latin}
\begin{equation}
Y_{n \times k_{out}} = X_{n \times k_{in}} W_{k_{in} \times k_{out}}
\end{equation}
\end{latin}
در صورتی که $k_{in} < k_{out}$ باشد، نقاط در فضای $Y$ تنها به یک زیرفضا (منیفولد) از این فضای $k_{out}$ بعدی محدود شده و از تمام پیچیدگی موجود در این فضا استفاده نخواهد شد. همچنین در صورتی که $k_{in} > k_{out}$ باشد، نقاط در فضای $Y$ به صورت فشرده‌تری حضور داشته و می‌توان گفت میزانی از اطلاعات نهفته در این نقاط، از دست خواهد رفت.

در پژوهش فوق، پیشنهاد شده است که پس از ایجاد بردار‌های تعبیه در فضا‌های با ابعاد مختلف، با استفاده از تعدادی تبدیل ماتریسی خطی، همه‌ی این فضا‌ها را به فضای $k$ بعدی مشترک نگاشت کنیم؛ سپس مقادیر تعامل را مانند ماشین‌های فاکتورگیری، به کمک عملگر ضرب داخلی محاسبه کنیم. چون ابعاد ماتریس‌های گفته شده و در نتیجه تعداد پارامتر‌های آن‌ها در مقایسه با تعداد پارامتر‌های جدول‌های تعبیه ناچیز خواهد بود، لذا به سادگی می‌توانیم این پارامتر‌ها را به کمک روش‌های گرادیان کاهشی بیاموزیم.

\subsection{محاسبه‌ی تعامل به کمک شبکه‌ی عصبی}
در پژوهش \cite{he2017neural} که در ادبیات سیستم‌های پیشنهاد دهنده انجام شده است، برای محاسبه‌ی تعامل بین دو ویژگی کاربر و کالا، که به مساله‌ی \trans{فیلتر کردن مشترک}{Collaborative Filtering} معروف است، از ایده‌ی متفاوتی استفاده شده است. لازم به ذکر است این پژوهش، چندین روش مختلف و ترکیب آن‌ها را معرفی کرده است، در صورتی که در این پژوهش، تنها به یکی از این روش‌ها رجوع کرده و از ایده‌ی موجود در آن بهره می‌جوییم.

برای محاسبه‌ی تعامل بین دو بردار تعبیه شده، لزومی بر استفاده از عملگر ضرب داخلی وجود ندارد، بلکه می‌توان از یک \trans{شبکه‌ی عصبی چند لایه}{Multi Layer Perceptron} بهره جست. مهمترین ویژگی شبکه‌های عصبی چند لایه، توانایی تخمین همه‌ی توابع است. یعنی در صورتی که یک شبکه‌ی عصبی چند لایه، به تعداد کافی نورون داشته باشد و همچنین با مقدار کافی داده آموزش داده شود، می‌تواند روابط موجود بین این داده‌ها را با میزان خطای \trans{دلخواه}{Arbitrary} فرا گرفته و تخمین بزند؛ لذا به شبکه‌های عصبی چند لایه، \trans{تخمین زننده‌ی سراسری}{Global Approximator} نیز گفته می‌شود.

در پژوهش فوق، پس از تعبیه‌ی دو ویژگی موجود در مجموعه‌ی داده، بردار‌های تعبیه شده را به هم چسبانده و سپس از یک شبکه‌ی عصبی چند لایه برای محاسبه‌ی تعامل استفاده می‌شود. به دلیل سادگی و تطبیق پذیری شبکه‌های عصبی چند‌لایه، در این پژوهش نیز از این شبکه‌ها برای محاسبه‌ی تعامل بین ویژگی‌ها بهره خواهیم جست.
\subsection{تعامل‌های چند‌بعدی به جای تعامل‌های چند‌گانه}
یکی از مزایای ماشین‌های فاکتورگیری، سادگی پیاده‌سازی تعامل‌های چند‌گانه است. تعامل‌های چند‌گانه، به محاسبه‌ی مفهوم تعامل بیشتر از دو ویژگی به صورت همزمان اشاره می‌کند. در ماشین‌های فاکتورگیری، به دلیل محاسبه‌ی تعامل به صورت ضرب داخلی، به سادگی می‌توان عمل محاسبه‌ی تعامل را به بیش از دو ویژگی تعمیم داد. به عنوان مثال، رابطه‌ی زیر تعامل میان سه ویژگی در یک ماشین فاکتورگیری (مرتبه سوم) را نشان می‌دهد:
\begin{latin}
\begin{equation}
I_{i, j, l} = \sum_{m = 1}^{k} e_{i_{m}}e_{j_{m}}e_{l_{m}}
\end{equation}
\end{latin}
که در آن $k$ بعد تعبیه‌ی مشترک همه‌ی فیلد‌ها است. به این ترتیب، ماشین‌های فاکتورگیری ساده و بسیاری از مشتقات آن، به سادگی قابلیت محاسبه‌ی تعامل چند‌گانه را دارا هستند. تعامل چند‌گانه قابلیت مدل‌سازی را افزایش داده و البته خطر بیش‌برازش را افزایش می‌دهد.

در این پژوهش، می‌توانیم تعامل چند‌گانه را به سادگی با به هم چسباندن بیش از دو بردار تعبیه شده و تخصیص یک شبکه‌ی عصبی به چند تایی مرتب فیلد‌های انتخاب شده پیاده‌سازی کنیم؛ اما انجام این کار باعث افزایش بی‌رویه‌ی پیچیدگی مدل و کاهش مقیاس پذیری روش پیشنهادی خواهد شد.

ایده‌ای که برای رویارویی با این مشکل در این پژوهش معرفی می‌کنیم، استفاده از تعامل‌های چند‌بعدی است. همه‌ی روش‌های پیشین به دلیل محدودیت‌های ساختاری، مفهوم تعامل را به یک مفهوم تک بعدی که رابطه‌ی آن با احتمال کلیک خطی است، تقلیل داده‌اند. این در حالی است که می‌توانیم مفهوم تعامل را به صورت زیر تعریف کرده و تعمیم دهیم:
\begin{definition}
تعامل بین دو فیلد، بردار نهفته‌ای است که تمامی اطلاعاتی که در زوج مرتب آن دو فیلد وجود دارد و برای تخمین نرخ کلیک مورد نیاز است را به صورت فشرده نمایش می‌دهد.
\end{definition}
تعریف فوق دو تفاوت عمده با تعریف تعامل در خانواده‌ی ماشین‌های فاکتورگیری دارد:
\begin{enumerate}
\item \textbf{چند‌بعدی بودن}

تعامل بین دو فیلد می‌تواند به جای تک بعدی بودن، چند بعدی باشد و در نتیجه رفتاری مانند بردار‌های نهان در شبکه‌های عصبی داشته باشد. به این معنی که فضای چند‌بعدی ایجاد شده توسط تعامل بین دو فیلد، می‌تواند حاوی اطلاعاتی باشد که بخش‌های دیگر مدل، آن را به صورت یک ویژگی سطح بالا دریافت کرده و لذا قادر به استخراج میزان بیشتری اطلاعات از این بردار نهان چند‌بعدی خواهند بود.
\item \textbf{رابطه‌ی غیر خطی}

در ماشین‌های فاکتورگیری، فرض شده است که مجموع همه‌ی تعامل بین فیلد‌های مختلف، با افزوده شدن به جملات خطی رگرسیون، به صورت مستقیم احتمال کلیک را تخمین می‌زنند. این در حالی است که با در نظر گرفتن مفهوم تعامل به عنوان ویژگی‌های نهان در یک مدل ژرف، می‌توان روابط پیچیده‌تری نسبت به رابطه‌ی خطی بین تعامل بین فیلد‌ها و احتمال کلیک کشف نمود؛ پس لزومی ندارد که از رابطه‌ی بین احتمال کلیک و تعامل‌های بین ویژگی‌ها را به یک رابطه‌ی خطی تقلیل دهیم.
\end{enumerate}
با در نظر گرفتن تفاوت‌های گفته شده، می‌توان ساختار پیشنهادی را ارائه کرد، ولی پیش از معرفی نهایی ساختار پیشنهادی، پرسشی که ممکن است در این مرحله به ذهن برسد را مطرح کرده و پاسخ می‌دهیم.
\begin{itemize}
\item \textbf{پرسش}

چرا به جای تعامل چند‌بعدی، با افزایش تعداد لایه‌ها در شبکه‌های تعامل، از تعامل تک بعدی استفاده نکنیم؟ این گونه به نظر می‌رسد که در صورتی که تعداد لایه‌های شبکه‌های تعامل را افزایش دهیم، مدل می‌تواند تعامل‌های چند‌بعدی گفته شده را در یکی از لایه‌های نهان داخل همین شبکه‌های تعامل فرا گرفته و سپس با استخراج اطلاعات مفید آن، تعامل را به صورت تک بعدی به بخش‌های دیگر مدل انتقال دهد؛ در نتیجه معرفی تعامل چند‌بعدی به نظر بی‌دلیل می‌رسد.
\item \textbf{پاسخ}

با توجه به تعریف بالا برای مفهوم تعامل، این مفهوم مربوط به اطلاعات مشترکی است که بین ویژگی‌های دو فیلد وجود دارند؛ پس در نظر گرفتن \trans{تنگنا}{Bottleneck}ی تک بعدی، باعث محدودیت شده و ممکن است این اطلاعات مشترک برای عبور از این تنگنا فیلتر شده و بخش مهمی از این اطلاعات از دست برود.

دلیل دیگر استفاده از تعامل‌های چند‌بعدی، به اشکالی که قبلا معرفی کردیم یعنی عدم مقیاس پذیری مدل پیشنهادی در صورت استفاده از تعامل‌های چندگانه باز می‌گردد. در صورتی که اطلاعات مهمی در تعامل سه فیلد یا بیشتر وجود داشته باشد، در تعامل‌های تک بعدی این اطلاعات در تنگنای فوق حذف شده و مدل قادر به استخراج اطلاعات مربوط به تعامل چند‌گانه نخواهد بود. این در حالی است که اگر اجازه دهیم بردار‌های تعامل، چند بعدی باشند، مدل می‌تواند از کنار هم قرار دادن تعامل‌های دوگانه، تعامل‌های مرتبه‌ی بالاتر را به صورت \trans{ضمنی}{Implicit} محاسبه کرده و از آن برای پیش‌بینی نرخ کلیک بهره ببرد. عملا با در نظر گرفتن تعامل‌های چند‌بعدی، نیاز به استفاده از تعامل‌های چندگانه حذف شده و لذا مقیاس پذیری مدل افزایش می‌یابد.
\end{itemize}
با استدلال‌های گفته شده، روش محاسبه‌ی بردار‌های تعامل بین فیلد‌های ورودی تکمیل شده و لذا در این بخش، با اشاره به برخی جزئیات، این بخش مهم از روش پیشنهادی را جمع بندی می‌کنیم.

در بخش قبل بردار‌های تعبیه شده‌ی مدل را تعریف کردیم. اگر در مجموعه‌ی داده، $f$ فیلد داشته باشیم، بردار‌های تعبیه‌ی فیلد‌ها را با
$\{e_{1}, e_{2}, \dots, e_{f}\}$
نمایش می‌دهیم. چون تعامل بین ویژگی‌های هر دو فیلد محاسبه می‌شود، نیاز به $\frac{f(f - 1)}{2}$ شبکه‌ی عصبی تعامل خواهیم داشت. برای سادگی نامگذاری، این شبکه‌ها را به صورت زیر نامگذاری می‌کنیم:
\begin{latin}
\begin{equation}
\forall_{1 \le i < j \le f},  InteractionNet_{i, j} : \RR^{Dim(|F_{i}|) + Dim(|F_{j}|)} \rightarrow \RR^{Dim_{Int}}
\end{equation}
\end{latin}


شبکه‌ی $InteractionNet_{i, j}$ چند‌لایه بوده و تعداد نورون‌های هر لایه، به صورت خطی کاهش می‌یابد تا از $Dim(|F_{i}|) + Dim(|F_{j}|)$ بعد به $Dim_{Int}$ بعد برسد. تعداد لایه‌های همه‌ی این شبکه‌ها برابر $Depth_{Interaction}$ است. در فصل بعد با انجام آزمایش‌هایی، تعداد لایه‌ها و همچنین بعد بردار‌های تعامل مناسب را به دست خواهیم آورد.

تابع فعال‌ساز همه‌ی لایه‌های این شبکه‌ها (بجز لایه‌ی آخر) را \trans{واحد خطی یکسو کننده‌ی نشت کننده}{LeakyReLU}\cite{maas2013leakyrelu} در نظر می‌گیریم. دلیل استفاده از این تابع، انتقال بهتر گرادیان به لایه‌های پایین‌تر است. در لایه‌ی آخر این شبکه‌ها، برای استفاده‌ در بخش‌های دیگر مدل، از هیچ تابع فعال‌سازی استفاده نمی‌کنیم. در این پژوهش مقادیر بردار‌های تعامل را به شکل زیر نامگذاری و محاسبه می‌کنیم:
\begin{latin}
\begin{equation}
\forall_{1 \le i < j \le f},  I_{i, j} = InteractionNet_{i, j}(e_{i}: e_{j})
\end{equation}
\end{latin}

\section{استفاده از بردار‌های تعبیه و تعامل برای تخمین نرخ کلیک}
در بخش‌های قبل، شیوه‌ی تعبیه‌ی ویژگی‌ها و همچنین نحوه‌ی محاسبه‌ی تعامل بین بردار‌های تعبیه شده در روش پیشنهادی را معرفی کردیم. در این قسمت تنها بخش باقی مانده‌ی مدل را معرفی می‌کنیم. این بخش \trans{شبکه‌ی سر}{Head Network} نام دارد و مسئول استفاده از همه‌ی ویژگی‌هایی که تا اینجا تعریف کردیم و پیش‌بینی نرخ کلیک به کمک این ویژگی‌ها است.

در تعدادی از پژوهش‌های پیشین که از مدل‌های ژرف استفاده کرده‌اند، برای محاسبه‌ی نرخ کلیک از دو دسته ویژگی مهم استفاده می‌شود:
\begin{enumerate}
\item \textbf{ویژگی‌های مرتبه پایین}

ویژگی‌های مرتبه پایین در مدل‌های ژرف مبتنی بر ماشین فاکتورگیری، شامل جمله‌ی بایاس، جملات خطی و همچنین تعامل‌های مرتبه دوم است. همانطور که مشخص است، این ویژگی‌ها نقش اساسی در شکل دهی به تابع تصمیم‌گیری مدل‌ها دارند. این ویژگی‌ها به دلیل سادگی در محاسبه و همچنین نقش ساده و مشخص در پیش‌بینی نرخ کلیک، به سادگی نیز آموزش یافته و به همین دلیل با تعداد داده‌های کم نیز قابل یادگیری هستند.
\item \textbf{ویژگی‌های مرتبه بالا}
با گسترش روش‌های ژرف، محققین متوجه توانایی بالای این روش‌ها برای استخراج \trans{ویژگی‌های نهان}{Latent Features} و استفاده از آن‌ها یا استفاده از سایر ویژگی‌های مرتبه بالا شدند. مدل‌های ژرف، در صورتی که داده‌های کافی در اختیار داشته باشند، قادر خواهند بود ویژگی‌های نهان مفیدی ساخته و آن‌ها را برای محاسبه‌ی متغیر هدف به کار ببرند؛ در نتیجه بسیاری از پژوهش‌های پیشین برای پیش‌بینی نرخ کلیک، از این مزیت بهره جسته‌اند.

ویژگی‌های مرتبه بالا در مدل‌های پیش‌بینی نرخ کلیک، شامل تعامل‌های مرتبه بالا بین بردار‌های تعبیه و همچنین ویژگی‌های نهان که در برخی پژوهش‌ها به آن‌ها \trans{تعامل‌های ضمنی}{Implicit Interactions} نیز گفته می‌شود، هستند. استدلال این نامگذاری، این نکته است که مقادیر تعامل‌، به صورت \trans{صریح}{Explicit} فرموله‌بندی و محاسبه می‌شوند. در حالی که مدل‌های ژرف، می‌توانند ویژگی‌های نهانی محاسبه‌کنند که عملا تفاوتی با مقادیر تعامل بین ویژگی‌ها ندارند، اما فرموله بندی صریحی برای آن‌ها وجود ندارد؛ در نتیجه مدل‌های ژرف بر حسب نیاز، این ویژگی‌ها را استخراج کرده و از آن‌ها استفاده می‌کنند؛ لذا می‌توان این ویژگی‌ها را نسخه‌ی غیر صریح یا ضمنی (و همچنین پیچیده‌تر) مفهوم تعامل در نظر گرفت.

ویژگی‌های مرتبه بالا برای یادگیری، به داده‌های بیشتری نیاز داشته و شامل اطلاعات بیشتری هستند؛ اما آموزش آن‌ها علاوه بر محاسبات بیشتر، نیاز به طراحی دقیق‌تر و چالش‌های مختلف، به مراقبت ویژه در مقابل خطر بیش‌برازش نیاز دارند. 
\end{enumerate}
همانطور که گفته شد، در بسیاری از پژوهش‌های ژرف پیشین، از هر دو دسته‌ی این ویژگی‌ها استفاده می‌شود. دسته‌ی اول، شکل کلی تابع تصمیم‌گیری را ترسیم کرده و دسته‌ی دوم، به مدل کمک می‌کنند که این تابع را به طرز دقیق‌تری شکل داده و انعطاف کافی برای مدل‌سازی را به آن بیافزاید.

در این پژوهش نیز، از همین شیوه بهره جسته و از دو دسته ویژگی مختلف برای استفاده‌ی شبکه‌ی سر استفاده می‌کنیم. انتظار داریم این عمل هم در شرایط شروع سرد و هم در مقابل مشکل بیش‌برازش باعث بهبود کلی عملکرد مدل شود؛ پس ورودی شبکه‌ی سر، شامل دو بخش است:
\begin{itemize}
\item \textbf{بردار‌های تعبیه}

شبکه‌ی سر، برای پیش‌بینی نرخ کلیک، نیاز به ویژگی‌های مرتبه پایین دارد. به دلیل عدم استفاده از جملات رگرسیون خطی، تنها ویژگی‌های مرتبه پایینی که در اختیار داریم، خود بردار‌های تعبیه است؛ بنابراین همه‌ی بردار‌های تعبیه را به هم چسبانده و به عنوان ورودی اول شبکه‌ی سر استفاده می‌کنیم.
\item \textbf{بردار‌های تعامل}

همچنین، شبکه‌ی سر برای استخراج ویژگی‌های نهان و تخمین دقیق مرز تصمیم‌گیری، نیاز به ویژگی‌های مرتبه بالا دارد. برای تامین این ویژگی‌های مرتبه‌ی بالا، همه‌ی بردار‌های تعامل که توسط شبکه‌های تعامل محاسبه شده‌اند را به هم چسبانده و به عنوان ورودی دوم شبکه‌ی سر استفاده می‌کنیم.
\end{itemize}

شبکه‌ی سر، یک شبکه‌ی عصبی چند لایه است که بجز لایه‌ی آخر، تعداد نورون‌های همه‌ی لایه‌های آن ثابت بوده و در آن از واحد‌های خطی یکسو‌کننده‌ی نشت کننده به عنوان تابع فعال‌ساز استفاده می‌کنیم. تعداد لایه‌های این شبکه را با $Depth_{HeadNet}$ و تعداد نورون‌های هر لایه را با $Width_{HeadNet}$ نشان می‌دهیم. لایه‌ی آخر این شبکه برای محاسبه‌ی احتمال کلیک، دارای تنها یک نورون بوده و از تابع فعال‌ساز سیگموید برای آن استفاده می‌کنیم.

\begin{latin}
\begin{equation}
\hat{y} = HeadNet(e_{1}: e_{2}:\dots:e_{f}:I_{1, 2}:I_{1, 3}:\dots:I_{f-1, f})
\end{equation}
\end{latin}

چون مساله‌ی پیش‌بینی احتمال کلیک، جزو مسائل دسته‌بندی دو کلاسه است، پس می‌توانیم مدل پیشنهادی را با تابع هزینه‌ی خطای لگاریتمی آموزش دهیم. خطای لگاریتمی از طریق رابطه‌ی زیر محاسبه می‌شود:
\begin{latin}
\begin{equation}
LogLoss(y, \hat{y}) = - y \log(\hat{y}) - (1 - y)\log(1 - \hat{y})
\end{equation}
\end{latin}
همانطور که از رابطه‌ی خطای لگاریتمی مشخص است، این تابع برای نمونه‌های دو دسته، وزن یکسان در نظر می‌گیرد؛ اما در نظر گرفتن وزن یکسان برای هر دو دسته، در شرایطی که عدم توازن بین دسته‌ها وجود دارد، می‌تواند باعث شود مرز تصمیم گیری به سمت \trans{دسته‌ی اقلیت}{Minority Class} حرکت کرده و در نتیجه عملکرد مدل را برای نمونه‌های این دسته تضعیف کند. برای مقابله با این مشکل، روش‌های متعددی ارائه شده است. در این پژوهش، از وزن‌دهی تابع خطا استفاده می‌کنیم. وزن‌دهی تابع خطا به این صورت است که خطای نمونه‌های کلاس اکثریت را در یک ضریب کوچک و خطای نمونه‌های دسته‌ی اقلیت را در یک ضریب بیشتر ضرب می‌کنیم؛ در نتیجه میزان تاثیر دو کلاس بر تابع خطا یکسان شده و در نتیجه مشکل عدم توازن بین کلاس‌ها تا حدود زیادی حل می‌شود. خطای لگاریتمی در صورتی که از وزن دهی استفاده کنیم، به شکل زیر در می‌آید:
\begin{latin}
\begin{equation}
LogLoss(y, \hat{y}) = - y \log(\hat{y}) W_{Click} - (1 - y)\log(1 - \hat{y}) (1 - W_{Click})
\end{equation}
\end{latin}
که در آن $W_{Click}$ نسبت تعداد نمونه‌های کلیک نشده در کل مجموعه‌ی داده است.

تمامی قسمت‌های روش پیشنهادی، مشتق پذیر هستند. پس می‌توانیم همه‌ی این قسمت‌ها را \trans{سر تا سر}{End To End} با روش‌های \trans{گرادیان کاهشی دسته‌ای}{Mini-Batch Gradient Descent} آموزش دهیم. برای انجام این کار، از روش \trans{آدام}{ADAptive Moment estimation} استفاده می‌کنیم.

\section{جمع‌بندی روش پیشنهادی}
در جدول \ref{tbl:ideas} با جمع‌بندی ایده‌های استفاده شده در روش پیشنهادی و مزایای آن‌ها در مقابل چالش‌های مساله و همچنین معایب یا چالش‌های احتمالی هر کدام، این فصل را به پایان می‌بریم.

\begin{table}[!ht]
	\caption{خلاصه‌ی ایده‌های استفاده شده در روش پیشنهادی}
	\label{tbl:ideas}
	%\begin{latin}
	\scriptsize
\begin{center}
\begin{tabular}{|c|c|c|c|}
	\hline
	تکنیک مورد استفاده &
	چالش مورد نظر &
	مزایا در مقابل این چالش &
	معایب و محدودیت‌ها \\ \hline
	\multirow{4}{*}{تعبیه در ابعاد متفاوت} &
	ابعاد بالا &
	\begin{tabular}[c]{@{}c@{}}کاهش پارامتر‌های غیر ضروری\\ و جلوگیری از خطر بیش‌برازش\end{tabular} &
	\multirow{2}{*}{\begin{tabular}[c]{@{}c@{}}استفاده از عملگر‌های معمول برای\\ محاسبه‌ی تعامل امکان پذیر نیست\end{tabular}} \\ \cline{2-3}
	&
	شروع سرد &
	افزایش سرعت یادگیری به کمک تعبیه‌ی موثر &
	\\ \cline{2-4} 
	&
	سرعت آموزش &
	پارامتر‌های کمتر و افزایش سرعت آموزش &
	\multirow{2}{*}{\begin{tabular}[c]{@{}c@{}}نیاز به مشخص کردن رابطه‌ای\\ برای ابعاد بردار‌های تعبیه‌ی هر فیلد\end{tabular}} \\ \cline{2-3}
	&
	سرعت اجرا &
	محاسبات کمتر و افزایش سرعت پیش‌بینی &
	\\ \hline
	\multirow{3}{*}{\begin{tabular}[c]{@{}c@{}}محاسبه‌ی تعامل به کمک\\ شبکه‌های عصبی چند لایه\end{tabular}} &
	مدل‌سازی بهتر &
	استخراج تعامل‌ها با پیچیدگی بیشتر &
	افزایش جزئی خطر بیش‌برازش \\ \cline{2-4} 
	&
	شروع سرد &
	\begin{tabular}[c]{@{}c@{}}بهره گیری از فضای چگال بردار‌های\\ تعبیه برای محاسبه‌ی تعامل\end{tabular} &
	\multirow{2}{*}{لزوم استفاده از تنظیم} \\ \cline{2-3}
	&
	سرعت اجرا &
	\begin{tabular}[c]{@{}c@{}}وجود پیاده‌سازی‌های سریع\\ برای شبکه‌های عصبی چند لایه\end{tabular} &
	\\ \hline
	\multirow{2}{*}{تعامل‌های چند بعدی} &
	مدل‌سازی بهتر &
	وجود اطلاعات بیشتر در بردار‌های تعامل &
	\multirow{2}{*}{افزایش جزئی خطر بیش‌برازش} \\ \cline{2-3}
	&
	مدل‌سازی بهتر &
	عدم نیاز به تعامل‌های چند‌گانه &
	\\ \hline
	\multirow{3}{*}{\begin{tabular}[c]{@{}c@{}}ترکیب بردار‌های\\ تعبیه و تعامل\end{tabular}} &
	مدل‌سازی بهتر &
	\begin{tabular}[c]{@{}c@{}}وجود اطلاعات مفید در ویژگی‌های\\ مرتبه پایین و مرتبه بالا\end{tabular} &
	\multirow{3}{*}{افزایش جزئی خطر بیش‌برازش} \\ \cline{2-3}
	&
	شروع سرد &
	\begin{tabular}[c]{@{}c@{}}حضور ویژگی‌های مرتبه پایین در صورت\\ عدم حضور ویژگی‌های مرتبه بالا\end{tabular} &
	\\ \cline{2-3}
	&
	سرعت آموزش &
	رسیدن گرادیان از مسیر‌های متعدد به بردار‌های تعبیه &
	\\ \hline
	وزن دهی تابع خطا &
	عدم توازن بین دسته‌ها &
	جلوگیری از بایاس شدن مدل به سمت دسته‌ی اکثریت &
	کاهش جزئی سرعت همگرایی \\ \hline
\end{tabular}
\end{center}
\end{table}