mr.rezaei
/
haji_thesis


			
							123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280281282283284285286287288289290291292293294295296297298299300301302303304305306307308309310311312313314315316317318319320321322323324325326327328329330331332333334335336337338339340341342343344345346347348349350351352353354355356357358359360361362363364365366367368369370371372373374375376377378379380381382383384385386387388389390391392393394395396397398399400401402403404405406407408409410411412413414415416417418419420421422423424425426427428429430431432433434435436437438439440441442443444445446447448449450451452453454455456457458459460461462463464465466467468469470471472473474475476477478479480481482483484485486487488489490491492493494495496497498499500501502503504505506507508509510511512513514515516517518519520521522523524525526527528529530531532533534535536537538539540541542543544545546547548549550551552553554555556557558559560
							% !TEX encoding = UTF-8 Unicode
\chapter{پژوهش‌های پیشین}\label{Chap:Chap2}

در این فصل پژوهش‌های پیشین در حوزه‌ی پیش‌بینی نرخ کلیک را بررسی و طبقه بندی کرده و نقاط قوت و ضعف آن‌ها را بررسی می‌کنیم. این بررسی را از روش‌های کلاسیک یادگیری ماشین آغاز کرده و سپس با معرفی خانواده‌ای از مدل‌ها به نام ماشین فاکتورگیری و مدل‌های مقتبس از آن، این بررسی را ادامه می‌دهیم؛ سپس به سراغ مدل‌های ژرف رفته و پس از آن، با مقایسه‌ی نهایی این مدل‌ها و بررسی مزایا و معایب هریک از آن‌ها، این فصل را به پایان می‌بریم.

\section{روش‌های کلاسیک}
همان‌طور که در فصل قبل بیان کردیم،‌ مساله‌ی پیش‌بینی نرخ کلیک را می‌توان یک مساله‌ی \trans{دسته بندی}{Classification} که از مسائل پایه‌ای یادگیری ماشین است، در نظر گرفته و لذا از روش‌های موجود در ادبیات یادگیری ماشین، برای حل این مساله کمک گرفت.

اولین تلاش‌ها برای حل مساله‌ی پیش‌بینی نرخ کلیک، به استفاده از روش‌های کلاسیک یادگیری ماشین انجامید. هرچند چالش‌هایی که در فصل قبل معرفی کردیم، عملکرد این روش‌ها را محدود و نتایج آن‌ها را تحت تاثیر قرار می‌دادند؛ اما به دلیل نبود روش جایگزین، این روش‌ها در بسیاری از موارد به عنوان تنها روش‌های ممکن در نظر گرفته شده و برای حل مساله‌ی پیش‌بینی نرخ کلیک به کار بسته می‌شدند.

در این بخش به بررسی برخی از این پژوهش‌ها که برخی از آن‌ها قدمت زیادی دارند، می‌پردازیم. ابتدا استفاده از ماشین‌های بردار پشتیبان برای پیش‌بینی نرخ کلیک را بررسی می‌کنیم؛ سپس روش‌های دیگر این دسته از قبیل رگرسیون تکه‌ای خطی و یک مدل رگرسیون بیزی را معرفی می‌کنیم.
\subsection{ماشین‌های بردار پشتیبان}
در ادبیات یادگیری ماشین کلاسیک، ماشین‌های بردار پشتیبان\cite{boser1992} سابقه‌ی پژوهشی برجسته و مهمی دارند. ماشین‌های بردار پشتیبان بر اساس در نظر گرفتن ارتباط خطی بین ورودی و خروجی، مساله‌ی رگرسیون را حل می‌کنند. یادگیری پارامتر‌های ماشین بردار پشتیبان به دلیل استفاده از روش‌های \trans{برنامه‌ریزی درجه دوم}{Quadratic Programming} و بهره بردن از \trans{فرم دوگان}{Dual Form} بسیار سریع است. پس از اتمام فرآیند آموزش، مدل ماشین بردار پشتیبان، خروجی مساله را به صورت یک رابطه‌ی خطی ارائه می‌دهد:
\begin{latin}
\begin{align}
\hat{y}(x) = w_{0} + \sum_{i = 1}^{n} w_{i} x_{i},\qquad w_{0}  \in \mathbb{R} ,\quad w \in \mathbb{R}^{n}
\end{align}
\end{latin}

در این رابطه $x$ ورودی، $\hat{y}$ خروجی، $n$ تعداد ابعاد ورودی و $w_{0}$ و $w$ پارامتر‌های مدل هستند که در فرآیند آموزش تخمین زده می‌شوند. همانطور که از این رابطه مشخص است، عدم پشتیبانی ماشین‌های بردار پشتیبان از ارتباط‌های غیر خطی بین ورودی و خروجی باعث سادگی بیش از حد این مدل می‌شود. در ادبیات یادگیری ماشین کلاسیک، برای حل این مشکل، نسخه‌ی کرنل دار این ماشین‌ها استفاده می‌شود. در ماشین‌های بردار پشتیبان با کرنل چند‌جمله‌ای درجه دوم، به عبارت بالا یک جمله‌ی دیگر اضافه می‌شود تا پیچیدگی کافی برای حل مساله را به مدل اضافه کند. رابطه‌ی پیش‌بینی ماشین بردار پشتیبان با کرنل چند‌جمله‌ای درجه دوم به صورت زیر است:
\begin{latin}
\begin{align}
\hat{y}(x) = w_{0} + \sum_{i = 1}^{n} w_{i} x_{i} + \sum_{i = 1}^{n - 1}\sum_{j = i + 1}^{n}w^{'}_{i, j}x_{i}x_{j} ,\qquad w_{0}  \in \mathbb{R} ,\quad w \in \mathbb{R}^{n} ,\quad w' \in \mathbb{R}^{n \times n}
\end{align}
\end{latin}

که $w'$ پارامتر‌هایی هستند که به این مدل اضافه شده‌اند. می‌توان جمله‌ی آخر این عبارت را به تاثیر حضور همزمان دو ویژگی مختلف $x_{i}$ و $x_{j}$ در خروجی مدل تعبیر کرد.

همانطور که انتظار می‌رود، این مدل دچار ایراداتی اساسی در طراحی آن است. در صورتی که به پارامتر‌های این مدل توجه کنیم، متوجه می‌شویم که تعداد پارامتر‌های این مدل بسیار زیاد است؛ پس برای تکمیل فرآیند یادگیری برای این تعداد پارامتر، نیاز به تعداد بسیار زیادی داده وجود دارد که چنین تعدادی از داده‌ها در دسترس نیست. علاوه بر این، در صورتی که به تفسیر جمله‌ی دوم این عبارت توجه کنیم، متوجه می‌شویم که هرکدام از درایه‌های ماتریس $w'$ تنها زمانی استفاده (و لذا آموزش داده) می‌شوند که هر دو ویژگی مربوطه حاضر باشند. این در حالی است که می‌دانیم بسیاری از جفت ویژگی‌های مجموعه‌های داده در مساله‌ی پیش‌بینی نرخ کلیک، تعداد دفعات بسیار کمی در کنار هم رخ داده و در بسیاری از حالات، هرگز به صورت همزمان رخ نمی‌دهند. این مشکلات توان یادگیری این مدل را به شدت تهدید کرده و لذا در بسیاری از شرایط، نتایج قابل قبولی ارائه نمی‌دهند.

به دلیل همه‌ی مشکلات گفته شده، ماشین‌های بردار پشتیبان نقش کمتری در پژوهش‌های امروزی در اکثر مساله‌ها، خصوصا مساله‌ی پیش‌بینی نرخ کلیک ایفا می‌کنند.


\subsubsection{مدل تکه‌ای خطی\cite{Gai_piecewise}}
در ادامه‌ی بررسی روش‌های کلاسیک یادگیری ماشین برای حل مساله‌ی پیش‌بینی نرخ کلیک و رویارویی با چالش ابعاد بالا و غیرخطی بودن روابط بین ویژگی‌ها و خروجی، به بررسی مدل تکه‌ای خطی می‌پردازیم. این مدل قبل از انتشار در مقالات پژوهشی، به مدت قابل توجهی در شرکت \trans{علی‌بابا}{Alibaba} به عنوان روش اصلی حل مساله‌ی پیش‌بینی نرخ کلیک استفاده شده است.

از آن‌جا که جزئیات مساله‌ی مورد بررسی، نیاز به انعطاف غیر خطی را ایجاب می‌کند، لذا محققین شرکت علی‌بابا برای یافتن یک مدل غیرخطی مناسب، تمرکز خود را بر ترکیب مدل‌های خطی به شیوه‌ای که بتوانند در کنار هم عملکرد غیرخطی داشته باشند؛ قرار دادند؛پس یک مدل ساده و عمومی از ترکیب مدل‌های خطی معرفی کردند. در این مدل، نیمی از پارامتر‌ها برای تفکیک فضای داده به بخش‌هایی که در هر کدام یک یا ترکیبی از چند مدل جزئی در آن عملکرد قابل قبولی داشته باشند؛ و نیمه‌ی دیگر پارامتر‌ها را برای آموزش مدل‌های جزئی در آن بخش‌ها اختصاص داده شده است. رابطه‌ی ریاضی این مدل کلی به صورت زیر است:
\begin{latin}
\begin{equation}
y = g(\sum_{j=1}^{m}\sigma(u_{j}^{T}x) \eta(w_{j}^{T}x))
\end{equation}
\end{latin}
که در آن، $\eta$ تابع تصمیم‌گیری مدل‌های جزئی است. $\eta$ می‌تواند یک تابع توزیع احتمال دودویی مثل تابع \trans{سیگموید}{Sigmoid} باشد. همچنین تابع $\sigma$ می‌تواند یک تابع وزن دهی چند کلاسه باشد. در ساده‌ترین حالت، تابع \trans{سافت مکس}{Softmax} می‌تواند این نقش را ایفا کند. بردار‌های $u_{j}$ و $w_{j}$ پارامتر‌های مدل هستند و زیر نویس $j$ نشان‌دهنده‌ی شماره‌ی مدلی است که به آن تعلق دارند. ابرپارامتر $m$ تعداد مدل‌های جزئی را تعیین می‌کند که به دلیل جلوگیری از پیچیدگی بیش از حد مدل، اکثرا مقداری نزدیک به 12 دارد. همچنین تابع $g$ یک تابع نرمال ساز احتمال بوده و تنها نقش آن تبدیل تابع به وجود آمده به یک تابع توزیع احتمال معتبر است.

این مدل می‌تواند به وسیله‌ی تابع خطایی نظیر \trans{قرینه‌ی درستنمایی}{Negative likelihood} و به وسیله‌ی روش‌های گرادیان کاهشی \cite{lecun_sgd} آموزش یابد.

همچنین واضح است که در حالت کلی،‌ و با افزایش تعداد مدل‌های جزئی، این ساختار توانایی مدل کردن هر تابعی را دارد؛ در نتیجه مشکل پیچیدگی بیش از حد مدل، محققین را وادار به افزودن جملات تنظیم به تابع خطای مدل می‌کند. در این تحقیق از دو جمله‌ی خطای زیر استفاده می‌شود:
\begin{latin}
\begin{equation}
||\theta||_{1} = \sum_{i = 1}^{d} \sum_{j = 1}^{2m} |\theta_{ij}|
\end{equation}
\end{latin}
\begin{latin}
\begin{equation}
||\theta||_{2,1} = \sum_{i = 1}^{d} \sqrt{\sum_{j = 1}^{2m} \theta_{ij}^{2}}
\end{equation}
\end{latin}
که در آن $d$ تعداد ابعاد داده‌ها و
$\theta_{-, j}$
شامل $u_{j}$ و $w_{j}$ است.

تنظیم نوع اول برای کاهش کلی تعداد پارامتر‌های غیر صفر و تنظیم نوع دوم باعث فشردگی میزان پارامتر‌ها به منظور کسب واریانس کمتر تعریف شده‌است؛ اما اضافه شدن این دو جمله، باعث می‌شود سطح خطا در فضای پارامتر‌ها، سطحی غیر \trans{محدب}{Convex} و غیر \trans{نرم}{Smooth} باشد؛ در نتیجه استفاده از روش‌های کاهش گرادیان یا \trans{بیشینه‌سازی امید ریاضی}{Expectation Maximization} منطقی نیست. برای رفع این اشکال، محققین به روشی مشابه \trans{کواسی-نیوتون با حافظه‌ی محدود}{LBFGS}\cite{lbfgs_2008} روی آورده و مدل را بدین طریق آموزش می‌دهند. همچنین در این پژوهش تعدادی تکنیک برای کاهش مصرف حافظه و زمان آموزش ارائه شده که این مدل را برای استفاده در صنعت مناسب می‌سازد.

از مزایای این مدل می‌توان به قابلیت تغییر قسمت‌هایی از مدل و انعطاف پذیری آن، پارامتر‌های تنک و تفسیر پذیری مناسب اشاره کرد. همچنین از معایب این روش می‌توان به تعداد پارامتر بالا، کندی در زمان آموزش و تفاوت نسبتا جزئی نتایج آن با نتایج روش‌های خطی مثل رگرسیون لجستیک اشاره نمود.

\subsubsection{مدل بیزی\cite{Graepel_2010}}
در پژوهشی دیگر، محققین شرکت مایکروسافت، برای سیستم \trans{جستجوی حمایت شده}{Sponsored search}‌ی \trans{بینگ}{Bing}، یک متد پیش‌بینی نرخ کلیک ارائه داده‌اند. خروجی این پژوهش از سال 2009 در مقیاس بالا در جستجوی حمایت شده‌ی بینگ به کار بسته می‌شد.

در این پژوهش، از تابع \trans{پرابیت}{Probit} (تابع تجمعی احتمال توزیع گاوسی)، برای \trans{نگاشت}{Mapping} از محور حقیقی، به توزیع احتمال استفاده می‌شود. به همین دلیل به این دسته روش‌ها، \trans{رگرسیون پرابیت}{Probit Regression} گفته می‌شود. دلیل این نوع نامگذاری، تقابل این دسته از روش‌ها با رگرسیون‌های لجستیک است. همانطور که گفته شد، در رگرسیون لجستیک، از تابع سیگموید برای این نگاشت استفاده می‌شود.

در این روش، با فرض گاوسی و مستقل بودن احتمال پیشین هر یک از پارامتر‌های مدل، مساله را به صورت یک مساله‌ی رگرسیون خطی در نظر می‌گیریم:
\begin{latin}
\begin{equation}
p(w) = \prod_{i} N(w_{i}|\mu_{i}, \sigma_{i}^{2})
\end{equation}
\end{latin}
حال با استفاده از دو متغیر \trans{نهفته}{Latent}‌ی $s$ و $t$ کار را پیش‌می بریم. متغیر تصادفی $s$ به صورت ضرب داخلی بردار ورودی‌ها در بردار وزن‌ها تعریف شده و به صورت قطعی از روی ورودی‌ها و وزن‌ها قابل مقایسه است. متغیر تصادفی $t$ یک متغیر تصادفی گاوسی با میانگینی برابر با مقدار $s$ و واریانسی مشخص تعریف می‌شود. همچنین، خروجی این مدل ($y$) به وسیله‌ی یک تابع آستانه مثل تابع علامت روی متغیر $t$ به دست می‌آید.
\begin{latin}
\begin{equation}
s=w^{T}x
\end{equation}
\end{latin}
\begin{latin}
\begin{equation}
t \sim N(s, \sigma^{2})
\end{equation}
\end{latin}
\begin{latin}
\begin{equation}
y=sign(t)
\end{equation}
\end{latin}
سپس به کمک دو متغیر تصادفی تعریف شده، توزیع احتمال شرطی خروجی نسبت به ورودی را این‌گونه فاکتورگیری می‌کنیم:
\begin{latin}
\begin{equation}
p(y, t, s, w|x) = p(y|t) p(t|s) p(s|x, w) p(w)
\end{equation}
\end{latin}
به دلیل غیر قابل محاسبه بودن توزیع پسین برای وزن‌ها، استفاده از این روابط برای محاسبه‌ی مستقیم مقادیر وزن‌ها ممکن نیست؛ پس با استفاده از الگوریتم‌های \trans{پیام‌رسانی}{Message passing} و تخمین توزیع پسین با توزیع گاوسی، مقادیر وزن‌ها قابل آموزش می‌شوند.

در این پژوهش، اندازه‌ی گام به روز رسانی مقادیر پارامتر‌ها را در طول زمان کاهش داده و بدین طریق، آموزش مدل را تسریع می‌کنند. همچنین فرآیند \trans{اکتشاف}{Expolration} و \trans{بهره برداری}{Exploitation} نیز، بدین وسیله مدل می‌شود که برای نمونه‌هایی با اطمینان بالا (واریانس پایین) عمل بهره برداری و برای نمونه‌هایی با اطمینان پایین (واریانس بالا) عمل اکتشاف انجام داده می‌شود؛ به همین دلیل این روش نیز مانند بقیه‌ی روش‌ها، از مشکل شروع سرد رنج می‌برد.

نتایج عمده‌ی روش‌هایی که تا اینجا معرفی کردیم، به دلیل وجود چالش‌هایی که در فصل قبل مطرح شد، چندان قابل قبول نیستند؛ لذا از سال 2010 به بعد، توجه بخش عمده‌ای از پژوهشگران به سمت روش‌هایی تحت عنوان خانواده‌ی ماشین‌های فاکتورگیری جلب شد.

\subsection{ماشین‌های فاکتورگیری}
در این بخش به بررسی پژوهش‌های خانواده‌ی ماشین‌های فاکتورگیری می‌پردازیم. ایده‌ی اصلی استفاده از ماشین‌های فاکتورگیری، استفاده از شیوه‌ی به خصوصی از تنظیم است که باعث می‌شود مدل، قابلیت یادگیری خواص ترکیبی بین ویژگی‌های مختلف و متعدد ورودی را با تعداد محدودی پارامتر داشته باشد. در ادبیات ماشین‌های فاکتورگیری، به این خواص ترکیبی، \trans{تعامل}{Interaction} بین ویژگی‌ها گفته می‌شود. در این بخش چند پژوهش در حوزه‌ی ماشین‌های فاکتورگیری از جمله پژوهشی که اولین بار از این ایده برای پیش‌بینی نرخ کلیک استفاده کرده است را بررسی می‌کنیم.

\subsubsection{ایده‌ی فیلد‌ها و شیوه‌ی نگرش به داده‌ها در ماشین‌های فاکتورگیری}
در همه‌ی پژوهش‌های این دسته، نگرش خاصی به داده‌ها وجود دارد که در این بخش آن را معرفی می‌کنیم. در اغلب مجموعه‌های داده‌ی موجود در ادبیات تخمین نرخ کلیک و همچنین سیستم‌های پیشنهاد دهنده، همه یا اکثر ویژگی‌ها به صورت \trans{دسته‌ای}{Categorical} هستند. مدل‌های یادگیری ماشین برای برخورد مناسب با این نوع ویژگی‌ها، از روش‌های مختلفی از جمله 
\trans{کدگذاری یک از $k$}{One of k coding}
استفاده می‌کنند.

در روش کدگذاری 1 از $k$، ابتدا همه‌ی مقادیر مختلف این ویژگی دسته‌ای لیست شده، سپس به هر کدام یک شماره یا اندیس تخصیص داده می‌شود؛ سپس برای نمایش دادن حالتی که ویژگی دسته‌ای مقدار $n$ام را داشته باشد، برداری به اندازه‌ی $k$ (تعداد حالات ویژگی دسته‌ای) ایجاد شده و همه‌ی مقادیر آن (بجز خانه‌ی اندیس $n$ام) صفر قرار داده می‌شود و در خانه‌ی اندیس $n$ام، مقدار 1 قرار داده می‌شود؛ پس در هر حالت، تنها یکی از درایه‌های این بردار برابر یک بوده و بقیه‌ی درایه‌ها مقدار صفر دارند؛ به همین دلیل به این بردار، \trans{بردار تک داغ}{One hot vector} هم گفته می‌شود.

در روش‌های ماشین فاکتورگیری، به هر یک از ویژگی‌های دسته‌ای و بردار‌های مربوط به آن‌ها، یک \trans{فیلد}{Field} گفته می‌شود. همچنین به هر یک از درایه‌های این بردار‌ها، یک \trans{ویژگی باینری}{Binary feature} گفته می‌شود. در این مدل‌ها پس از کدگذاری همه‌ی فیلد‌های موجود در داده‌ها، بردار‌های تک داغ ساخته شده را به هم چسبانده و یک \trans{بردار چند داغ}{Multi hot vector} ساخته می‌شود. این بردار به صورت مستقیم به عنوان ورودی مدل‌های ماشین فاکتورگیری استفاده می‌شود. در اغلب مجموعه‌های داده‌ی در دسترس، تعداد فیلد‌ها ($f$) بین 10 تا 50 بوده و تعداد ویژگی‌های باینری ($n$) بین چند ده هزار تا چند ده میلیون است؛ لذا ورودی ماشین‌های فاکتورگیری، بردار‌هایی به طول چند میلیون هستند که تنها چند ده درایه‌ی غیر صفر دارند.

\subsubsection{ماشین‌های فاکتورگیری ساده\cite{Rendle:2010ja}}

خانواده‌ی بزرگی از مدل‌هایی که برای محاسبه‌ی نرخ کلیک استفاده می‌شوند، \trans{ماشین‌های فاکتور‌گیری}{Factorization Machines} و نسخه‌های پیشرفته‌ی آن‌ها هستند. تحقیقات بسیاری با پیاده‌سازی و پیشنهاد انواع جدید این خانواده، مساله‌ی پیش‌بینی نرخ کلیک را حل کرده و بهترین نتایج توسط همین تحقیقات ارائه شده‌اند.

ایده‌ی اصلی ماشین‌های فاکتورگیری، همان‌طور که از نام آن‌ها مشخص است، عمل فاکتورگیری ماتریسی است. عمل فاکتورگیری زمانی استفاده می‌شود که نیاز به تخمین زدن یک ماتریس وجود داشته باشد، اما به دلیل ابعاد بالای این ماتریس، قابلیت یادگیری همه‌ی درایه‌های آن برای مدل موجود نباشد. مثلا ماشین بردار پشتیبان با کرنل چند‌جمله‌ای درجه دوم که آن را در بخش‌های قبل معرفی کردیم، ماتریس $w'$ که مشخص کننده‌ی وزن جمله‌های مرتبه دوم است، دقیقا همین شرایط را داراست؛ پس در پژوهشی که اولین بار ماشین‌های فاکتورگیری را معرفی کرد، سراغ همین ماتریس رفته و عمل فاکتورگیری را روی آن انجام دادند. در ماشین فاکتورگیری، به جای این که فرض کنیم همه‌ی درایه‌های این ماتریس پارامتر‌های مستقل و قابل یادگیری هستند، این ماتریس را حاصل ضرب یک ماتریس با ابعاد کمتر در ترانهاده‌ی خودش فرض کرده و لذا رتبه‌ی ماتریس $w'$ را کاهش می‌دهیم:
\begin{latin}
\begin{equation}
w' = v.v^{T} ,\quad v \in \mathbb{R}^{n \times k}
\end{equation}
\end{latin}
که در آن $k$ بعد تعبیه بوده و مقدار کمی (حدود 10) دارد؛ پس ماتریس $w'$ از روی ماتریس $v$ ساخته شده و در نتیجه مشکلات ذکر شده در ماشین بردار پشتیبان با کرنل چند‌جمله‌ای درجه دوم در آن وجود ندارد. عبارت کامل رابطه‌ی ماشین‌های فاکتورگیری به این صورت است:

\begin{latin}
\begin{align}
\hat{y}(x) = w_{0} + \sum_{i = 1}^{n} w_{i} x_{i} + \sum_{i = 1}^{n} \sum_{j = i + 1}^{n} w'_{i,j} x_{i} x_{j} ,\quad w'_{i,j} = \sum_{l = 1}^{k} v_{i,l} v_{j,l} , \: v_{i} \in \mathbb{R}^{k}
\end{align}
\end{latin}

تعبیر دیگری که می‌توانیم از این روابط داشته باشیم، عملکرد مناسب ماشین‌های فاکتورگیری را بهتر نمایان می‌کند. می‌توانیم ماتریس $v$ را به شکل یک \trans{جدول تعبیه}{Embedding Table} در نظر بگیریم؛ در نتیجه به ازای هر فیلد، تنها یکی از سطر‌های این جدول انتخاب می‌شود. (بقیه‌ی سطر‌ها به دلیل این‌که $x_{i}$ مربوطه صفر است، تاثیری در خروجی ندارند.) در نهایت، حاصل ضرب داخلی بردار‌های تعبیه‌ی همه‌ی فیلد‌ها دو به دو محاسبه شده و نتایج آن با نتایج جمله‌ی خطی جمع می‌شود. حاصل هر یک از این ضرب‌های داخلی، به نام تعامل بین دو ویژگی نیز شناخته می‌شود. در نهایت با اعمال تابع سیگموید، عدد حاصل به توزیع احتمال کلیک تبدیل می‌شود.

همان طور که گفته شد، در ماشین‌های فاکتور‌گیری علاوه بر ارتباط خطی بین خروجی و همه‌ی ابعاد ورودی، تاثیر تعامل بین ابعاد ورودی نیز در خروجی در نظر گرفته می‌شود؛ لذا پیچیدگی ماشین‌های فاکتور‌گیری از مدل‌های رگرسیون خطی مثل ماشین‌های بردار پشتیبان یا رگرسیون لجستیک بیشتر است و قادر به مدل کردن خانواده‌ی بزرگتری از توابع هستند.

یکی از مهمترین فواید عدم استقلال درایه‌های ماتریس $w'$ از یکدیگر، در زمان مواجهه با داده‌های \trans{تنک}{Sparse} مشخص می‌شود. خصوصا در مساله‌ی پیش‌بینی نرخ کلیک که تعداد ابعاد داده بسیار زیاد بوده ولی اکثر ویژگی‌های داده به ندرت فعال (غیر صفر) هستند. اگر در این‌گونه مسائل همه‌ی ضرایب تعامل بین ویژگی‌ها را مستقل در نظر بگیریم، به تعداد بسیار زیاد و گاها غیر قابل دسترس داده نیاز خواهیم داشت. در مقابل، هنگام استفاده از ماشین‌های فاکتورگیری، به دلیل کاهش تعداد پارامتر‌های قابل یادگیری، با استفاده از تعداد داده‌ی کمتر، نتایج تعمیم‌پذیرتری قابل دستیابی هستند.

علاوه بر این، در صورتی که در داده‌های آموزشی، یک جفت ویژگی به صورت همزمان رخ نداده باشند، یادگیری وزن مربوط به آن‌ها توسط ماشین بردار پشتیبان با کرنل چند‌جمله‌ای درجه دوم غیر ممکن است. در حالی که در ماشین‌های فاکتورگیری، در صورتی که این دو ویژگی به تعداد قابل قبول به صورت مجزا مشاهده شوند، بردار‌های تعبیه‌ی مربوط به آن‌ها توسط ماشین فاکتورگیری یاد گرفته شده و لذا محاسبه‌ی تعامل این دو ویژگی با وجود این که قبلا با هم مشاهده نشده‌اند، ممکن خواهد بود. این مزیت ماشین‌های فاکتورگیری قابلیت تعمیم آن‌ها را افزایش داده و آن‌ها را تا حدودی در مقابل چالش شروع سرد مقاوم می‌کند.

ماشین‌های فاکتورگیری ساده، عملکرد قابل توجهی روی مجموعه‌های داده‌ی مربوط به نرخ کلیک ارائه کرده و در صنعت نیز مورد استفاده قرار گرفتند؛ اما به دلیل سادگی زیاد، تعمیم آن‌ها از جهات مختلف در دستور کار پژوهشگران قرار گرفت و روش‌های متعددی برای تعمیم آن‌ها معرفی شدند. در ادامه به بررسی برخی از این روش‌ها می‌پردازیم.

\subsubsection{ماشین‌های فاکتورگیری آگاه از فیلد\cite{Juan_fieldawarefm1, Juan_fieldawarefm2}}

ماشین‌های فاکتورگیری ساده، برای محاسبه‌ی تعامل بین دو ویژگی، از عمل ضرب داخلی بین بردار تعبیه‌ی این دو ویژگی استفاده می‌کنند. در نتیجه برای محاسبه‌ی تعامل یک ویژگی از فیلد اول، با یک ویژگی از فیلد‌های دوم یا سوم، از بردار تعبیه‌ی یکسانی استفاده شود. محققینی که ماشین‌ فاکتورگیری آگاه از فیلد را معرفی کردند، ادعا می‌کنند تعامل بین فیلد‌های اول و دوم، کاملا از تعامل بین فیلد‌های اول و سوم مجزا بوده و می‌توان برای آن‌ها از بردار‌های تعبیه‌ی متفاوت استفاده کرد.

این ادعای این پژوهش را می‌توان به صورت دیگر نیز بیان کرد. فرض کنید فضای تعبیه‌ی $A$ برای ویژگی‌های فیلد اول و فضای تعبیه‌ی $B$ و $C$ به ترتیب برای ویژگی‌های فیلد دوم و سوم باشند. در صورتی که پارامتر‌های موجود در $A$ برای محاسبه‌ی تعامل با بردار‌های $B$ یاد گرفته شوند، یعنی فضای $A$ به طریقی ایجاد شده است که تفاوت‌های مربوط به ویژگی‌های فیلد دوم را در نظر گرفته است ولی تفاوت‌های مربوط به ویژگی‌های فیلد سوم از آن حذف شده است؛ پس تعامل محاسبه شده بین $A$ و $C$ نمی‌تواند تمامی اطلاعات ممکن را دارا باشد. در نتیجه لازم است برای هر فیلد، به تعداد
$f - 1$
فضای تعبیه در نظر گرفته و تعامل بین ویژگی‌های هر جفت فیلد را، در فضای مربوط به آن جفت فیلد محاسبه کنیم.

رابطه‌ی پیش‌بینی نهایی ماشین آگاه از فیلد، به صورت زیر است:
\begin{latin}
\begin{equation}
\hat{y}_{FFM}(x) = w_{0} + \sum_{i = 1}^{n} w_{i} x_{i} + \sum_{i = 1}^{n} \sum_{j = i + 1}^{n} x_{i}x_{j}<v_{i, F_{j}}, v_{j, F_{i}}>
\end{equation}
\end{latin}
که در آن،
$v_{i,F_{j}}$
بردار تعبیه‌ی ویژگی $i$ام در مواجهه با ویژگی‌های فیلد مربوط به ویژگی $j$ام بوده و عملگر $<.>$ ضرب داخلی بین دو بردار را محاسبه می‌کند.

همان طور که واضح است که این تغییر باعث افزایش بسیار زیاد تعداد پارامتر‌های این مدل می‌شود؛ در نتیجه ماشین‌های فاکتورگیری آگاه از فیلد به دلیل تعداد پارامتر‌های بالا، در مقابل چالش‌هایی از قبیل شروع سرد و سرعت آموزش، چندان موفق نیستند.

\subsubsection{ماشین‌های فاکتورگیری با فیلد‌های وزن‌دار\cite{Pan_fieldweightedfm}}

در ماشین‌های فاکتورگیری آگاه از فیلد، از آن‌جا که برای هر جفت فیلد، یک دسته بردار تعبیه شده در نظر گرفته می‌شود؛ تعداد پارامتر‌های مدل بسیار زیاد بوده و این امر باعث بروز مشکلاتی از جمله افزایش زمان آموزش و همچنین بیشتر شدن خطر بیش برازش می‌شود؛ پس محققین به دنبال یافتن راهی برای کاهش تعداد پارامتر‌ها با حفظ پیچیدگی مشکل گشته و در نتیجه ماشین‌های فاکتورگیری با فیلد‌های وزن‌دار معرفی شدند.

در ماشین‌های فاکتور‌گیری با فیلد‌های وزن‌دار، به این نکته که میانگین میزان تعامل بین جفت‌های مختلف از فیلد‌ها، بسیار متفاوت است؛ توجه ویژه‌ای شده است. به عنوان مثال، اکثر تعاملات بین ویژگی‌های فیلد تبلیغ کننده و فیلد ناشر، میزان چشم‌گیری دارند؛ در حالی که تعاملات بین ویژگی‌های فیلد ساعت و فیلد روز هفته، میزان قابل توجهی ندارند. که این تفاوت با توجه به مفهوم این فیلد‌ها، کاملا منطقی به نظر می‌رسد؛ اما در ماشین‌های فاکتورگیری آگاه از فیلد، چنین تفاوتی مدل نمی‌شود؛ لذا محققین در ماشین‌های فاکتورگیری با فیلد‌های وزن‌دار، به آن توجه کرده و این تفاوت را به صورت صریح وارد محاسبات کردند.

رابطه‌ی پیش‌بینی نهایی ماشین فاکتورگیری با فیلد وزن‌دار، به صورت زیر است:
\begin{latin}
\begin{equation}
\hat{y}_{FwFM}(x) = w_{0} + \sum_{i = 1}^{n} w_{i} x_{i} + \sum_{i = 1}^{n} \sum_{j = i + 1}^{n} x_{i}x_{j}<v_{i}, v_{j}>r_{F_{i}, F_{j}}
\end{equation}
\end{latin}
در این رابطه، $r_{F_{i}, F_{j}}$ نقش مدل کردن قدرت کلی تعاملات بین فیلد $i$ ام و $j$ ام را ایفا می‌کند. علاوه بر این، یک تفاوت دیگر بین ماشین‌های آگاه از فیلد و ماشین‌های با فیلد‌های وزن‌دار وجود دارد. این تفاوت به تعداد بردار‌های تعبیه شده‌ی مربوط به هر ویژگی باز می‌گردد. در ماشین‌های فاکتورگیری آگاه از فیلد، برای هر ویژگی، به تعداد فیلد‌های دیگر بردار تعبیه شده استفاده می‌شود؛ ولی در ماشین‌های فاکتورگیری با فیلد‌های وزن‌دار، برای هر ویژگی، تنها یک بردار تعبیه‌شده استفاده می‌شود و تفاوت قدرت کلی تعاملات بین فیلد‌ها توسط وزن‌های فیلد‌ها ($r$) مدل می‌شود.

لذا ماشین‌های فاکتورگیری با فیلد‌های وزن‌دار، می‌توانند با تعداد پارامتر‌های بسیار کمتر، عملکرد نسبتا یکسانی با ماشین‌های فاکتورگیری آگاه از فیلد کسب کنند. در صورتی که تعداد پارامتر‌های استفاده شده در دو مدل یکسان در نظر گرفته شود، عملکرد ماشین‌های با فیلد وزن دار، به صورت محسوسی بهتر می‌شود.

پژوهشگران این مدل با محاسبه‌ی همبستگی بین وزن‌های آموخته شده برای فیلد‌ها ($r$) با \trans{اطلاعات مشترک}{Mutual information} بین هر زوج فیلد و احتمال کلیک (خروجی مدل)، موفقیت آن را نسبت به مدل‌های پیشین تایید کردند.

با وجود مزایای گفته شده، ماشین‌های فاکتورگیری با فیلد‌های وزن‌دار به دلیل سادگی، توان مدل‌سازی محدودی دارند؛ پس محققین به دنبال راهکار‌های دیگر برای حل مساله‌ی تخمین نرخ کلیک گشته و پیشرفت‌های دیگری را کسب کردند.

\subsubsection{ماشین‌های فاکتورگیری تنک}
%
محققین، پس از بررسی نمونه‌های مختلفی از ماشین‌های فاکتورگیری، متوجه شدند در اکثر نسخه‌های استفاده شده از این خانواده مدل، تعداد پارامتر‌های آموخته شده بسیار زیاد بوده و به همین دلیل، خطای این مدل‌ها همچنان قابل توجه است؛ لذا اقدام به بررسی راه‌هایی کردند که بتوان به کمک آن‌ها، تنک بودن مدل را تضمین کرده و در نتیجه به خطای کمتر و تفسیر پذیری بیشتری دست یابند. یکی از این اقدامات، ماشین‌های فاکتورگیری تنک است. برای درک بهتر این مدل، بهتر است ابتدا ماشین‌های فاکتورگیری بیزی را بررسی کنیم.
\begin{itemize}
\item{ماشین‌های فاکتورگیری بیزی\cite{Freudenthaler2011BayesianFM}}

در ادبیات سیستم‌های پیشنهاد دهنده، بسیاری از مدل‌ها به دلیل حجم بالای محاسبات، پاسخگو نیستند؛ در نتیجه تحقیقات زیادی در این زمینه برای یافتن مدل‌هایی با پیچیدگی محاسباتی کمتر اختصاص یافته است. یکی از این تحقیقات، ماشین‌های فاکتورگیری بیزی است. چون آموزش ماشین‌های فاکتورگیری ساده، به پیچیدگی محاسباتی بالایی نیاز دارد؛ همچنین مقدار $k$ بهینه، جز با آزمون و خطا قابل محاسبه نیست؛ برای آموزش یک مدل مناسب از خانواده‌ی ماشین‌های فاکتورگیری، به زمان محاسبه‌ی بسیار طولانی نیاز است.

این در حالی است که می‌توان عمل فاکتورگیری را، به جای روش‌های مبتنی بر گرادیان، به وسیله‌ی \trans{نمونه برداری گیبس}{Gibbs Sampling} انجام داد. همچنین در این روش‌ها، می‌توان با فرض توزیع پیشین برای هر یک از پارامتر‌ها، عمل تنظیم را در این مدل‌ها بهبود بخشید؛ پس ماشین‌های فاکتورگیری بیزی، با استفاده از توزیع پیشین برای پارامتر‌های مدل و همچنین استفاده از نمونه برداری گیبس، با کاهش چشمگیر پیچیدگی محاسباتی و همچنین حفظ عملکرد نهایی (بهبود جزئی) ارائه شدند.

در ماشین‌های فاکتورگیری بیزی، برای همه‌ی پارامتر‌های قابل یادگیری مدل، توزیع پیشین گاوسی با پارامتر‌های غیر ثابت در نظر گرفته می‌شود. این پارامتر‌های غیر ثابت را، ابرپارامتر‌های مدل می‌نامیم. همچنین برای این ابرپارامتر‌ها، توزیع پیشین در نظر گرفته و پارامتر‌های این توزیع‌های پیشین را، \trans{ابر پیشین}{Hyperprior} می‌نامیم. ابر پیشین‌ها عملا توزیع پیشین برای پارامتر‌های توزیع پیشینِ پارامتر‌های مدل هستند. به این تکنیک، \trans{ابر پیشین‌های سلسله مراتبی}{Hierarchical hyperpriors} گفته می‌شود. از فواید استفاده از این تکنیک، می‌توان به عدم نیاز به \trans{جستجوی توری}{Grid search} و همچنین تنظیم بیشتر مدل اشاره کرد. به عنوان میانگین توزیع گاوسی پارامتر‌ها، یک متغیر تصادفی با توزیع گاوسی و به عنوان عکس واریانس توزیع پارامتر‌ها، یک متغیر تصادفی با توزیع گاما در نظر گرفته می‌شود.

به دلیل پیچیدگی بیش از حد، محاسبه‌ی درستنمایی برای خروجی این مدل، قابل انجام نیست؛ پس از طریق نمونه برداری گیبس، پارامتر‌ها و هایپر پارامتر‌های مدل آموخته می‌شوند. به دلیل پیاده سازی خاص، آموزش این مدل به محاسبات خطی نسبت به $k$ نیاز داشته و به مراتب سریع‌تر از ماشین‌های فاکتورگیری عادی است. این مدل علاوه بر سرعت، از پیچیدگی بیشتری نسبت به ماشین‌های فاکتورگیری عادی برخوردار بوده و در نتیجه در دنیای واقعی قابلیت استفاده‌ی بیشتری دارند.
\end{itemize}
زمانی که ماشین‌های فاکتورگیری بیزی، در ادبیات پیش‌بینی نرخ کلیک به کار گرفته شدند، محققین دریافتند تعداد زیادی از پارامتر‌های این مدل، مقادیر غیر صفر به خود گرفته و این اتفاق باعث عدم تفسیر پذیری و همچنین عدم تطابق خروجی این مدل با خروجی مورد انتظار از آن می‌شود. همچنین همانطور که گفته شد، در ماشین فاکتورگیری بیزی، ابر پیشین گاوسی برای میانگین‌ها و ابر پیشین گاما برای عکس واریانس‌ها در نظر گرفته می‌شود؛ اما توزیع گاوسی، به دلیل محدودیت و تنک بودن شدید داده‌های پیش‌بینی نرخ کلیک، برای این مسائل چندان مناسب نیست. محققین دریافتند در صورت استفاده از توزیع لاپلاس برای میانگین، به دلیل احتمال بیشتر صفر بودن و همچنین داشتن دنباله‌ی بزرگتر، امکان تطابق بیشتر با داده‌های تنک این مسائل افزایش می‌یابد.

در ماشین‌های فاکتورگیری تنک\cite{Pan_sparsefm}، با در نظر گرفتن این که تنها حدود $0.15$ درصد از مقادیر ویژگی‌های مجموعه‌های داده‌ی مورد استفاده غیر صفر هستند، فرض توزیع پیشین گاوسی را برای پارامتر‌های مدل رد کرده و به جای آن، از توزیع لاپلاس استفاده می‌کنند. توزیع لاپلاس، دارای دنباله‌ی سنگین‌تری نسبت به توزیع گاوسی می‌باشد، ولی احتمال تولید صفر توسط این توزیع، به مراتب بیشتر از توزیع گاوسی است.

به دلیل \trans{ناهموار}{Non-smooth} بودن توزیع لاپلاس، استنباط بیزی در مورد ماشین‌های فاکتورگیری تنک غیر قابل انجام است؛ لذا آن را به وسیله‌ی \trans{مخلوط مقیاس‌شده‌}{Scale mixture}ی چگالی توزیع‌های گاوسی و نمایی در نظر گرفته و سپس، با استفاده از \trans{زنجیره‌ی مارکوف مونت کارلو}{Markov Chain Monte Carlo} نسبت به استنباط روی آن اقدام می‌کنند.

یکی از فواید استفاده از مدل بیزی، این است که به جای پیش‌بینی صرف مقدار نرخ کلیک، برای آن چگالی توزیع محاسبه می‌شود. با استفاده از این چگالی توزیع، می‌توان مواقعی که مدل با اطمینان تصمیم می‌گیرد و مواقعی که مدل اطمینان خاصی ندارد را از هم تمییز داده و از این تمایز، در تصمیم گیری بین \trans{اکتشاف یا استفاده}{Explore / Exploit} بهره جست. به عبارت دیگر، مدل بیزی امکان رویارویی بهتر با چالش شروع سرد را فراهم می‌سازد.

\subsubsection{ماشین فاکتورگیری با توجه\cite{Xiao_afm}}

در سال‌های اخیر، استفاده از مفهوم \trans{توجه}{Attention} در شبکه‌های عصبی، باعث پیشرفت قابل توجهی در نتایج آن‌ها شده و به همین دلیل، در بسیاری از وظایف یادگیری ماشین، از پردازش زبان طبیعی گرفته تا پردازش تصاویر، به صورت گسترده مورد استفاده قرار گرفتند. از طرفی در مساله‌ی پیش‌بینی نرخ کلیک، نیاز به اعمال تمایز میان ویژگی‌های مرتبه بالاتر از نظر میزان اهمیت احساس می‌شد؛ پس پژوهشگران در یک پژوهش، اقدام به استفاده از این مفهوم و ترکیب آن با ماشین‌های فاکتورگیری کرده و نتایج قابل قبولی نیز گرفتند. در این بخش، به معرفی مدل ماشین فاکتورگیری با توجه پرداخته و جزئیات آن را بررسی می‌کنیم.

طبق مشاهدات قبلی، برخی از ویژگی‌های مرتبه دوم در ماشین‌های فاکتورگیری، از برخی دیگر اهمیت بسیار بیشتری داشته و برخی از آن‌ها تقریبا هیچ ارتباطی با متغیر هدف ندارند؛ لذا در مدل ماشین فاکتورگیری ساده، که تمایزی بین این دو دسته وجود ندارد، امکان کم توجهی به ویژگی‌های مرتبه دوم مهم و توجه بیش از حد به ویژگی‌های مرتبه دوم نه چندان مهم (نویز) وجود دارد. این امر باعث تشدید مشکل بیش‌برازش در این مدل‌ها می‌شود. همچنین به دلیل تعداد بالای این ویژگی‌ها، بررسی و ایجاد تمایز بین آن‌ها به صورت دستی ممکن نیست؛ در نتیجه این نیاز احساس می‌شود که این تفاوت‌ها به صورت خودکار و از روی داده‌ها استخراج شوند. در ماشین‌های فاکتورگیری با فیلد‌های وزن‌دار، برای حل این مشکل از وزن‌دهی به تعامل بین فیلد‌ها استفاده می‌شد؛ اما این برای مقابله با نویز و بیش‌برازش کافی نیست و در نتیجه در ماشین فاکتورگیری با توجه از مکانیزم توجه برای این امر استفاده می‌شود.

ماشین‌های فاکتورگیری با توجه، دو تفاوت عمده با ماشین‌های فاکتورگیری ساده دارند: 1- استفاده از ضرب درایه به درایه به جای ضرب نقطه‌ای برای استخراج ویژگی‌های مرتبه دوم؛ 2- استفاده از ماژول توجه برای ایجاد تمایز بین ویژگی‌های مرتبه دوم. در این بخش این دو تمایز را توضیح می‌دهیم.

در ماشین فاکتورگیری با توجه، ابتدا بردار‌های تعبیه‌شده‌ی ویژگی‌های مرتبه دوم طبق فرمول زیر محاسبه می‌شوند:
\begin{latin}
\begin{equation}
\mathcal{E}_{i, j} = (v_{i} \odot v_{j})x_{i}x_{j}
\end{equation}
\end{latin}
که در آن عملگر $\odot$  نشان‌دهنده‌ی ضرب درایه به درایه است. مقادیر توجه، از طریق اعمال یک شبکه‌ی عصبی تک لایه روی این بردار‌های تعبیه‌شده محاسبه می‌شوند:
\begin{latin}
\begin{equation}
a_{i, j} = Softmax_{i, j}\{\mathbf{h}^{T} ReLU(\mathbf{W}\mathcal{E}_{i, j} + \mathbf{b})\}
\end{equation}
\end{latin}
در که در آن عملگر $Softmax_{i, j}\{.\}$ بین همه‌ی جملات دارای $i$ و $j$ مختلف اعمال می‌شود؛ در نتیجه مجموع $a_{i, j}$ ها همیشه برابر 1 است.

سپس این بردار‌ها با استفاده از مکانیزم توجه با هم ترکیب شده و خروجی نهایی ماشین فاکتورگیری با توجه، با اضافه شدن جملات مربوط به رگرسیون خطی، به این صورت تشکیل می‌شود:
\begin{latin}
\begin{equation}
\hat{y}_{AFM}(x) = w_{0} + \sum_{i=1}^{n} w_{i}x_{i} + \mathbf{P}^{T} \sum_{i=1}^{n-1}\sum_{j=i+1}^{n}a_{i, j}\mathcal{E}_{i, j}
\end{equation}
\end{latin}
همان طور که از روابط اخیر مشخص است، شیوه‌ی محاسبه‌ی تعامل در این مدل با روش‌های ماشین فاکتورگیری متفاوت بوده و به جای محاسبه‌ی تعامل‌های تک بعدی، ابتدا برای هر جفت فیلد، یک بردار تعامل محاسبه شده و سپس از طریق یک ماتریس،‌ بردار‌ها به فضای تک بعدی خروجی نگاشت می‌شوند. این تفاوت باعث افزایش پیچیدگی این روش و در نتیجه پیشرفت عملکرد در زمان رویارویی با داده‌های حجیم می‌شود؛ اما در مقابل در مواجهه با داده‌های تنک یا شرایط شروع سرد، ممکن است این روش دچار مشکل شده و از بیش‌برازش رنج ببرد.

در نهایت، این مدل بر اساس میانگین مربعات خطا و از طریق روش گرادیان کاهشی تصادفی، بهینه‌سازی شده و از تکنیک \trans{حذف تصادفی}{dropout}\cite{srivastava2014dropout} برای تنظیم پارامتر‌های پیش‌بینی و \trans{تنظیم مرتبه دوم}{L2-Regularization}\cite{tikhonov1943stability} برای پارامتر‌های مکانیزم توجه استفاده می‌شود.

\subsection{روش‌های ژرف}
با پیشرفت یادگیری ژرف، امروزه بهترین نتایج در بسیاری از مسائل در زمینه‌ی یادگیری ماشین، توسط مدل‌های ژرف کسب می‌شود. به دلیل قابلیت به کار گیری این مدل‌ها در بسیاری از مسائل و همچنین کسب نتایج قابل قبول این دسته از مدل‌ها، استفاده از آن‌ها در زمینه‌ی تبلیغات نمایشی نیز در حال افزایش است.\cite{journals/corr/ZhangYS17aa} در این بخش به بررسی چند نمونه از پژوهش‌هایی که از روش‌های یادگیری ژرف در ادبیات پیش‌بینی نرخ کلیک استفاده کرده‌اند می‌پردازیم.

\subsubsection{‌مدل ژرف پیش‌بینی نرخ کلیک\cite{Chen_deepctr}}
مدل ژرف پیش‌بینی نرخ کلیک یکی از مدل‌هایی است که از تکنیک‌های یادگیری ژرف بر روی مساله‌ی پیش‌بینی نرخ کلیک استفاده کرده است. در این مدل، ویژگی‌های ورودی به دو دسته‌ی ویژگی‌های بصری تصویر بنر و و ویژگی‌های پایه تقسیم می‌شوند.

ویژگی‌های بصری تصویر حاوی مقادیر روشنایی پیکسل‌ها و ویژگی‌های پایه حاوی اطلاعاتی مثل: محل نمایش تبلیغ، کمپین تبلیغ، گروه مخاطب تبلیغ، گروه تبلیغ و مشخصات پایه‌ی کاربر (مانند سن و جنسیت) است. در این پژوهش، ویژگی‌های بصری توسط یک شبکه‌ی عصبی کانوولوشنی و ویژگی‌های پایه توسط یک \trans{شبکه عصبی تماما متصل}{Fully Connected Neural Network} کد می‌شود؛ سپس ویژگی‌های کد شده به وسیله‌ی یک شبکه عصبی تماما متصل دیگر پردازش شده و از آن نرخ کلیک یا احتمال کلیک کاربر بر روی این بنر، به دست می‌آید.

در فرآیند آموزش این مدل، از الگوریتم گرادیان کاهشی برای کمینه کردن مقدار خطای لگاریتمی بهره جسته می‌شود. در کنار تابع هزینه، از تنظیم مرتبه دوم برای بهبود تعمیم پذیری این مدل استفاده می‌شود.

همانطور که اشاره شد،‌ مدل ژرف پیش‌بینی نرخ کلیک شامل سه بخش است:
\begin{itemize}
\item شبکه‌ی کانوولوشنی

همانطور که از نام آن مشخص است، شبکه‌ی کانوولوشنی یک شبکه عصبی کانوولوشنی ژرف است. معماری این شبکه از شبکه‌ی معروف \trans{رز نت}{ResNet}\cite{he2015residual} الهام گرفته شده و شامل 17 لایه‌ی کانوولوشنی می‌باشد.

لایه‌ی اول این شبکه‌ی کانوولوشنی دارای کرنل‌های 5 در 5 و بقیه لایه‌های این شبکه از کرنل‌های 3 در 3 تشکیل شده‌اند. این بخش از شبکه قبل از آموزش کلی شبکه، توسط تصاویر بنر‌ها و دسته‌ی بنر‌ها (به عنوان برچسب) \trans{پیش‌آموزش}{Pretrain} می‌شود. برای این منظور از دو لایه‌ی تماما متصل اضافی در انتهای این شبکه استفاده می‌شود که ویژگی‌های استخراج شده توسط لایه‌های کانوولوشنی را به برچسب (دسته‌ی بنر) تبدیل کند. این دو لایه پس از اتمام پیش‌آموزش حذف می‌شوند.

\item شبکه‌ی پایه

این بخش از شبکه، شامل تنها یک لایه‌ی تماما متصل بوده و برای کاهش ابعاد بردار ویژگی‌های ساده به کار می‌رود. این لایه دارای 128 نورون با تابع فعالساز \trans{واحد خطی یکسو کننده (رلو)}{ReLU}\cite{Nair_relu} بوده و فضای تنک بردار ویژگی‌های ساده را به یک بردار \trans{چگال}{Dense} تبدیل می‌کند. می‌توان گفت عملکرد این لایه همانند استفاده از بردار‌های \trans{تعبیه}{Embedding}\cite{Guo_embedding_2016} برای تبدیل ویژگی‌های دسته‌ای به بردار‌های چگال در روش‌هایی که پیش‌تر معرفی کردیم است.
\item شبکه‌ی ترکیبی

خروجی شبکه‌های پایه و کانوولوشنی پس از چسبانده شدن به هم و عبور آن از یک لایه‌ی \trans{نرمال‌سازی دسته‌ای}{Batch Normalization}\cite{ioffe2015batch}، به عنوان ورودی شبکه‌ی ترکیبی استفاده می‌شوند. این شبکه دارای دو لایه با 256 نورون و یک لایه با تنها یک نورون می‌باشد. خروجی لایه‌های اول به وسیله‌ی تابع فعال‌ساز رلو و لایه‌ی سوم با استفاده از تابع فعال‌ساز سیگموید به فضای غیر خطی منتقل می‌شوند.
\end{itemize}
برای کاهش زمان آموزش این مدل، دو تکنیک استفاده می‌شوند. اول استفاده از یک پیاده‌سازی سریع برای لایه‌ی تماما متصل تنک است. به دلیل استفاده از کدگذاری 1 از $k$ و همچنین \trans{درهمسازی ویژگی‌ها}{Feature Hashing}، دارای تعداد زیادی ویژگی است که در هر نمونه، غالب آن‌ها برابر صفر هستند. استفاده از این دانش در پیاده‌سازی لایه‌ی تماما متصل اول در شبکه‌ی پایه باعث بهبود چشمگیر در سرعت آموزش مدل می‌شود.

تکنیک دیگر استفاده شده در این پژوهش، نمونه برداری مناسب برای بهره‌گیری بیشتر از حافظه می‌باشد. در مجموعه‌داده‌‌های استفاده شده در این پژوهش، تعداد زیادی تصویر یکسان وجود دارد؛ پس می‌توان با استفاده از این دانش، نمونه برداری قبل از انجام هر گام از الگوریتم گرادیان کاهشی را به نحوی تغییر داد که تعداد محدودی تصویر یکسان در داخل \trans{دسته آموزش}{Batch} قرار گیرند؛ در نتیجه محاسبه‌ی مشتقات آن‌ها به سادگی و با صرف حداقل حافظه‌ی گرافیکی قابل انجام خواهد بود.

\subsubsection{ماشین فاکتورگیری ژرف\cite{Guo_deepfm1, Guo_deepfm2}}
در ماشین‌های فاکتورگیری ساده یا با توجه، اهمیت خاصی به تعامل‌های مرتبه پایین داده می‌شود؛ در نتیجه مدل به سمت استفاده از تعامل‌های مرتبه پایین تشویق می‌شود و در نتیجه نوعی بایاس در طراحی این خانواده از مدل‌ها وجود دارد؛ اما ممکن است با در نظر نگرفتن این بایاس، تعاملات سطح بالای مناسب و مفیدی از داده‌ها کشف کنیم.

در مقابل ماشین‌های فاکتورگیری،‌ که توانایی آن‌ها در مدل کردن مناسب تعاملات مرتبه پایین است، مدل‌های ژرف از جمله خانواده‌ی شبکه‌های عصبی چند لایه، توانایی بالایی برای مدل کردن تعاملات مرتبه بالا دارند؛ اما به دلیل عدم توجه به تعاملات مرتبه پایین، در مساله‌ی پیش‌بینی نرخ کلیک کاربرد چندانی ندارند. ماشین‌های فاکتورگیری ژرف، ادغامی از این دو خانواده بوده و با ترکیب هر دو مدل، مدلی با انعطاف بیشتر و بایاس کمتر روی مرتبه‌ی تعامل‌ها ارائه می‌دهد.

در این مدل، دو بخش اصلی وجود دارد:
\begin{itemize}
\item \textbf{بخش ماشین فاکتورگیری}
	
این بخش تفاوتی با ماشین فاکتورگیری ساده ندارد. ابتدا ورودی‌هایش که همان ویژگی‌های تنک مساله هستند را به بردار‌های تعبیه شده تبدیل کرده و سپس با اعمال ضرب داخلی بین این بردار‌ها، تعامل‌های را محاسبه کرده و همچنین جمله‌ی خطی را به آن اضافه کرده و خروجی مورد نظر را از روی این مجموع ایجاد می‌کند.
\item \textbf{بخش ژرف}
	
در این بخش از یک شبکه عصبی عادی استفاده می‌شود. ورودی‌های بخش ژرف، همان بردار‌های تعبیه شده‌ی بخش ماشین فاکتورگیری هستند. توابع فعالیت در این بخش اکثرا رلو یا $tanh$ (تانژانت هایپربولیک) بوده و همه‌ی لایه‌های آن از نوع تماما متصل تشکیل شده‌اند.
\end{itemize}

در ماشین فاکتورگیری ژرف، از این ایده استفاده شده است که بردار‌های تعبیه شده در ماشین‌فاکتورگیری، ویژگی‌های مناسبی ایجاد می‌کنند و به دلیل تنک نبودن و اندازه‌ی کمتر نسبت به ورودی‌های اصلی مساله‌ی پیش‌بینی نرخ کلیک، برای استفاده به عنوان ورودی یک شبکه عصبی ژرف کاملا مناسب هستند.

برای ترکیب این دو مدل، علاوه بر استفاده از ویژگی‌های مشترک، خروجی‌های آن‌ها نیز باهم جمع شده و به خاطر ماهیت مساله،‌ که تخمین نرخ کلیک است، از مجموع خروجی‌های آن‌ها تابع سیگموید گرفته می‌شود. خروجی تابع سیگموید بین صفر و یک بوده و دقیقا مشابه توزیع احتمال یا نرخ کلیک‌ است.

این مدل با استفاده از \trans{خطای لگاریتمی}{Log Loss} و روش \trans{گرادیان کاهشی تصادفی}{Stochastic Gradient Descent} آموزش داده می‌شود.

\subsubsection{مدل وسیع و ژرف\cite{Cheng_wideanddeep}}
محققین شرکت \trans{گوگل}{Google}، شبکه‌ی وسیع و ژرف را برای توصیه‌ی اپلیکیشن‌ها در \trans{بازار اپلیکیشن گوگل پلی}{Google Play Application Store} توسعه داده و پژوهش خود را در سال 2016 منتشر کردند. به دلیل شباهت بالای کاربرد پیش‌بینی نرخ کلیک روی اپلیکیشن‌ها و پیش‌بینی نرخ کلیک روی تبلیغ‌ها، این مدل را مختصرا در این بخش معرفی می‌کنیم.

در مدل وسیع و ژرف، سه بخش اصلی وجود دارد:
\begin{itemize}
\item مهندسی ویژگی‌ها

محققین در این پژوهش، ابتدا تعدادی از ویژگی‌های موجود در مجموعه‌های داده را حذف کرده و سپس ویژگی‌های سطح دوم را از روی بعضی از ویژگی‌های باقی مانده استخراج کردند. هر یک از ویژگی‌های مرتبه دوم، به صورت اشتراک بین دو ویژگی مرتبه اول تعریف شده و می‌توان آن را معادل تعامل بین دو ویژگی در ماشین‌های فاکتورگیری در نظر گرفت. این ویژگی‌ها پس از تبدیل به ویژگی‌های دسته‌ای یا دودویی، به کمک عمل تعبیه، به بردار‌های چگال تعبیه تبدیل شده و در بخش‌های بعدی این مدل استفاده می‌شوند.
\item بخش وسیع

در بخش وسیع، همه‌ی ویژگی‌های استخراج شده در بخش قبل کنار هم چسبانده شده و توسط یک تبدیل خطی، به فضای تک بعدی خروجی نگاشت می‌شوند.
\item بخش ژرف

در بخش ژرف، بردار‌های تعبیه شده به هم چسبانده شده و توسط یک شبکه‌ی عصبی چند لایه به فضای تک بعدی خروجی منتقل می‌شوند.
\end{itemize}

خروجی نهایی مدل وسیع و ژرف، از ترکیب خطی خروجی‌های بخش‌های وسیع و ژرف تشکیل شده و توسط خطای لگاریتمی آموزش داده می‌شود.

این مدل در رویارویی با چالش‌هایی از قبیل سرعت آزمایش، عملکرد قابل قبولی داشته و می‌تواند در کسری از ثانیه، اپلیکیشن‌های مختلف را برای نمایش به کاربران رتبه‌بندی کند؛ اما به دلیل نیاز به مهندسی ویژگی‌ها و همچنین تعداد بسیار بالای پارامتر‌ها، در مساله‌ی پیش‌بینی نرخ کلیک در تبلیغات نمایشی، قابل استفاده نیست؛ اما رویکرد ترکیب یک بخش ژرف و یک بخش غیر ژرف به طوری که ویژگی‌های سطح پایین و سطح بالا توسط این دو بخش به صورت مجزا آموخته شوند، در بسیاری از پژوهش‌های حوزه‌ی پیش‌بینی نرخ کلیک در تبلیغات نمایشی (مثل ماشین فاکتورگیری ژرف یا خودکدگذار پشته شده‌ی دارای توجه) به کار بسته شده است.

\subsubsection{خودکدگذار پشته شده‌ی دارای توجه\cite{Wang_asae}}
شبکه‌ی عصبی \trans{خودکدگذار}{Auto Encoder}\cite{Ballard_autoencoder}، یک روش یادگیری ماشین بدون نظارت است که از دو لایه‌ی شبکه‌ی عصبی تشکیل شده است. لایه‌ی اول، داده‌های ورودی را به \trans{فضای نهان}{Latent Space} نگاشت کرده و لایه‌ی دوم، آن‌ها را به فضای ورودی باز می‌گرداند. شبکه‌ی خودکدگذار به این طریق آموزش داده می‌شود که فاصله‌ی اقلیدسی داده‌های ورودی و خروجی حداقل باشد. در نتیجه یک شبکه‌ی خودکدگذار ایده‌آل می‌تواند ورودی‌های خود را بازسازی کند. در صورتی که لایه‌های این شبکه را به صورت مجزا در نظر بگیریم، لایه‌ی اول عمل \trans{کدگذاری}{Encoding} را انجام داده و لایه‌ی دوم عمل \trans{کدگشایی}{Decoding} را بر عهده می‌گیرد.

در ادبیات یادگیری ماشین، کاربرد‌های متنوعی برای شبکه‌های خودکدگذار ارائه شده که یکی از آن‌ها برای استخراج ویژگی بدون نیاز به داده‌های برچسب گذاری شده است. اگر پس از آموزش دادن یک خودکدگذار، صرفا از بخش کدگذار آن استفاده کرده و داده‌های کد شده را، به ورودی یک خودکدگذار دیگر بدهیم و این فرآیند را چندین بار انجام دهیم، یک \trans{خودکدگذار پشته شده}{Stacked Auto Encoder} به وجود می‌آید. خودکدگذار پشته شده را می‌توان به صورت مرحله به مرحله یا به صورت یکجا آموزش داد. در صورتی که خطای بازسازی خودکدگذار پشته شده کم باشد، می‌توان نتیجه گرفت که ویژگی‌های استخراج شده در لایه‌ی میانی (پس از کدگذاری) حاوی اکثر اطلاعات مهم داده‌های ورودی بوده و به همین دلیل بخش کدگشا قادر به بازسازی داده‌های ورودی شده است؛ پس می‌توان به جای اطلاعات اصلی، از ویژگی‌های استخراج شده در لایه‌ی میانی (که از تعداد ابعاد کمتری برخوردار است) استفاده کرده و در نتیجه از ویژگی‌های سطح بالا و چگال مناسب بهره جست.

خودکدگذار پشته شده‌ی دارای توجه، مدلی است که برای پیش‌بینی نرخ کلیک ارائه شده و به نوعی ترکیبی از ماشین فاکتورگیری با توجه و خودکدگذار پشته شده است. این مدل از دو بخش تشکیل شده است:
\begin{itemize}
\item بخش ماشین فاکتورگیری با توجه

ماشین فاکتورگیری با توجه، همانطور که قبلا بحث شد، یک مدل با پیچیدگی قابل توجه برای پیش‌بینی نرخ کلیک در تبلیغات نمایشی به شمار می‌رود. این بخش می‌تواند از ویژگی‌های مرتبه اول و دوم استفاده کرده و همچنین به کمک ساختار توجه، توازن را در میان ویژگی‌های مرتبه دوم رعایت کند.
\item بخش خودکدگذار پشته شده

خودکدگذار پشته شده همانطور که گفته شد، می‌تواند ویژگی‌های سطح بالا و فشرده استخراج کند. در این بخش، ابتدا ویژگی‌های تنک را به بردارهای تعبیه‌شده تبدیل کرده و سپس آن‌ها را کدگذاری و سپس کدگشایی می‌کنیم.
\end{itemize}
در فرآیند آموزش، ویژگی‌های لایه‌ی میانی بخش خودکدگذار پشته شده و ویژگی‌های مرتبه اول و دوم (که خروجی ماشین فاکتورگیری با توجه هستند) را به هم چسبانده و سپس توسط یک شبکه‌ی عصبی تک لایه، آن‌ها را به فضای تک بعدی خروجی نگاشت می‌کنیم.

برای آموزش خودکدگذار پشته شده‌ی باتوجه، خطای مدلسازی (خطای لگاریتمی) را با خطای بازسازی خودکدگذار جمع کرده و سپس از الگوریتم گرادیان کاهشی برای آموزش سراسری مدل استفاده می‌کنیم.

مدل خودکدگذار پشته شده‌ی با توجه به دلیل استفاده از ویژگی‌های سطح بالا در کنار ویژگی‌های سطح پایین، بر روی مجموعه‌های داده‌ی با حجم بالا، عملکرد بهتری از بسیاری از مدل‌های دیگر ارائه می‌دهد. همچنین به دلیل استفاده‌ی چندگانه از بردار‌های تعبیه شده، سرعت یادگیری اولیه‌ی این مدل بهتر از سایر روش‌های مبنی بر بردار‌های تعبیه است.

در این بخش، تعدادی از روش‌هایی که در ادبیات پیش‌بینی نرخ کلیک استفاده شده‌اند را معرفی و بررسی کردیم. خلاصه‌ای از مدل‌های ذکر شده و همچنین مقایسه‌ی کلی مزایا و معایب آن‌ها در جدول \ref{tbl:notation} نمایش داده شده است.
\begin{table}[]
	% set vertical spacing between rows
	%\renewcommand{\arraystretch}{1.2} 
	%\linespread{1.2}\selectfont\centering
	\caption{خلاصه‌ی روش‌های اصلی مطالعه شده}
	\label{tbl:notation}
	%\begin{latin}
	\scriptsize
	\begin{center}
	\begin{tabular}{|c|c|c|c|c|}
		\hline
		نام مدل & نقاط قوت & نقاط ضعف & سال و مرجع \\ \hline
		%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
		ماشین بردار پشتیبان (کرنل چند جمله‌ای)
		&
		سرعت انجام بالا
		&
		تعداد پارامتر‌های بسیار بالا
		&
		1992\cite{boser1992}
		\\ \hline
		%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
		مدل تکه‌ای خطی
		&
		\begin{tabular}[c]{@{}c@{}}
			انعطاف‌پذیری \\
			پارامتر‌های تنک \\
			تفسیر‌پذیری مناسب
		\end{tabular}
		&
		\begin{tabular}[c]{@{}c@{}}
			تعداد پارامتر زیاد \\
			آموزش کند \\
			تنظیم سخت ابرپارامتر‌ها
		\end{tabular}
		&
		2017\cite{Gai_piecewise}
		\\ \hline
		%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
		مدل رگرسیون بیزی
		&
		\begin{tabular}[c]{@{}c@{}}
			امکان برقراری تعادل بین \\
			اکتشاف و بهره‌برداری
		\end{tabular}
		&
		\begin{tabular}[c]{@{}c@{}}
			انعطاف پذیری کم \\
			نیاز به داده‌های زیاد
		\end{tabular}
		&
		2009\cite{Graepel_2010}
		\\ \hline
		%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
		ماشین فاکتورگیری
		&
		\begin{tabular}[c]{@{}c@{}}
			مدل‌سازی تعامل‌های مرتبه دوم \\
			تعداد کم پارامتر‌های مستقل
		\end{tabular}
		&
		\begin{tabular}[c]{@{}c@{}}
			بی‌توجهی به روابط کلی بین فیلد‌ها \\
			خطر بیش‌برازش
		\end{tabular}
		&
		2010\cite{Rendle:2010ja}
		\\ \hline
		%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
		ماشین فاکتورگیری آگاه از فیلد
		&
		\begin{tabular}[c]{@{}c@{}}
			مدلسازی تفاوت بین فیلد‌ها
		\end{tabular}
		&
		\begin{tabular}[c]{@{}c@{}}
			تعداد بالای پارامتر‌ها \\
			احتمال بالای بیش‌برازش
		\end{tabular}
		&
		2016\cite{Juan_fieldawarefm1, Juan_fieldawarefm2}
		\\ \hline
		%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
		\begin{tabular}[c]{@{}c@{}}
			ماشین فاکتورگیری با فیلد‌های وزن‌دار
		\end{tabular}
		&
		\begin{tabular}[c]{@{}c@{}}
			کنترل تعداد پارامتر‌ها \\
			مدل‌سازی تفاوت کلی فیلد‌ها
		\end{tabular}
		&
		\begin{tabular}[c]{@{}c@{}}
			توان مدل‌سازی محدود \\
			عدم مدل‌سازی تعامل‌های مرتبه بالا
		\end{tabular}
		&
		2018\cite{Pan_fieldweightedfm}
		\\ \hline
				%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
		\begin{tabular}[c]{@{}c@{}}
			ماشین فاکتورگیری بیزی
		\end{tabular}
		&
		\begin{tabular}[c]{@{}c@{}}
			امکان برقراری تعادل بین \\
			اکتشاف و بهره‌برداری
		\end{tabular}
		&
		\begin{tabular}[c]{@{}c@{}}
			استنباط غیر قابل محاسبه \\
			پیش‌فرض نامناسب گاوسی
		\end{tabular}
		&
		2011\cite{Freudenthaler2011BayesianFM}
		\\ \hline
		%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
		\begin{tabular}[c]{@{}c@{}}
			ماشین فاکتورگیری تنک
		\end{tabular}
		&
		\begin{tabular}[c]{@{}c@{}}
			تفسیر پذیری بالا \\
			تنک بودن مدل
		\end{tabular}
		&
		\begin{tabular}[c]{@{}c@{}}
			استنباط غیر قابل محاسبه \\
			استفاده از تخمین برای محاسبه‌ی توزیع
		\end{tabular}
		&
		2016\cite{Pan_sparsefm}
		\\ \hline
		%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
		ماشین فاکتورگیری با توجه
		&
		\begin{tabular}[c]{@{}c@{}}
			افزایش پیچیدگی مدل \\
			افزایش تفسیر‌پذیری مدل
		\end{tabular}
		&
		\begin{tabular}[c]{@{}c@{}}
			احتمال بیش‌برازش \\
			نیاز به داده‌های زیاد
		\end{tabular}
		&
		2017\cite{Xiao_afm}
		\\ \hline
		%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
		
		مدل ژرف پیش‌بینی نرخ کلیک
		&
		\begin{tabular}[c]{@{}c@{}}
			توانایی مدل تعاملات مرتبه بالا \\
			تعمیم پذیری مناسب
		\end{tabular}
		&
		\begin{tabular}[c]{@{}c@{}}
			نیاز به تصویر بنر تبلیغ \\
			امکان بیش‌برازش به دلیل کمبود داده \\
			عدم مواجهه با چالش شروع سرد
		\end{tabular}
		&
		2016\cite{Chen_deepctr}
		\\ \hline
		%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
		
		ماشین فاکتورگیری ژرف
		&
		\begin{tabular}[c]{@{}c@{}}
			مدل‌سازی تعاملات مرتبه بالا \\
			عدم وجود بایاس در مرتبه تعاملات
		\end{tabular}
		&
		\begin{tabular}[c]{@{}c@{}}
			تعداد زیاد ابرپارامتر \\
			تفسیرپذیری پایین
		\end{tabular}
		&
		2017\cite{Guo_deepfm1, Guo_deepfm2}
		\\ \hline
		%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
				
		مدل وسیع و ژرف
		&
		\begin{tabular}[c]{@{}c@{}}
			پیاده‌سازی سریع \\
			توان مدل‌سازی مناسب
		\end{tabular}
		&
		\begin{tabular}[c]{@{}c@{}}
			نیاز به مهندسی ویژگی‌ها \\
			تعداد بالای پارامتر‌ها
		\end{tabular}
		&
		2016\cite{Cheng_wideanddeep}
		\\ \hline
		%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
				
		خودکدگذار پشته شده‌ی با توجه
		&
		\begin{tabular}[c]{@{}c@{}}
			توانایی مدل‌سازی مناسب\\
			اشتراک بالای پارامتر‌ها
		\end{tabular}
		&
		\begin{tabular}[c]{@{}c@{}}
			تعداد زیاد پارامتر‌ها \\
			احتمال بیش‌برازش
		\end{tabular}
		&
		2018\cite{Wang_asae}
		\\ \hline
		%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
	\end{tabular}
	%\end{latin}
	\end{center}
\end{table}