mr.rezaei
/
haji_thesis


			
				
					
						
						
							123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280281282283284285286287288289290291292293294295296297298299300301302303304305306307308309310311312313314315316317318319320321322323324325326327328329330331332333334335336337338339340341342343344345346347348349350351352353354355356357358359360361362363364365366367368369370371372373374375376377378379380381382383384385386387388389390391392393394395396397398399400401402403404405406407408409410411412413414415
							% !TEX encoding = UTF-8 Unicode
\chapter{یافته‌های پژوهش}\label{Chap:Chap4}

%==================================================================
در این بخش ابتدا مجموعه‌های داده‌ی مورد استفاده را معرفی کرده و مختصرا در مورد خصوصیات آن‌ها بحث می‌کنیم؛ سپس برخی از معیار‌های ارزیابی مهم در این حوزه را معرفی کرده و دلایل انتخاب این معیار‌ها را شرح می‌دهیم. پس از آن، روش‌های مورد استفاده در این پژوهش برای تنظیم پارامتر‌ها را توضیح می‌داده و با انجام آزمایش‌هایی، بهترین مقادیر را برای ابرپارامتر‌های مدل به دست می‌آوریم؛ سپس با طراحی و اجرای چندین آزمایش، عملکرد روش پیشنهادی را با برخی از روش‌های پیشین مقایسه کرده و به برخی سوالات احتمالی پاسخ می‌دهیم.

\section{مجموعه‌های داده}
در این بخش به معرفی و بررسی مجموعه داده‌های مورد استفاده در این پژوهش می‌پردازیم. لازم به ذکر است پیش‌پردازش‌های مختلفی که به خاطر محدودیت‌های سخت‌افزاری اعمال می‌کنیم، باعث می‌شود نتوانیم نتایج به دست آمده را با نتایج گزارش شده توسط پژوهش‌های پیشین مقایسه کنیم. پس به کمک پیاده‌سازی‌های موجود از این پژوهش‌ها، عملکرد آن‌ها را روی مجموعه‌های داده‌ی ایجاد شده محاسبه خواهیم کرد.
\subsection{آوت‌برین}
همانطور که گفته شد، در سال 2016 شرکت آوت‌برین با برگزاری یک چالش در سایت \trans{کگل}{kaggle.com}، مجموعه‌داده‌ی خود را منتشر کرد. در این مجموعه داده، هر بار که کاربری به صفحه‌ی سایت یک ناشر مراجعه کرده است، 2 الی 12 بنر تبلیغاتی به وی نمایش داده شده، که کاربر روی یکی از آن‌ها کلیک کرده است. میانگین تعداد تبلیغ در این مجموعه‌ی داده، 5.16 تبلیغ در هر مراجعه است.

یکی از ویژگی‌های مجموعه‌داده‌ی آوت‌برین، وجود اطلاعات جانبی متنوع در مورد صفحاتی است که تبلیغات در آن‌ها به نمایش گذاشته شده‌اند. این صفحات طبق یک طبقه‌بندی موضوعی، به 97 دسته تقسیم شده‌اند. اطلاعاتی نیز در مورد ذکر شدن نام برخی موجودیت‌ها در هر صفحه و میزان اطمینان در مورد آن فراهم شده است. اطلاعات متنوعی نیز از نویسنده، ناشر و زمان انتشار هر صفحه وجود دارد. همچنین اطلاعات مربوط به تبلیغ کننده و کمپین تبلیغاتی برای هر تبلیغ نیز موجود است.

در این مجموعه داده، اطلاعات حجیمی نیز در مورد مشاهده‌ی صفحات مختلف توسط کاربران ارائه شده است. این اطلاعات شامل زمان دقیق مراجعه، پلتفرم (کامپیوتر، موبایل یا تبلت)، محل جغرافیایی و منبع ترافیک (مستقیم، جستجو یا شبکه‌های اجتماعی) هر بازدید هستند. این اطلاعات به دلیل حجم بالا و تعداد زیاد (نزدیک به 2 میلیارد) بازدید از صفحات مختلف وب بسیار حجیم هستند. این مجموعه‌داده، شامل اطلاعات جمع آوری شده در طول دو هفته (14 روز) از بازدید‌ها، نمایش تبلیغ‌ها و کلیک‌ها در تعدادی سایت پر بازدید است.

در این مجموعه‌داده، همه‌ی اطلاعات به صورت \trans{ناشناس شده}{Anonimized} ارائه شده و حتی نام سایت‌ها، نوع دسته‌های موضوعی صفحات نیز ذکر نشده و اطلاعات آن به صورت شناسه‌ی گمنام در اختیار محققین قرار گرفته است. تنها ویژگی غیر ناشناس در این مجموعه‌ی داده، موقعیت جغرافیایی کاربران است که البته برای حفظ حریم خصوصی کاربران، به سطح کشور یا استان / ایالت محدود شده است.

\subsubsection{آوت‌برین پیش‌پردازش شده}
همانطور که گفته شد، تعداد بسیار زیاد ویژگی‌ها و داده‌ها، باعث بروز محدودیت‌های سخت‌افزاری متعددی در انجام آزمایش روی این مجموعه‌ی داده می‌شود؛ به همین دلیل در این پژوهش با حذف تعداد زیادی از این ویژگی‌ها، نسخه‌ی سبک‌تری از این مجموعه‌ی داده استخراج کرده و از آن به عنوان یک مجموعه‌داده‌ی کوچک برای انجام مقایسه‌ها بهره می‌جوییم.

در اولین قدم، تعداد داده‌های موجود در این مجموعه‌ی داده را به کمک روش‌های نمونه برداری، به 87 میلیون کاهش می‌دهیم؛ سپس ویژگی‌هایی از این مجموعه‌ی داده که دسته‌ای نیستند را حذف می‌کنیم. همچنین، تعدادی از ویژگی‌های دسته‌ای که تعداد دسته‌های بسیار زیادی دارند را از این مجموعه‌ی داده حذف می‌نماییم. تعداد ویژگی‌های دسته‌ای باقی مانده در این مجموعه‌ی داده 12 بوده و این ویژگی‌ها شامل موارد: شناسه‌ی کمپین تبلیغاتی، شناسه‌ی تبلیغ کننده، پلتفرم، موقعیت جغرافیایی، شناسه‌ی صفحه، شناسه‌ی ناشر، شناسه‌ی موضوع صفحه، شناسه‌ی دسته‌ی صفحه، شناسه‌ی صفحه‌ی منبع، شناسه‌ی ناشر صفحه‌ی منبع، شناسه‌ی موضوع صفحه‌ی منبع و شناسه‌ی دسته‌ی صفحه‌ی منبع هستند.

مجموع تعداد ویژگی‌های باینری استخراج شده از این مجموعه‌ی داده 53727 است. لازم به ذکر است سبک بودن این مجموعه داده، به دلیل تعداد کم داده‌ها نیست؛ بلکه این مجموعه‌ی داده به این دلیل سبک خوانده می‌شود که تعداد ویژگی‌های آن بسیار کمتر از سایر مجموعه‌های داده است.

حدود 19 درصد از داده‌های این مجموعه در دسته‌ی کلیک شده و بقیه‌ی داده‌ها در دسته‌ی کلیک نشده طبقه بندی شده‌اند.

\subsection{کرایتیو}
یکی از شرکت‌های فعال در حوزه‌ی تبلیغات نمایشی آنلاین، \trans{کرایتیو}{Criteo} است. این شرکت با استفاده از مزایده‌های بلادرنگ تبلیغات مشتریان خود (سکوی نیاز) را بین مشتریان دیگر خود (سکوی تامین) توزیع می‌کند. در سال 2014 این شرکت اطلاعات مربوط به 7 روز از ترافیک خود را در قالب یک چالش در سایت کگل منتشر کرد.

این مجموعه‌داده، از 13 ویژگی (ناشناس) عددی، که طبق اعلام خود شرکت اکثر این ویژگی‌ها از نوع تعداد هستند؛ و 26 ویژگی ناشناس دسته‌ای، که به صورت \trans{درهم‌سازی شده}{Hashed} ارائه شده اند، تشکیل شده است. این مجموعه‌داده، شامل تعدادی \trans{مقادیر گم شده}{Missing values} بوده و مانند مجموعه‌داده‌ی آوت‌برین، اطلاعات آن به صورت ناشناس ارائه شده‌اند.

این مجموعه‌ی داده شامل بیش از 45 میلیون رکورد بوده که کاربران در 26 درصد از این نمونه‌ها روی بنر تبلیغاتی کلیک کرده‌اند. با وجود کمتر بودن تعداد داده‌ها در این مجموعه‌ی داده و شدت کمتر عدم توازن بین کلاس‌ها، تعداد ویژگی‌های زیاد و همچنین تنک بودن بسیاری از این ویژگی‌ها باعث می‌شوند این مجموعه‌ی داده یک چالش واقعی برای روش‌های پیش‌بینی نرخ کلیک به شمار رود.

مجموع تعداد ویژگی‌های باینری استخراج شده از بخش دسته‌ای این مجموعه‌ی داده، به بیش از 33 میلیون می‌رسد؛ بنابراین استفاده از همه‌ی این ویژگی‌ها محدودیت‌های سخت‌افزاری زیادی را به وجود می‌آورد. به همین دلیل، مجموعه‌های داده‌ی کرایتیو-22، کرایتیو-21 و کرایتیو-20 را از این مجموعه‌ی داده استخراج کرده و تمامی آزمایش‌های مربوطه را با این سه مجموعه‌ی داده انجام می‌دهیم.
\subsubsection{کرایتیو-22}
با حذف 4 ویژگی دسته‌ای که بیشترین کاردینالیتی را دارند، از مجموعه داده‌ی کرایتیو و همچنین حذف همه‌ی ویژگی‌های عددی که با ساختار روش پیشنهادی و اکثر روش‌های پیشین سازگار نیستند، به مجموعه‌ی داده‌ی کرایتیو-22 می‌رسیم. مجموع تعداد ویژگی‌های باینری استخراج شده از این مجموعه‌ی داده، تا حدود 2.7 میلیون کاهش می‌یابد.
\subsubsection{کرایتیو-21}
مثل مجموعه داده‌ی کرایتیو-22، مجموعه داده‌ی کرایتیو-21 هم از مجموعه داده‌ی کرایتیو ساخته می‌شود. در مجموعه داده‌ی کرایتیو-21، 5 ویژگی دارای کاردینالیتی بیشتر را حذف کرده و مجموع تعداد ویژگی‌های باینری را به حدود 570 هزار می‌رسانیم.
\subsubsection{کرایتیو-20}
همانطور که انتظار می‌رود، مجموعه داده‌ی کرایتیو-20، دارای تنها 20 ویژگی دسته‌ای بوده و مجموع تعداد ویژگی‌های باینری در آن حدود 280 هزار است.

لازم به تذکر است که تعداد داده‌ها و درصد کلی کلیک در هر سه مجموعه داده‌ی ساخته شده یکسان و برابر با مجموعه داده‌ی کرایتیو است.

\section{معیار‌های ارزیابی}
همانطور که در فصل اول گفته شد، مساله‌ی پیش‌بینی نرخ کلیک به دلیل ویژگی‌های متعدد، از جمله عدم توازن کلاس‌ها، پر تعداد اما تنک بودن ویژگی‌ها و برخی مشکلات دیگر، مساله‌ای خاص است؛ لذا برای ارزیابی راه‌حل‌هایی که برای این مساله پیشنهاد می‌شوند، به معیار‌های ارزیابی به خصوصی نیاز داریم. در این بخش به معرفی معیار‌های ارزیابی مورد استفاده در این پژوهش می‌پردازیم و دلیل استفاده از برخی از این معیار‌ها را بیان می‌نماییم.

\subsection{خطای لگاریتمی}
خطای لگاریتمی یا\trans{آنتروپی متقابل}{Cross Entropy}، یکی از مهمترین معیار‌های استفاده‌شده در حوزه‌ی پیش‌بینی نرخ کلیک است. در مدل‌هایی که خروجی آن‌ها برابر احتمال کلیک است، مقدار این خطا، با \trans{قرینه‌ی لگاریتم درستنمایی}{Negative Log Likelihood} این مدل‌ها برابر است. در نتیجه با شهود و درک احتمالاتی از این مساله کاملا تطابق دارد.

در صورتی که از این خطا استفاده کنیم، حتی اگر داده‌ای توسط مدل درست دسته‌بندی شود، باز هم امکان دارد به آن خطایی تخصیص دهیم. در صورتی خطای آنتروپی متقابل برابر صفر می‌شود که علاوه بر طبقه‌بندی درست همه‌ی داده‌ها، به همه‌ی آن‌ها احتمال کاملا باینری اختصاص دهد؛در نتیجه مدل به سمتی پیش می‌رود که خطا در احتمال پیش‌بینی‌شده را کمتر و کمتر کند.

خطای لگاریتمی به دلیل مشتق پذیر بودن، می‌تواند به عنوان تابع هزینه‌ی مدل‌هایی که از گرادیان کاهشی استفاده می‌کنند، به کار گرفته شود. همانطور که در فصل قبل گفته شد، با وزن‌دار کردن این تابع خطا، می‌توانیم مدل‌ها را نسبت به عدم توازن بین کلاس‌ها مقاوم کنیم.

\subsection{مساحت تحت منحنی}
در ادبیات یادگیری ماشین، معیار‌های \trans{نرخ مثبت درست}{TPR} و \trans{نرخ مثبت غلط}{FPR} کاربرد‌های بسیاری دارند. نرخ مثبت درست به نرخ عملکرد صحیح در کلاس مثبت و نرخ مثبت غلط به نرخ عملکرد اشتباه در کلاس منفی اشاره می‌کنند. این مقادیر طبق تعریف، همیشه بین صفر و یک هستند. در مدل‌هایی که برای دسته‌بندی دو کلاسه، از یک حد آستانه بهره می‌جویند، با تغییر دادن مقدار حد آستانه، می‌توانند تعادلی بین نرخ مثبت درست و نرخ مثبت غلط بیابند.

یک منحنی پر کاربرد در یادگیری ماشین، منحنی \trans{راک}{ROC} است. برای رسم این منحنی، ابتدا مدل را روی همه‌ی داده‌های تست اجرا کرده و مقادیر احتمال را برای همه‌ی داده‌ها به دست می‌آوریم؛ سپس آن‌ها را بر اساس احتمال کلیک صعودی، مرتب می‌کنیم. از نقطه‌ی بالا و راست منحنی شروع کرده و هر بار، در صورتی که داده‌ی مربوطه جزو کلاس منفی باشد، یک گام به سمت چپ و در صورتی که مربوط به کلاس مثبت باشد، یک گام به سمت پایین حرکت می‌کنیم. اندازه‌ی گام‌های به سمت چپ، برابر معکوس تعداد داده‌های منفی و اندازه‌ی گام‌های به سمت راست، برابر معکوس تعداد داده‌های مثبت است؛ لذا پس از مشاهده‌ی همه‌ی داده‌ها، باید به نقطه‌ی چپ و پایین منحنی رسیده باشیم. هر قدر این منحنی به سمت بالا و چپ تمایل داشته‌باشد، به این معنی است که مدل تحت حد آستانه‌های مختلف، عملکرد متوازن و قابل قبولی دارد. همچنین نرمال بودن نرخ مثبت درست و نرخ مثبت غلط باعث می‌شود هیچ مشکلی از جانب غیر متناسب بودن کلاس‌ها عملکرد این معیار را تهدید نکند. در صورتی که مساحت تحت پوشش منحنی راک را محاسبه کنیم، می‌توانیم از آن به عنوان یک معیار عددی کاملا مناسب برای نظارت بر مدل‌های یادگیری ماشین استفاده کنیم. مساحت تحت منحنی راک یا \trans{مساحت تحت منحنی}{Area Under Curve} عددی نرمال بین صفر و یک بوده ولی مقادیر کمتر از نیم برای آن غیر معقول است.

یکی از نکات مهم در مورد معیار مساحت تحت منحنی، تعبیر احتمالاتی آن است. این معیار نشان دهنده‌ی احتمال تخصیص امتیاز (احتمال کلیک) بیشتر به یک نمونه‌ی (تصادفی) از کلاس مثبت، نسبت به یک نمونه‌ی (تصادفی) از کلاس منفی است. به عنوان مثال، اگر میزان مساحت تحت منحنی برای یک مدل، برابر 75 درصد باشد، اگر یک داده‌ی تصادفی از کلاس مثبت و یک داده‌ی تصادفی از کلاس منفی انتخاب کرده و امتیاز این مدل برای این دو داده را محاسبه کنیم، به احتمال 75 درصد، امتیاز تخصیص داده شده به داده‌ی کلاس مثبت، بیشتر از احتمال تخصیص داده شده به داده‌ی کلاس منفی خواهد بود. این خاصیت مهم، باعث می‌شود مدلی که مساحت تحت منحنی بیشتری دارد، برای اعمالی نظیر مرتب کردن اولویت‌دار، عملکرد بهتری داشته باشند. چون مساله‌ی پیش‌بینی نرخ کلیک، در تبلیغات نمایشی عملا برای مرتب کردن اولویت‌دار بنر‌های تبلیغاتی، بر اساس احتمال کلیک کاربران بر روی آن‌ها طراحی شده است، لذا مدلی که مساحت تحت منحنی قابل قبولی داشته باشد، برای استفاده‌ی صنعتی دراین مساله گزینه‌ی مناسبی خواهد بود.

همه‌ی دلایل ذکر شده، باعث می‌شوند در این پژوهش از این معیار به عنوان معیار اصلی ارزیابی مدل استفاده کنیم.
% اما علاوه بر این معیار، از معیار‌های \trans{دقت}{Precision}، \trans{بازیابی}{Recall} و \trans{امتیاز اف 1}{F1 Measure} که میانگین هارمونیک دقت و بازیابی است نیز برای تایید نتایج گزارش شده استفاده می‌کنیم.

\section{روش‌های تنظیم پارامتر‌ها}
هر یک از روش‌های ژرف که در فصل دوم معرفی کردیم و همچنین بسیاری از روش‌های دیگر، به دلیل جلوگیری از بیش‌برازش، از روش‌های تنظیم پارامتر‌ها استفاده می‌کنند. در این بخش چند روش تنظیم پارامتر که در این پژوهش استفاده کرده‌ایم را به طور مختصر معرفی کرده و با انجام آزمایش‌هایی، بهترین مقادیر ابرپارامتر‌های مربوط به آن‌ها را انتخاب می‌کنیم.
\subsection{تنظیم مرتبه‌ی دوم}
در تنظیم مرتبه‌ی دوم، میزان خطای نهایی مدل را با ضریبی از مجموع توان دوم مقادیر پارامتر‌های مدل جمع می‌کنند. این عمل باعث می‌شود مدل به استفاده از پارامتر‌های کوچک‌تر ترغیب شود، که این امر به نوبه‌ی خود باعث کاهش پیچیدگی مدل و همچنین کاهش خطر بیش‌برازش می‌شود. تنظیم مرتبه‌ی دوم را می‌توان در قسمت‌های مختلف مدل از قبیل پارامتر‌های تعبیه، پارامتر‌های شبکه‌های تعامل و همچنین پارامتر‌های شبکه‌ی سر اعمال کرد.
\subsubsection{تنظیم مرتبه‌ی دوم روی پارامتر‌های تعبیه}
با اعمال تنظیم مرتبه‌ی دوم بر پارامتر‌های تعبیه، مدل را به استفاده از بردار‌های تعبیه‌ی کوچک‌تر ترغیب می‌کنیم. این عمل باعث ساده‌تر شدن فضاهای تعبیه‌ی مدل شده و در نتیجه خطر بیش‌برازش مدل را کاهش می‌دهد.

در آزمایشی چندین مقدار مختلف برای ضریب تنظیم مرتبه‌ی دوم روی پارامتر‌های تعبیه در نظر گرفته و مدل پیشنهادی را روی مجموعه‌های داده‌ی کرایتیو-20 و کرایتیو-22 آموزش دادیم. شکل \ref{fig:l2reg_on_emb} مقادیر مساحت تحت نمودار در این آزمایش را نشان می‌دهد.

\begin{figure}
	\center
	\includegraphics[width=0.9\textwidth]{images/Embedding_L2Reg}
	\caption{
		مساحت تحت نمودار، به ازای مقادیر مختلف ضریب تنظیم مرتبه‌ی دوم برای پارامتر‌های تعبیه‌ی مدل
	}
	\label{fig:l2reg_on_emb}
\end{figure}

همانطور که مشخص است، برای مجموعه داده‌ی کرایتیو-20، که تعداد ویژگی کمتری دارد، تنظیم مرتبه‌ی دوم پارامتر‌های تعبیه کمکی به عملکرد مدل نمی‌کند؛ اما مقادیر بسیار اندک در ضریب تنظیم مرتبه‌ی دوم روی پارامتر‌های تعبیه، باعث بهبود عملکرد مدل روی مجموعه داده‌ی کرایتیو-22 می‌شود. از این آزمایش این نتیجه را برداشت می‌کنیم که تنظیم مرتبه‌ی دوم، در مجموعه‌های داده‌ی با تعداد ویژگی زیاد، می‌تواند خطر بیش‌برازش را کاهش دهد.

\subsubsection{تنظیم مرتبه‌ی دوم روی پارامتر‌های شبکه‌های تعامل}
شبکه‌های تعامل، بخش مهمی از پیچیدگی مدل پیشنهادی را ایجاد می‌کنند. با اعمال تنظیم مرتبه‌ی دوم روی پارامتر‌های این شبکه‌ها، مدل را به استخراج روابط ساده و موثر بین بردار‌های تعبیه ترغیب کرده و انتظار داریم این کار خطر بیش‌برازش مدل را کاهش دهد.

در آزمایشی، چندین مقدار مختلف برای ضریب تنظیم مرتبه‌ی دوم روی پارامتر‌های شبکه‌های تعامل در نظر گرفته و مدل پیشنهادی را روی مجموعه‌های داده‌ی کرایتیو-20 و کرایتیو-22 آموزش می‌دهیم. شکل \ref{fig:l2reg_on_int} مقادیر مساحت تحت نمودار در این آزمایش را نشان می‌دهد.
\begin{figure}
	\center
	\includegraphics[width=0.9\textwidth]{images/InteractionNet_L2Reg}
	\caption{
		مساحت تحت نمودار، به ازای مقادیر مختلف ضریب تنظیم مرتبه‌ی دوم برای پارامتر‌های شبکه‌های تعامل
	}
	\label{fig:l2reg_on_int}
\end{figure}
همانطور که مشخص است، برای مجموعه داده‌ی کرایتیو-20، که تعداد ویژگی کمتری دارد، تنظیم مرتبه‌ی دوم پارامتر‌های شبکه‌های تعامل، عملکرد مدل را تضعیف می‌کند؛ اما مقادیر متوسط ضریب تنظیم مرتبه‌ی دوم روی پارامتر‌های شبکه‌های تعامل، باعث بهبود عملکرد مدل روی مجموعه داده‌ی کرایتیو-22 می‌شود. از این آزمایش نیز برداشت می‌کنیم که تنظیم مرتبه‌ی دوم، در مجموعه‌های داده‌ی با تعداد ویژگی زیاد، موثر بوده و خطر بیش‌برازش را کاهش می‌دهد.
\subsubsection{تنظیم مرتبه‌ی دوم روی پارامتر‌های شبکه‌ی سر}
شبکه‌ی سر، نقش مهم استخراج ویژگی‌های سطح بالا از روی بردار‌های تعبیه و همچنین بردار‌های تعامل مدل را دارد؛ بنابراین با انجام عمل تنظیم مرتبه‌ی دوم روی پارامتر‌های آن، سعی در کاهش خطر بیش‌برازش مدل می‌نماییم.

در آزمایشی، چندین مقدار مختلف برای ضریب تنظیم مرتبه‌ی دوم روی پارامتر‌های شبکه‌ی سر در نظر گرفته و مدل پیشنهادی را روی مجموعه‌های داده‌ی کرایتیو-20 و کرایتیو-22 آموزش می‌دهیم. شکل \ref{fig:l2reg_on_head} مقادیر مساحت تحت نمودار در این آزمایش را نشان می‌دهد.
\begin{figure}
	\center
	\includegraphics[width=0.9\textwidth]{images/HeadNet_L2Reg}
	\caption{
		مساحت تحت نمودار، به ازای مقادیر مختلف ضریب تنظیم مرتبه‌ی دوم برای پارامتر‌های شبکه‌ی سر
	}
	\label{fig:l2reg_on_head}
\end{figure}
همانطور که مشخص است و بر خلاف تصور اولیه، اعمال تنظیم مرتبه‌ی دوم روی پارامتر‌های شبکه‌ی سر، بر بهبود عملکرد مدل در هیچ یک از مجموعه‌های داده‌ی کرایتیو-20 و کرایتیو-22 کمک نمی‌کند. این نتیجه می‌تواند به این دلیل رخ دهد که شبکه‌ی سر برای مدل‌سازی مناسب، نیاز به پیچیدگی زیادی داشته و در نتیجه با اعمال ضرایب تنظیم، دچار افت عملکرد می‌شود.

\subsection{حذف تصادفی}
در شبکه‌های عصبی ژرف، برای جلوگیری از خطر بیش‌برازش و همچنین ترغیب مدل‌ها به یادگیری چند‌گانه و قابل اطمینان، از تکنیک حذف تصادفی استفاده می‌کنند. در حذف تصادفی، مقادیر خروجی برخی از نورون‌های شبکه را در زمان آموزش با صفر جایگزین کرده و در نتیجه میزانی از پیچیدگی مدل را کاهش می‌دهیم. این امر باعث می‌شود شبکه برای حفظ عملکرد خود، همه‌ی ویژگی‌های نهانی که در تصمیم‌گیری مدل موثر هستند را به صورت چند‌گانه فرا بگیرد. یادگیری چند‌گانه به این معنی است که به جای یک نورون، چندین نورون مسئول تشخیص هر ویژگی نهان شده و در نتیجه با حضور یا عدم حضور تنها یکی از ویژگی‌ها، رفتار مدل تفاوت چندانی نمی‌کند. واضح است که این تغییر باعث کاهش واریانس مدل و در نتیجه کاهش خطر بیش‌برازش در مدل می‌شود.

تکنیک حذف تصادفی را می‌توان در قسمت‌های مختلف مدل از جمله بردار‌های تعبیه، شبکه‌های تعامل و همچنین شبکه‌ی سر اعمال کرده و انتظار می‌رود مانند تنظیم مرتبه‌ی دوم، باعث بهبود عملکرد مدل در مجموعه‌های داده‌ی حجیم شود.
\subsubsection{حذف تصادفی پارامتر‌های تعبیه}
با اعمال تکنیک حذف تصادفی روی پارامتر‌های تعبیه، باعث کاهش پیچیدگی مدل در این بخش شده و لذا مدل را وادار به یادگیری ساختار ساده‌تر و کارا‌تر در پارامتر‌های تعبیه می‌کنیم.

در آزمایشی، با اعمال این تکنیک روی پارامتر‌های تعبیه، میزان تاثیر آن را بر عملکرد مدل روی مجموعه‌های داده‌ی کرایتیو-20 و کرایتیو-22 اندازه‌گیری می‌کنیم. شکل \ref{fig:dropout_on_emb} مساحت تحت نمودار مدل را در این آزمایش نشان می‌دهد.
\begin{figure}
	\center
	\includegraphics[width=0.9\textwidth]{images/Embedding_dropout}
	\caption{
		مساحت تحت نمودار، به ازای مقادیر مختلف نرخ حذف تصادفی در پارامتر‌های تعبیه‌ی مدل
	}
	\label{fig:dropout_on_emb}
\end{figure}
همانطور که انتظار می‌رفت، مقادیر کم نرخ حذف تصادفی باعث بهبود جزئی عملکرد مدل در مجموعه داده‌ی کرایتیو-22 می‌شوند؛ اما باز هم در مجموعه داده‌ی کرایتیو-20، کوچک بودن مدل باعث می‌شود اعمال تکنیک حذف تصادفی، تاثیر مثبتی بر عملکرد مدل نداشته باشد.
\subsubsection{حذف تصادفی پارامتر‌های شبکه‌های تعامل}
شبکه‌های تعامل به دلیل این که از بردار‌های تعبیه استفاده می‌کنند و برخی از بردار‌های تعبیه به دلیل چالش شروع سرد، مقادیر مناسبی ندارند، می‌توانند باعث بروز مشکل بیش‌برازش شوند. با اعمال تکنیک حذف تصادفی روی پارامتر‌های شبکه‌های تعامل، خطر بیش‌برازش مدل را در این بخش‌ها کاهش می‌دهیم.

در آزمایشی، با اعمال این تکنیک روی پارامتر‌های شبکه‌های تعامل، میزان تاثیر آن را بر عملکرد مدل روی مجموعه‌های داده‌ی کرایتیو-20 و کرایتیو-22 اندازه‌گیری می‌کنیم. شکل \ref{fig:dropout_on_int} مساحت تحت نمودار مدل را در این آزمایش نشان می‌دهد.
\begin{figure}
	\center
	\includegraphics[width=0.9\textwidth]{images/InteractionNet_dropout}
	\caption{
		مساحت تحت نمودار، به ازای مقادیر مختلف نرخ حذف تصادفی در پارامتر‌های شبکه‌های تعامل
	}
	\label{fig:dropout_on_int}
\end{figure}
در مجموعه داده‌ی کرایتیو-20 به دلیل سادگی مدل، حذف تصادفی پارامتر‌های شبکه‌های تعامل کمکی به بهبود عملکرد مدل نمی‌کند؛ اما در مجموعه داده‌ی کرایتیو-22، که ابعاد مدل نیز درخور تعداد ویژگی‌های مجموعه‌ی داده رشد کرده است، مقادیر متوسط نرخ حذف تصادفی، باعث بهبود عملکرد مدل می‌شوند. همچنین می‌توانیم رفتار تصادفی تکنیک حذف تصادفی را عامل اصلی ناهموار بودن نتایج در آزمایش فوق در نظر بگیریم.
\subsubsection{حذف تصادفی پارامتر‌های شبکه‌ی سر}
تکنیک حذف تصادفی، در مدل‌های ژرف کاربرد بیشتری از مدل‌های غیر ژرف دارد؛ در نتیجه انتظار می‌رود تاثیر اعمال این تکنیک در بخش‌های ژرف مدل، احساس شود.

در آزمایشی، با اعمال تکنیک حذف تصادفی روی پارامتر‌های شبکه‌ی سر، میزان تاثیر آن را بر عملکرد مدل روی مجموعه داده‌های کرایتیو-20 و کرایتیو-22 اندازه‌گیری می‌کنیم. شکل \ref{fig:dropout_on_head} مساحت تحت نمودار مدل را در این آزمایش نشان می‌دهد.
\begin{figure}
	\center
	\includegraphics[width=0.9\textwidth]{images/HeadNet_dropout}
	\caption{
		مساحت تحت نمودار، به ازای مقادیر مختلف نرخ حذف تصادفی در پارامتر‌های شبکه‌ی سر
	}
	\label{fig:dropout_on_head}
\end{figure}
همان‌طور که از نتایج این آزمایش مشخص است، مقادیر اندک نرخ حذف تصادفی باعث بهبود عملکرد مدل بر مجموعه داده‌ی کرایتیو-22 می‌شود؛ اما مثل آزمایش‌های قبل، مجموعه داده‌ی کرایتیو-20 به دلیل سادگی بیش از حد مدل، نیازی به اعمال روش‌های تنظیم احساس نشده و با افزایش نرخ حذف تصادفی، عملکرد مدل پیوسته کاهش می‌یابد.

\section{سایر آزمایش‌ها}
در بخش قبل با انجام چندین آزمایش، بهترین مقادیر برای \trans{ابرپارامتر‌}{Hyper-Parameter}های مربوط به تنظیم را یافته و تاثیر اعمال هرکدام از روش‌های تنظیم را بر مدل بررسی کردیم. در این بخش، با طراحی و انجام چند آزمایش دیگر، سایر ابرپارامتر‌های مدل را بررسی کرده و مقادیر مناسب را برای آن‌ها خواهیم یافت.

\subsection{تعداد لایه‌های شبکه‌های تعامل و بعد بردار‌های تعامل}
برای تعیین تعداد لایه‌ها در شبکه‌های تعامل و همچنین بعد بردار‌های تعامل، که تنها ابرپارامتر‌های موجود در ساختار شبکه‌های تعامل هستند، آزمایشی روی مجموعه داده‌ی آوت‌برین پیش‌پردازش شده طراحی و اجرا می‌کنیم. در این آزمایش، تعداد لایه‌های شبکه‌های تعامل را از یک تا چهار تغییر داده و برای هر حالت، بعد بردار‌های تعامل را از یک تا چهار تغییر می‌دهیم. نتایج این آزمایش را در شکل \ref{fig:InteractionNet_experiment} مشاهده می‌کنید.
\begin{figure}
	\center
	\includegraphics[width=0.9\textwidth]{images/InteractionNet_Layers_Interaction_Dim}
	\caption{
		مساحت تحت نمودار، به ازای تعداد لایه‌های مختلف شبکه‌های تعامل و همچنین مقادیر مختلف بعد بردار‌های تعامل
	}
	\label{fig:InteractionNet_experiment}
\end{figure}
همانطور که از نتایج این آزمایش مشخص است، زمانی که بعد بردار‌های تعبیه از 1 بیشتر باشند، عملکرد مدل بهبود می‌یابد. پس می‌توانیم از این نتیجه، برداشت کنیم افزایش ابعاد بردار‌های تعبیه، ایده‌ی موثری برای بهبود عملکرد مدل است. همچنین قابل ملاحظه است که تعداد لایه‌های شبکه‌های تعامل، رابطه‌ی واضحی با عملکرد مدل در این مجموعه‌ی داده ندارد.

\subsection{تعداد لایه‌ها و نورون‌های شبکه‌ی سر}
شبکه‌ی سر، همان‌طور که در بخش‌های قبل گفته شد، نقش تصمیم‌گیری نهایی مدل را بر عهده دارد. تنظیم دقیق تعداد لایه‌ها و نورون‌های این شبکه، می‌تواند میزان پیچیدگی مدل و توان مدل‌سازی آن را تحت تاثیر قرار دهد؛ پس با طراحی آزمایشی، میزان تاثیر تعداد لایه‌ها و همچنین تعداد نورون‌های هر لایه از این شبکه را بین مقادیر مختلف تغییر داده و عملکرد مدل را روی مجموعه داده‌ی کرایتیو-22 با مساحت تحت منحنی می‌سنجیم. نتایج این آزمایش در شکل \ref{fig:HeadNet_experiment1} قابل مشاهده است.

همچنین این آزمایش را روی مجموعه داده‌ی آوت‌برین هم تکرار کرده و به دلیل سرعت بالای اجرا بر روی این مجموعه داده، مقادیر متنوع‌تری را از این ابرپارامتر‌ها می‌آزماییم. در شکل \ref{fig:HeadNet_experiment2} مساحت تحت منحنی را برای مدل در این آزمایش گزارش کرده‌ایم.

همان‌طور که از نتایج آزمایش‌های فوق مشخص است، تاثیر تعداد لایه‌های شبکه‌ی سر، تنها در یکی از مجموعه‌های داده و آن‌هم به صورت محدود مشاهده می‌شود؛ اما با افزایش تعداد نورون‌های هر لایه از شبکه‌ی سر، عملکرد مدل به صورت مداوم بهبود می‌یابد. می‌توانیم از این نتایج این نکته را برداشت کنیم که به دلیل استخراج ویژگی‌های مرتبه اول (بردار‌های تعبیه) و دوم (بردار‌های تعامل) مناسب، مدل به عمق زیادی برای پیش‌بینی نرخ کلیک نیاز ندارد؛ اما با افزایش تعداد نورون‌های هر لایه از شبکه‌ی سر، مدل می‌تواند جزئیات بیشتری از این ویژگی‌ها استخراج کرده و مرز تصمیم‌گیری را دقیق‌تر ترسیم کند.
\begin{figure}
	\center
	\includegraphics[width=0.9\textwidth]{images/HeadNet_Experiment1}
	\caption{
		مساحت تحت نمودار، به ازای تعداد لایه‌های مختلف شبکه‌های تعامل و همچنین مقادیر مختلف بعد بردار‌های تعامل روی مجموعه داده‌ی کرایتیو-22
	}
	\label{fig:HeadNet_experiment1}
\end{figure}
\begin{figure}
	\center
	\includegraphics[width=0.9\textwidth]{images/HeadNet_Experiment2}
	\caption{
		مساحت تحت نمودار، به ازای تعداد لایه‌های مختلف شبکه‌های تعامل و همچنین مقادیر مختلف بعد بردار‌های تعامل روی مجموعه داده‌ی آوت‌برین
	}
	\label{fig:HeadNet_experiment2}
\end{figure}

\subsection{بررسی فضای تعبیه}
یکی از پرسش‌های مهمی که ممکن است در مورد نتایج این پژوهش به وجود بیاید، تاثیر استفاده از تکنیک‌های مختلف روی کیفیت فضای بردار‌های تعبیه است. \textbf{آیا متغیر در نظر گرفتن ابعاد بردار‌های تعبیه و همچنین تخصیص چندین مسیر مختلف برای انتقال گرادیان به متغیر‌های تعبیه‌ی مدل، باعث شکل‌گیری یک فضای تعبیه‌ی مفید می‌شود؟}

برای پاسخ به این پرسش، به تنها فیلد درهم‌سازی نشده‌ی مجموعه داده‌ی آوت‌برین که موقعیت جغرافیایی است، رجوع می‌کنیم. این فیلد نشان دهنده‌ی کشور، استان یا ایالتی است که آدرس آی‌پی کاربر به آن ناحیه تعلق دارد. می‌توانیم فرض کنیم استان‌ها و ایالت‌های مختلف یک کشور، به دلیل شباهت فرهنگی و زبانی، تاثیر مشابهی در برخورد کاربران با تبلیغات آنلاین داشته باشند؛ در نتیجه انتظار داریم استان‌ها یا ایالت‌های مختلف یک کشور، در فضای تعبیه‌ی این فیلد، نزدیک به هم باشند.

چون فضای تعبیه‌ی این فیلد بیش از دو بعد دارد، نمی‌توانیم بردار‌های تعبیه را به صورت خام نمایش دهیم؛ پس از یک روش کاهش ابعاد\cite{t-sne} به نام $T-SNE$ استفاده می‌کنیم و این بردار‌ها را به فضای دو بعدی منتقل می‌کنیم. الگوریتم $T-SNE$ به نحوی کار می‌کند که فاصله‌ی نقاط در فضای خروجی، مانند همین فواصل در فضای ورودی بوده و عملا نقاط نزدیک به هم، پس از کاهش ابعاد باز هم نزدیک به هم قرار گرفته و نقاط دور از هم، پس از کاهش ابعاد همچنان دور از یکدیگر باشند.

در شکل \ref{fig:GeoLocEmb} نتایج این آزمایش را مشاهده می‌نمایید. قابل توجه است این شکل پس از کاهش ابعاد این فضا توسط الگوریتم $T-SNE$ به دو بعد رسم شده است.
\begin{figure}
	\center
	\includegraphics[width=0.9\textwidth]{images/GeoLoc}
	\caption{
		نمایی از فضای تعبیه‌ی استخراج شده از فیلد موقعیت جغرافیایی در مجموعه‌ی داده‌ی آوت‌برین توسط روش پیشنهادی
	}
	\label{fig:GeoLocEmb}
\end{figure}
برای سادگی مشاهده‌ی نتایج، استان‌ها و ایالت‌های مختلف هر کشور را به یک رنگ خاص نمایش داده‌ایم. همان طور که انتظار داشتیم، نقاط هم رنگ نزدیک به هم و به صورت خوشه‌های با اندازه‌های متغیر قرار گرفته‌اند. این آزمایش به ما نشان می‌دهد همان‌طور که انتظار داشتیم، اقدامات انجام شده به منظور بهبود کیفیت فضای تعبیه، موثر بوده و مدل پیشنهادی، در ایجاد و استفاده از فضا‌های تعبیه‌ی مفید، موفق شده است.
\subsection{مقایسه با روش‌های پیشین}
پس از تنظیم مقادیر ابر‌پارامتر‌ها و اطمینان از عملکرد مدل پیشنهادی، نوبت به مقایسه‌ی آن با برخی از روش‌های پیشین می‌رسد. به دلیل محدودیت‌های سخت‌افزاری، این مقایسه را به ماشین‌های فاکتورگیری ساده و همچنین ماشین‌های فاکتورگیری ژرف محدود می‌کنیم. قابل ذکر است ماشین‌های فاکتورگیری ساده، نماینده‌ی روش‌های غیر ژرف و ماشین‌های فاکتورگیری ژرف، نماینده‌ی روش‌های ژرف در این مقایسه هستند.
\subsubsection{مجموعه داده‌ی آوت‌برین}
در جدول \ref{tbl:outbrain_results} نتایج مقایسه‌ی مدل پیشنهادی با روش‌های پیشین را در مجموعه‌ی داده‌ی آوت‌برین مشاهده می‌کنید.

\begin{table}[!ht]
	\caption{مقایسه‌ی نهایی عملکرد روی مجموعه‌ی آوت‌برین}
	\label{tbl:outbrain_results}
	%\begin{latin}
	\scriptsize
	\begin{center}
	\begin{tabular}{|c|c|} \hline
		{نام و جزئیات مدل} &
		{مساحت تحت منحنی (درصد)} \\ \hline
		{\begin{tabular}[c]{@{}c@{}}\textbf{ماشین فاکتورگیری ساده}\\ بعد بردار‌های تعبیه = 9\end{tabular}} &
		{\textbf{$74.22$}} \\ \hline
		{\begin{tabular}[c]{@{}c@{}}ماشین فاکتورگیری ژرف\\ بعد بردار‌های تعبیه = 10\\ تعداد لایه‌ها = 3\\ تعداد نورون‌های هر لایه = 20\end{tabular}} &
		{$72.27$} \\ \hline
		{\begin{tabular}[c]{@{}c@{}}ماشین فاکتورگیری ژرف\\ بعد بردار‌های تعبیه = 10\\ تعداد لایه‌ها = 3\\ تعداد نورون‌های هر لایه = 100\end{tabular}} &
		{$73.00$} \\ \hline
		{\begin{tabular}[c]{@{}c@{}}ماشین فاکتورگیری ژرف\\ بعد بردار‌های تعبیه = 10\\ تعداد لایه‌ها = 3\\ تعداد نورون‌های هر لایه = 400\end{tabular}} &
		{$73.44$} \\ \hline
		{\textbf{روش پیشنهادی}} &
		{\textbf{$74.13$}} \\ \hline
	\end{tabular}
	\end{center}
\end{table}

همان طور که از نتایج قابل مشاهده است، مدل پیشنهادی و ماشین فاکتورگیری ساده، عملکردی مناسب و نزدیک به هم ارائه کرده‌اند. این نکته قابل توجه است که ماشین فاکتورگیری ژرف، در مجموعه داده‌ی آوت‌برین عملکرد مناسبی ندارد. این در حالی است که روش ژرف پیشنهادی، حتی با وجود تعداد بسیار کم ویژگی‌های این مجموعه داده، می‌تواند عملکردی بسیار نزدیک به ماشین فاکتورگیری ساده (مدل غیر ژرف) ارائه کند. این نتیجه نشان می‌دهد روش‌های تنظیم استفاده شده، عملکرد قابل قبولی داشته و جلوی بیش‌برازش مدل پیشنهادی را گرفته‌اند.

\subsubsection{مجموعه داده‌ی کرایتیو-22}
در جدول \ref{tbl:criteo22_results} نتایج مقایسه‌ی روش پیشنهادی و ماشین فاکتورگیری ساده را، در مجموعه داده‌ی کرایتیو-22 مشاهده می‌کنید. لازم به ذکر است اجرای مدل ماشین فاکتورگیری ژرف در این مجموعه داده، به دلیل تعداد پارامتر‌های بسیار بالا قابل انجام نبوده و به ناچار، مقایسه در این مجموعه داده را تنها بین روش پیشنهادی و روش ماشین فاکتورگیری ساده انجام می‌دهیم.
\begin{table}[!ht]
	\caption{مقایسه‌ی نهایی عملکرد روی مجموعه‌ی کرایتیو-22}
	\label{tbl:criteo22_results}
	%\begin{latin}
	\scriptsize
	\begin{center}
		\begin{tabular}{|c|c|c|c|c|} \hline
			{نام و جزئیات مدل} &
			{مساحت تحت منحنی (درصد)} &
			{دقت (درصد)} &
			{بازیابی (درصد)} &
			{اف 1 (درصد)} \\ \hline
			{\begin{tabular}[c]{@{}c@{}}ماشین فاکتورگیری ساده\\ بعد بردار‌های تعبیه = 5\end{tabular}} &
			{\textbf{$75.41$}} &
			{$56.55$} &
			{$34.58$} &
			{$42.92$} \\ \hline
			{\begin{tabular}[c]{@{}c@{}}ماشین فاکتورگیری ساده\\ بعد بردار‌های تعبیه = 10\\ \end{tabular}} &
			{$74.75$} &
			{$54.89$} &
			{$35.42$} &
			{$43.06$} \\ \hline
			{\begin{tabular}[c]{@{}c@{}}ماشین فاکتورگیری ساده\\ بعد بردار‌های تعبیه = 40\\ \end{tabular}} &
			{$72.38$} &
			{$50.12$} &
			{$37.20$} &
			{$42.70$} \\ \hline
			{\begin{tabular}[c]{@{}c@{}}ماشین فاکتورگیری ساده\\ بعد بردار‌های تعبیه = 100\\ \end{tabular}} &
			{$70.30$} &
			{$46.92$} &
			{$38.32$} &
			{$42.19$} \\ \hline
			{\textbf{روش پیشنهادی}} &
			{$76.08$} &
			{$43.07$} &
			{$70.39$} &
			{$53.44$} \\ \hline
		\end{tabular}
	\end{center}
\end{table}

نتایج این آزمایش نشان می‌دهد ماشین فاکتورگیری ساده، با افزایش بعد تعبیه، دچار مشکل بیش‌برازش شده و عملکرد آن افت می‌کند. همچنین واضح است که روش پیشنهادی عملکرد بهتری را ارائه می‌کند.

\subsubsection{مجموعه داده‌ی کرایتیو-21}
در جدول \ref{tbl:criteo21_results} عملکرد روش پیشنهادی را با روش‌های ماشین فاکتورگیری ساده و ماشین فاکتورگیری ژرف مقایسه می‌کنیم.
\begin{table}[!ht]
	\caption{مقایسه‌ی نهایی عملکرد روی مجموعه‌ی کرایتیو-21}
	\label{tbl:criteo21_results}
	%\begin{latin}
	\scriptsize
	\begin{center}
		\begin{tabular}{|c|c|c|c|c|} \hline
			{نام و جزئیات مدل} &
			{مساحت تحت منحنی (درصد)} &
			{دقت (درصد)} &
			{بازیابی (درصد)} &
			{اف 1 (درصد)}
			 \\ \hline
			{\begin{tabular}[c]{@{}c@{}}ماشین فاکتورگیری ساده\\ بعد بردار‌های تعبیه = 5\end{tabular}} &
			{\textbf{$75.83$}} &
			{$58.77$} &
			{$31.73$} &
			{$41.21$} \\ \hline
			{\begin{tabular}[c]{@{}c@{}}ماشین فاکتورگیری ساده\\ بعد بردار‌های تعبیه = 10\\ \end{tabular}} &
			{$75.49$} &
			{$57.75$} &
			{$32.49$} &
			{$41.59$} \\ \hline
			{\begin{tabular}[c]{@{}c@{}}ماشین فاکتورگیری ساده\\ بعد بردار‌های تعبیه = 40\\ \end{tabular}} &
			{$73.68$} &
			{$53.60$} &
			{$34.40$} &
			{$41.91$} \\ \hline
			{\begin{tabular}[c]{@{}c@{}}ماشین فاکتورگیری ساده\\ بعد بردار‌های تعبیه = 100\\ \end{tabular}} &
			{$71.71$} &
			{$50.14$} &
			{$35.08$} &
			{$41.28$} \\ \hline
			{\begin{tabular}[c]{@{}c@{}}ماشین فاکتورگیری ژرف\\ بعد بردار‌های تعبیه = 10\\ تعداد لایه‌ها = 3\\ تعداد نورون‌های هر لایه = 20\end{tabular}} &
			{$74.85$} &
			{$32.71$} &
			{$91.81$} &
			{$48.23$} \\ \hline
			{\begin{tabular}[c]{@{}c@{}}ماشین فاکتورگیری ژرف\\ بعد بردار‌های تعبیه = 10\\ تعداد لایه‌ها = 3\\ تعداد نورون‌های هر لایه = 100\end{tabular}} &
			{$76.01$} &
			{$38.16$} &
			{$82.51$} &
			{$52.18$} \\ \hline
			{\begin{tabular}[c]{@{}c@{}}ماشین فاکتورگیری ژرف\\ بعد بردار‌های تعبیه = 10\\ تعداد لایه‌ها = 3\\ تعداد نورون‌های هر لایه = 400\end{tabular}} &
			{$76.24$} &
			{$42.21$} &
			{$73.34$} &
			{$53.58$} \\ \hline
			{\textbf{روش پیشنهادی}} &
			{\textbf{$76.70$}} &
			{$43.70$} &
			{$69.94$} &
			{$53.79$} \\ \hline
		\end{tabular}
	\end{center}
\end{table}

همان‌طور که از نتایج مشخص است، روش پیشنهادی در این مجموعه داده، عملکرد بهتری نسبت به ماشین‌های فاکتورگیری ساده و ماشین‌های فاکتورگیری ژرف به نمایش گذاشته است.

\subsubsection{مجموعه داده‌ی کرایتیو-20}
در جدول \ref{tbl:criteo20_results} عملکرد نهایی روش پیشنهادی را با روش‌های ماشین فاکتورگیری ساده و ماشین فاکتورگیری ژرف بر روی مجموعه داده‌ی کرایتیو-20 مقایسه می‌کنیم.

\begin{table}[!ht]
	\caption{مقایسه‌ی نهایی عملکرد روی مجموعه‌ی کرایتیو-20}
	\label{tbl:criteo20_results}
	%\begin{latin}
	\scriptsize
	\begin{center}
		\begin{tabular}{|c|c|c|c|c|} \hline
			{نام و جزئیات مدل} &
			{مساحت تحت منحنی (درصد)} &
			{دقت (درصد)} &
			{بازیابی (درصد)} &
			{اف 1 (درصد)} \\ \hline
			{\begin{tabular}[c]{@{}c@{}}ماشین فاکتورگیری ساده\\ بعد بردار‌های تعبیه = 5\end{tabular}} &
			{\textbf{$75.57$}} &
			{$59.20$} &
			{$30.35$} &
			{$40.12$} \\ \hline
			{\begin{tabular}[c]{@{}c@{}}ماشین فاکتورگیری ساده\\ بعد بردار‌های تعبیه = 10\\ \end{tabular}} &
			{$75.30$} &
			{$58.22$} &
			{$31.13$} &
			{$40.56$} \\ \hline
			{\begin{tabular}[c]{@{}c@{}}ماشین فاکتورگیری ساده\\ بعد بردار‌های تعبیه = 40\\ \end{tabular}} &
			{$73.62$} &
			{$54.24$} &
			{$32.93$} &
			{$40.98$} \\ \hline
			{\begin{tabular}[c]{@{}c@{}}ماشین فاکتورگیری ساده\\ بعد بردار‌های تعبیه = 100\\ \end{tabular}} &
			{$71.75$} &
			{$50.62$} &
			{$34.32$} &
			{$40.90$} \\ \hline
			{\begin{tabular}[c]{@{}c@{}}ماشین فاکتورگیری ژرف\\ بعد بردار‌های تعبیه = 10\\ تعداد لایه‌ها = 3\\ تعداد نورون‌های هر لایه = 20\end{tabular}} &
			{$74.70$} &
			{$42.85$} &
			{$66.45$} &
			{$52.10$} \\ \hline
			{\begin{tabular}[c]{@{}c@{}}ماشین فاکتورگیری ژرف\\ بعد بردار‌های تعبیه = 10\\ تعداد لایه‌ها = 3\\ تعداد نورون‌های هر لایه = 100\end{tabular}} &
			{$75.44$} &
			{$55.94$} &
			{$32.06$} &
			{$40.76$} \\ \hline
			{\begin{tabular}[c]{@{}c@{}}ماشین فاکتورگیری ژرف\\ بعد بردار‌های تعبیه = 10\\ تعداد لایه‌ها = 3\\ تعداد نورون‌های هر لایه = 400\end{tabular}} &
			{$75.45$} &
			{$33.64$} &
			{$90.63$} &
			{$49.07$} \\ \hline
			{\textbf{روش پیشنهادی}} &
			{\textbf{$76.37$}} &
			{$42.76$} &
			{$68.61$} &
			{$53.44$} \\ \hline
		\end{tabular}
	\end{center}
\end{table}

همان‌طور که از نتایج قابل مشاهده است، مدل پیشنهادی در این مجموعه داده نیز عملکرد بهتری نشان داده و روش‌های ماشین فاکتورگیری ساده و همچنین ماشین فاکتورگیری ژرف را پشت سر گذاشته است.