123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280281282283284285286287288289290291292293294295296297298299300301302303304305306307308309310311312313314315316317318319320321322323324325326327328329330331332333334335336337338339340341342343344345346347348349350351352353354355356357358359360361362363364365366367368369370371372373374375376377378379380381382383384385386387388389390391392393394395396397398399400401402403404405406407408409410411412413414415 |
- % !TEX encoding = UTF-8 Unicode
- \chapter{یافتههای پژوهش}\label{Chap:Chap4}
-
- %==================================================================
- در این بخش ابتدا مجموعههای دادهی مورد استفاده را معرفی کرده و مختصرا در مورد خصوصیات آنها بحث میکنیم؛ سپس برخی از معیارهای ارزیابی مهم در این حوزه را معرفی کرده و دلایل انتخاب این معیارها را شرح میدهیم. پس از آن، روشهای مورد استفاده در این پژوهش برای تنظیم پارامترها را توضیح میداده و با انجام آزمایشهایی، بهترین مقادیر را برای ابرپارامترهای مدل به دست میآوریم؛ سپس با طراحی و اجرای چندین آزمایش، عملکرد روش پیشنهادی را با برخی از روشهای پیشین مقایسه کرده و به برخی سوالات احتمالی پاسخ میدهیم.
-
- \section{مجموعههای داده}
- در این بخش به معرفی و بررسی مجموعه دادههای مورد استفاده در این پژوهش میپردازیم. لازم به ذکر است پیشپردازشهای مختلفی که به خاطر محدودیتهای سختافزاری اعمال میکنیم، باعث میشود نتوانیم نتایج به دست آمده را با نتایج گزارش شده توسط پژوهشهای پیشین مقایسه کنیم. پس به کمک پیادهسازیهای موجود از این پژوهشها، عملکرد آنها را روی مجموعههای دادهی ایجاد شده محاسبه خواهیم کرد.
- \subsection{آوتبرین}
- همانطور که گفته شد، در سال 2016 شرکت آوتبرین با برگزاری یک چالش در سایت \trans{کگل}{kaggle.com}، مجموعهدادهی خود را منتشر کرد. در این مجموعه داده، هر بار که کاربری به صفحهی سایت یک ناشر مراجعه کرده است، 2 الی 12 بنر تبلیغاتی به وی نمایش داده شده، که کاربر روی یکی از آنها کلیک کرده است. میانگین تعداد تبلیغ در این مجموعهی داده، 5.16 تبلیغ در هر مراجعه است.
-
- یکی از ویژگیهای مجموعهدادهی آوتبرین، وجود اطلاعات جانبی متنوع در مورد صفحاتی است که تبلیغات در آنها به نمایش گذاشته شدهاند. این صفحات طبق یک طبقهبندی موضوعی، به 97 دسته تقسیم شدهاند. اطلاعاتی نیز در مورد ذکر شدن نام برخی موجودیتها در هر صفحه و میزان اطمینان در مورد آن فراهم شده است. اطلاعات متنوعی نیز از نویسنده، ناشر و زمان انتشار هر صفحه وجود دارد. همچنین اطلاعات مربوط به تبلیغ کننده و کمپین تبلیغاتی برای هر تبلیغ نیز موجود است.
-
- در این مجموعه داده، اطلاعات حجیمی نیز در مورد مشاهدهی صفحات مختلف توسط کاربران ارائه شده است. این اطلاعات شامل زمان دقیق مراجعه، پلتفرم (کامپیوتر، موبایل یا تبلت)، محل جغرافیایی و منبع ترافیک (مستقیم، جستجو یا شبکههای اجتماعی) هر بازدید هستند. این اطلاعات به دلیل حجم بالا و تعداد زیاد (نزدیک به 2 میلیارد) بازدید از صفحات مختلف وب بسیار حجیم هستند. این مجموعهداده، شامل اطلاعات جمع آوری شده در طول دو هفته (14 روز) از بازدیدها، نمایش تبلیغها و کلیکها در تعدادی سایت پر بازدید است.
-
- در این مجموعهداده، همهی اطلاعات به صورت \trans{ناشناس شده}{Anonimized} ارائه شده و حتی نام سایتها، نوع دستههای موضوعی صفحات نیز ذکر نشده و اطلاعات آن به صورت شناسهی گمنام در اختیار محققین قرار گرفته است. تنها ویژگی غیر ناشناس در این مجموعهی داده، موقعیت جغرافیایی کاربران است که البته برای حفظ حریم خصوصی کاربران، به سطح کشور یا استان / ایالت محدود شده است.
-
- \subsubsection{آوتبرین پیشپردازش شده}
- همانطور که گفته شد، تعداد بسیار زیاد ویژگیها و دادهها، باعث بروز محدودیتهای سختافزاری متعددی در انجام آزمایش روی این مجموعهی داده میشود؛ به همین دلیل در این پژوهش با حذف تعداد زیادی از این ویژگیها، نسخهی سبکتری از این مجموعهی داده استخراج کرده و از آن به عنوان یک مجموعهدادهی کوچک برای انجام مقایسهها بهره میجوییم.
-
- در اولین قدم، تعداد دادههای موجود در این مجموعهی داده را به کمک روشهای نمونه برداری، به 87 میلیون کاهش میدهیم؛ سپس ویژگیهایی از این مجموعهی داده که دستهای نیستند را حذف میکنیم. همچنین، تعدادی از ویژگیهای دستهای که تعداد دستههای بسیار زیادی دارند را از این مجموعهی داده حذف مینماییم. تعداد ویژگیهای دستهای باقی مانده در این مجموعهی داده 12 بوده و این ویژگیها شامل موارد: شناسهی کمپین تبلیغاتی، شناسهی تبلیغ کننده، پلتفرم، موقعیت جغرافیایی، شناسهی صفحه، شناسهی ناشر، شناسهی موضوع صفحه، شناسهی دستهی صفحه، شناسهی صفحهی منبع، شناسهی ناشر صفحهی منبع، شناسهی موضوع صفحهی منبع و شناسهی دستهی صفحهی منبع هستند.
-
- مجموع تعداد ویژگیهای باینری استخراج شده از این مجموعهی داده 53727 است. لازم به ذکر است سبک بودن این مجموعه داده، به دلیل تعداد کم دادهها نیست؛ بلکه این مجموعهی داده به این دلیل سبک خوانده میشود که تعداد ویژگیهای آن بسیار کمتر از سایر مجموعههای داده است.
-
- حدود 19 درصد از دادههای این مجموعه در دستهی کلیک شده و بقیهی دادهها در دستهی کلیک نشده طبقه بندی شدهاند.
-
- \subsection{کرایتیو}
- یکی از شرکتهای فعال در حوزهی تبلیغات نمایشی آنلاین، \trans{کرایتیو}{Criteo} است. این شرکت با استفاده از مزایدههای بلادرنگ تبلیغات مشتریان خود (سکوی نیاز) را بین مشتریان دیگر خود (سکوی تامین) توزیع میکند. در سال 2014 این شرکت اطلاعات مربوط به 7 روز از ترافیک خود را در قالب یک چالش در سایت کگل منتشر کرد.
-
- این مجموعهداده، از 13 ویژگی (ناشناس) عددی، که طبق اعلام خود شرکت اکثر این ویژگیها از نوع تعداد هستند؛ و 26 ویژگی ناشناس دستهای، که به صورت \trans{درهمسازی شده}{Hashed} ارائه شده اند، تشکیل شده است. این مجموعهداده، شامل تعدادی \trans{مقادیر گم شده}{Missing values} بوده و مانند مجموعهدادهی آوتبرین، اطلاعات آن به صورت ناشناس ارائه شدهاند.
-
- این مجموعهی داده شامل بیش از 45 میلیون رکورد بوده که کاربران در 26 درصد از این نمونهها روی بنر تبلیغاتی کلیک کردهاند. با وجود کمتر بودن تعداد دادهها در این مجموعهی داده و شدت کمتر عدم توازن بین کلاسها، تعداد ویژگیهای زیاد و همچنین تنک بودن بسیاری از این ویژگیها باعث میشوند این مجموعهی داده یک چالش واقعی برای روشهای پیشبینی نرخ کلیک به شمار رود.
-
- مجموع تعداد ویژگیهای باینری استخراج شده از بخش دستهای این مجموعهی داده، به بیش از 33 میلیون میرسد؛ بنابراین استفاده از همهی این ویژگیها محدودیتهای سختافزاری زیادی را به وجود میآورد. به همین دلیل، مجموعههای دادهی کرایتیو-22، کرایتیو-21 و کرایتیو-20 را از این مجموعهی داده استخراج کرده و تمامی آزمایشهای مربوطه را با این سه مجموعهی داده انجام میدهیم.
- \subsubsection{کرایتیو-22}
- با حذف 4 ویژگی دستهای که بیشترین کاردینالیتی را دارند، از مجموعه دادهی کرایتیو و همچنین حذف همهی ویژگیهای عددی که با ساختار روش پیشنهادی و اکثر روشهای پیشین سازگار نیستند، به مجموعهی دادهی کرایتیو-22 میرسیم. مجموع تعداد ویژگیهای باینری استخراج شده از این مجموعهی داده، تا حدود 2.7 میلیون کاهش مییابد.
- \subsubsection{کرایتیو-21}
- مثل مجموعه دادهی کرایتیو-22، مجموعه دادهی کرایتیو-21 هم از مجموعه دادهی کرایتیو ساخته میشود. در مجموعه دادهی کرایتیو-21، 5 ویژگی دارای کاردینالیتی بیشتر را حذف کرده و مجموع تعداد ویژگیهای باینری را به حدود 570 هزار میرسانیم.
- \subsubsection{کرایتیو-20}
- همانطور که انتظار میرود، مجموعه دادهی کرایتیو-20، دارای تنها 20 ویژگی دستهای بوده و مجموع تعداد ویژگیهای باینری در آن حدود 280 هزار است.
-
- لازم به تذکر است که تعداد دادهها و درصد کلی کلیک در هر سه مجموعه دادهی ساخته شده یکسان و برابر با مجموعه دادهی کرایتیو است.
-
- \section{معیارهای ارزیابی}
- همانطور که در فصل اول گفته شد، مسالهی پیشبینی نرخ کلیک به دلیل ویژگیهای متعدد، از جمله عدم توازن کلاسها، پر تعداد اما تنک بودن ویژگیها و برخی مشکلات دیگر، مسالهای خاص است؛ لذا برای ارزیابی راهحلهایی که برای این مساله پیشنهاد میشوند، به معیارهای ارزیابی به خصوصی نیاز داریم. در این بخش به معرفی معیارهای ارزیابی مورد استفاده در این پژوهش میپردازیم و دلیل استفاده از برخی از این معیارها را بیان مینماییم.
-
- \subsection{خطای لگاریتمی}
- خطای لگاریتمی یا\trans{آنتروپی متقابل}{Cross Entropy}، یکی از مهمترین معیارهای استفادهشده در حوزهی پیشبینی نرخ کلیک است. در مدلهایی که خروجی آنها برابر احتمال کلیک است، مقدار این خطا، با \trans{قرینهی لگاریتم درستنمایی}{Negative Log Likelihood} این مدلها برابر است. در نتیجه با شهود و درک احتمالاتی از این مساله کاملا تطابق دارد.
-
- در صورتی که از این خطا استفاده کنیم، حتی اگر دادهای توسط مدل درست دستهبندی شود، باز هم امکان دارد به آن خطایی تخصیص دهیم. در صورتی خطای آنتروپی متقابل برابر صفر میشود که علاوه بر طبقهبندی درست همهی دادهها، به همهی آنها احتمال کاملا باینری اختصاص دهد؛در نتیجه مدل به سمتی پیش میرود که خطا در احتمال پیشبینیشده را کمتر و کمتر کند.
-
- خطای لگاریتمی به دلیل مشتق پذیر بودن، میتواند به عنوان تابع هزینهی مدلهایی که از گرادیان کاهشی استفاده میکنند، به کار گرفته شود. همانطور که در فصل قبل گفته شد، با وزندار کردن این تابع خطا، میتوانیم مدلها را نسبت به عدم توازن بین کلاسها مقاوم کنیم.
-
- \subsection{مساحت تحت منحنی}
- در ادبیات یادگیری ماشین، معیارهای \trans{نرخ مثبت درست}{TPR} و \trans{نرخ مثبت غلط}{FPR} کاربردهای بسیاری دارند. نرخ مثبت درست به نرخ عملکرد صحیح در کلاس مثبت و نرخ مثبت غلط به نرخ عملکرد اشتباه در کلاس منفی اشاره میکنند. این مقادیر طبق تعریف، همیشه بین صفر و یک هستند. در مدلهایی که برای دستهبندی دو کلاسه، از یک حد آستانه بهره میجویند، با تغییر دادن مقدار حد آستانه، میتوانند تعادلی بین نرخ مثبت درست و نرخ مثبت غلط بیابند.
-
- یک منحنی پر کاربرد در یادگیری ماشین، منحنی \trans{راک}{ROC} است. برای رسم این منحنی، ابتدا مدل را روی همهی دادههای تست اجرا کرده و مقادیر احتمال را برای همهی دادهها به دست میآوریم؛ سپس آنها را بر اساس احتمال کلیک صعودی، مرتب میکنیم. از نقطهی بالا و راست منحنی شروع کرده و هر بار، در صورتی که دادهی مربوطه جزو کلاس منفی باشد، یک گام به سمت چپ و در صورتی که مربوط به کلاس مثبت باشد، یک گام به سمت پایین حرکت میکنیم. اندازهی گامهای به سمت چپ، برابر معکوس تعداد دادههای منفی و اندازهی گامهای به سمت راست، برابر معکوس تعداد دادههای مثبت است؛ لذا پس از مشاهدهی همهی دادهها، باید به نقطهی چپ و پایین منحنی رسیده باشیم. هر قدر این منحنی به سمت بالا و چپ تمایل داشتهباشد، به این معنی است که مدل تحت حد آستانههای مختلف، عملکرد متوازن و قابل قبولی دارد. همچنین نرمال بودن نرخ مثبت درست و نرخ مثبت غلط باعث میشود هیچ مشکلی از جانب غیر متناسب بودن کلاسها عملکرد این معیار را تهدید نکند. در صورتی که مساحت تحت پوشش منحنی راک را محاسبه کنیم، میتوانیم از آن به عنوان یک معیار عددی کاملا مناسب برای نظارت بر مدلهای یادگیری ماشین استفاده کنیم. مساحت تحت منحنی راک یا \trans{مساحت تحت منحنی}{Area Under Curve} عددی نرمال بین صفر و یک بوده ولی مقادیر کمتر از نیم برای آن غیر معقول است.
-
- یکی از نکات مهم در مورد معیار مساحت تحت منحنی، تعبیر احتمالاتی آن است. این معیار نشان دهندهی احتمال تخصیص امتیاز (احتمال کلیک) بیشتر به یک نمونهی (تصادفی) از کلاس مثبت، نسبت به یک نمونهی (تصادفی) از کلاس منفی است. به عنوان مثال، اگر میزان مساحت تحت منحنی برای یک مدل، برابر 75 درصد باشد، اگر یک دادهی تصادفی از کلاس مثبت و یک دادهی تصادفی از کلاس منفی انتخاب کرده و امتیاز این مدل برای این دو داده را محاسبه کنیم، به احتمال 75 درصد، امتیاز تخصیص داده شده به دادهی کلاس مثبت، بیشتر از احتمال تخصیص داده شده به دادهی کلاس منفی خواهد بود. این خاصیت مهم، باعث میشود مدلی که مساحت تحت منحنی بیشتری دارد، برای اعمالی نظیر مرتب کردن اولویتدار، عملکرد بهتری داشته باشند. چون مسالهی پیشبینی نرخ کلیک، در تبلیغات نمایشی عملا برای مرتب کردن اولویتدار بنرهای تبلیغاتی، بر اساس احتمال کلیک کاربران بر روی آنها طراحی شده است، لذا مدلی که مساحت تحت منحنی قابل قبولی داشته باشد، برای استفادهی صنعتی دراین مساله گزینهی مناسبی خواهد بود.
-
- همهی دلایل ذکر شده، باعث میشوند در این پژوهش از این معیار به عنوان معیار اصلی ارزیابی مدل استفاده کنیم.
- % اما علاوه بر این معیار، از معیارهای \trans{دقت}{Precision}، \trans{بازیابی}{Recall} و \trans{امتیاز اف 1}{F1 Measure} که میانگین هارمونیک دقت و بازیابی است نیز برای تایید نتایج گزارش شده استفاده میکنیم.
-
- \section{روشهای تنظیم پارامترها}
- هر یک از روشهای ژرف که در فصل دوم معرفی کردیم و همچنین بسیاری از روشهای دیگر، به دلیل جلوگیری از بیشبرازش، از روشهای تنظیم پارامترها استفاده میکنند. در این بخش چند روش تنظیم پارامتر که در این پژوهش استفاده کردهایم را به طور مختصر معرفی کرده و با انجام آزمایشهایی، بهترین مقادیر ابرپارامترهای مربوط به آنها را انتخاب میکنیم.
- \subsection{تنظیم مرتبهی دوم}
- در تنظیم مرتبهی دوم، میزان خطای نهایی مدل را با ضریبی از مجموع توان دوم مقادیر پارامترهای مدل جمع میکنند. این عمل باعث میشود مدل به استفاده از پارامترهای کوچکتر ترغیب شود، که این امر به نوبهی خود باعث کاهش پیچیدگی مدل و همچنین کاهش خطر بیشبرازش میشود. تنظیم مرتبهی دوم را میتوان در قسمتهای مختلف مدل از قبیل پارامترهای تعبیه، پارامترهای شبکههای تعامل و همچنین پارامترهای شبکهی سر اعمال کرد.
- \subsubsection{تنظیم مرتبهی دوم روی پارامترهای تعبیه}
- با اعمال تنظیم مرتبهی دوم بر پارامترهای تعبیه، مدل را به استفاده از بردارهای تعبیهی کوچکتر ترغیب میکنیم. این عمل باعث سادهتر شدن فضاهای تعبیهی مدل شده و در نتیجه خطر بیشبرازش مدل را کاهش میدهد.
-
- در آزمایشی چندین مقدار مختلف برای ضریب تنظیم مرتبهی دوم روی پارامترهای تعبیه در نظر گرفته و مدل پیشنهادی را روی مجموعههای دادهی کرایتیو-20 و کرایتیو-22 آموزش دادیم. شکل \ref{fig:l2reg_on_emb} مقادیر مساحت تحت نمودار در این آزمایش را نشان میدهد.
-
- \begin{figure}
- \center
- \includegraphics[width=0.9\textwidth]{images/Embedding_L2Reg}
- \caption{
- مساحت تحت نمودار، به ازای مقادیر مختلف ضریب تنظیم مرتبهی دوم برای پارامترهای تعبیهی مدل
- }
- \label{fig:l2reg_on_emb}
- \end{figure}
-
- همانطور که مشخص است، برای مجموعه دادهی کرایتیو-20، که تعداد ویژگی کمتری دارد، تنظیم مرتبهی دوم پارامترهای تعبیه کمکی به عملکرد مدل نمیکند؛ اما مقادیر بسیار اندک در ضریب تنظیم مرتبهی دوم روی پارامترهای تعبیه، باعث بهبود عملکرد مدل روی مجموعه دادهی کرایتیو-22 میشود. از این آزمایش این نتیجه را برداشت میکنیم که تنظیم مرتبهی دوم، در مجموعههای دادهی با تعداد ویژگی زیاد، میتواند خطر بیشبرازش را کاهش دهد.
-
- \subsubsection{تنظیم مرتبهی دوم روی پارامترهای شبکههای تعامل}
- شبکههای تعامل، بخش مهمی از پیچیدگی مدل پیشنهادی را ایجاد میکنند. با اعمال تنظیم مرتبهی دوم روی پارامترهای این شبکهها، مدل را به استخراج روابط ساده و موثر بین بردارهای تعبیه ترغیب کرده و انتظار داریم این کار خطر بیشبرازش مدل را کاهش دهد.
-
- در آزمایشی، چندین مقدار مختلف برای ضریب تنظیم مرتبهی دوم روی پارامترهای شبکههای تعامل در نظر گرفته و مدل پیشنهادی را روی مجموعههای دادهی کرایتیو-20 و کرایتیو-22 آموزش میدهیم. شکل \ref{fig:l2reg_on_int} مقادیر مساحت تحت نمودار در این آزمایش را نشان میدهد.
- \begin{figure}
- \center
- \includegraphics[width=0.9\textwidth]{images/InteractionNet_L2Reg}
- \caption{
- مساحت تحت نمودار، به ازای مقادیر مختلف ضریب تنظیم مرتبهی دوم برای پارامترهای شبکههای تعامل
- }
- \label{fig:l2reg_on_int}
- \end{figure}
- همانطور که مشخص است، برای مجموعه دادهی کرایتیو-20، که تعداد ویژگی کمتری دارد، تنظیم مرتبهی دوم پارامترهای شبکههای تعامل، عملکرد مدل را تضعیف میکند؛ اما مقادیر متوسط ضریب تنظیم مرتبهی دوم روی پارامترهای شبکههای تعامل، باعث بهبود عملکرد مدل روی مجموعه دادهی کرایتیو-22 میشود. از این آزمایش نیز برداشت میکنیم که تنظیم مرتبهی دوم، در مجموعههای دادهی با تعداد ویژگی زیاد، موثر بوده و خطر بیشبرازش را کاهش میدهد.
- \subsubsection{تنظیم مرتبهی دوم روی پارامترهای شبکهی سر}
- شبکهی سر، نقش مهم استخراج ویژگیهای سطح بالا از روی بردارهای تعبیه و همچنین بردارهای تعامل مدل را دارد؛ بنابراین با انجام عمل تنظیم مرتبهی دوم روی پارامترهای آن، سعی در کاهش خطر بیشبرازش مدل مینماییم.
-
- در آزمایشی، چندین مقدار مختلف برای ضریب تنظیم مرتبهی دوم روی پارامترهای شبکهی سر در نظر گرفته و مدل پیشنهادی را روی مجموعههای دادهی کرایتیو-20 و کرایتیو-22 آموزش میدهیم. شکل \ref{fig:l2reg_on_head} مقادیر مساحت تحت نمودار در این آزمایش را نشان میدهد.
- \begin{figure}
- \center
- \includegraphics[width=0.9\textwidth]{images/HeadNet_L2Reg}
- \caption{
- مساحت تحت نمودار، به ازای مقادیر مختلف ضریب تنظیم مرتبهی دوم برای پارامترهای شبکهی سر
- }
- \label{fig:l2reg_on_head}
- \end{figure}
- همانطور که مشخص است و بر خلاف تصور اولیه، اعمال تنظیم مرتبهی دوم روی پارامترهای شبکهی سر، بر بهبود عملکرد مدل در هیچ یک از مجموعههای دادهی کرایتیو-20 و کرایتیو-22 کمک نمیکند. این نتیجه میتواند به این دلیل رخ دهد که شبکهی سر برای مدلسازی مناسب، نیاز به پیچیدگی زیادی داشته و در نتیجه با اعمال ضرایب تنظیم، دچار افت عملکرد میشود.
-
- \subsection{حذف تصادفی}
- در شبکههای عصبی ژرف، برای جلوگیری از خطر بیشبرازش و همچنین ترغیب مدلها به یادگیری چندگانه و قابل اطمینان، از تکنیک حذف تصادفی استفاده میکنند. در حذف تصادفی، مقادیر خروجی برخی از نورونهای شبکه را در زمان آموزش با صفر جایگزین کرده و در نتیجه میزانی از پیچیدگی مدل را کاهش میدهیم. این امر باعث میشود شبکه برای حفظ عملکرد خود، همهی ویژگیهای نهانی که در تصمیمگیری مدل موثر هستند را به صورت چندگانه فرا بگیرد. یادگیری چندگانه به این معنی است که به جای یک نورون، چندین نورون مسئول تشخیص هر ویژگی نهان شده و در نتیجه با حضور یا عدم حضور تنها یکی از ویژگیها، رفتار مدل تفاوت چندانی نمیکند. واضح است که این تغییر باعث کاهش واریانس مدل و در نتیجه کاهش خطر بیشبرازش در مدل میشود.
-
- تکنیک حذف تصادفی را میتوان در قسمتهای مختلف مدل از جمله بردارهای تعبیه، شبکههای تعامل و همچنین شبکهی سر اعمال کرده و انتظار میرود مانند تنظیم مرتبهی دوم، باعث بهبود عملکرد مدل در مجموعههای دادهی حجیم شود.
- \subsubsection{حذف تصادفی پارامترهای تعبیه}
- با اعمال تکنیک حذف تصادفی روی پارامترهای تعبیه، باعث کاهش پیچیدگی مدل در این بخش شده و لذا مدل را وادار به یادگیری ساختار سادهتر و کاراتر در پارامترهای تعبیه میکنیم.
-
- در آزمایشی، با اعمال این تکنیک روی پارامترهای تعبیه، میزان تاثیر آن را بر عملکرد مدل روی مجموعههای دادهی کرایتیو-20 و کرایتیو-22 اندازهگیری میکنیم. شکل \ref{fig:dropout_on_emb} مساحت تحت نمودار مدل را در این آزمایش نشان میدهد.
- \begin{figure}
- \center
- \includegraphics[width=0.9\textwidth]{images/Embedding_dropout}
- \caption{
- مساحت تحت نمودار، به ازای مقادیر مختلف نرخ حذف تصادفی در پارامترهای تعبیهی مدل
- }
- \label{fig:dropout_on_emb}
- \end{figure}
- همانطور که انتظار میرفت، مقادیر کم نرخ حذف تصادفی باعث بهبود جزئی عملکرد مدل در مجموعه دادهی کرایتیو-22 میشوند؛ اما باز هم در مجموعه دادهی کرایتیو-20، کوچک بودن مدل باعث میشود اعمال تکنیک حذف تصادفی، تاثیر مثبتی بر عملکرد مدل نداشته باشد.
- \subsubsection{حذف تصادفی پارامترهای شبکههای تعامل}
- شبکههای تعامل به دلیل این که از بردارهای تعبیه استفاده میکنند و برخی از بردارهای تعبیه به دلیل چالش شروع سرد، مقادیر مناسبی ندارند، میتوانند باعث بروز مشکل بیشبرازش شوند. با اعمال تکنیک حذف تصادفی روی پارامترهای شبکههای تعامل، خطر بیشبرازش مدل را در این بخشها کاهش میدهیم.
-
- در آزمایشی، با اعمال این تکنیک روی پارامترهای شبکههای تعامل، میزان تاثیر آن را بر عملکرد مدل روی مجموعههای دادهی کرایتیو-20 و کرایتیو-22 اندازهگیری میکنیم. شکل \ref{fig:dropout_on_int} مساحت تحت نمودار مدل را در این آزمایش نشان میدهد.
- \begin{figure}
- \center
- \includegraphics[width=0.9\textwidth]{images/InteractionNet_dropout}
- \caption{
- مساحت تحت نمودار، به ازای مقادیر مختلف نرخ حذف تصادفی در پارامترهای شبکههای تعامل
- }
- \label{fig:dropout_on_int}
- \end{figure}
- در مجموعه دادهی کرایتیو-20 به دلیل سادگی مدل، حذف تصادفی پارامترهای شبکههای تعامل کمکی به بهبود عملکرد مدل نمیکند؛ اما در مجموعه دادهی کرایتیو-22، که ابعاد مدل نیز درخور تعداد ویژگیهای مجموعهی داده رشد کرده است، مقادیر متوسط نرخ حذف تصادفی، باعث بهبود عملکرد مدل میشوند. همچنین میتوانیم رفتار تصادفی تکنیک حذف تصادفی را عامل اصلی ناهموار بودن نتایج در آزمایش فوق در نظر بگیریم.
- \subsubsection{حذف تصادفی پارامترهای شبکهی سر}
- تکنیک حذف تصادفی، در مدلهای ژرف کاربرد بیشتری از مدلهای غیر ژرف دارد؛ در نتیجه انتظار میرود تاثیر اعمال این تکنیک در بخشهای ژرف مدل، احساس شود.
-
- در آزمایشی، با اعمال تکنیک حذف تصادفی روی پارامترهای شبکهی سر، میزان تاثیر آن را بر عملکرد مدل روی مجموعه دادههای کرایتیو-20 و کرایتیو-22 اندازهگیری میکنیم. شکل \ref{fig:dropout_on_head} مساحت تحت نمودار مدل را در این آزمایش نشان میدهد.
- \begin{figure}
- \center
- \includegraphics[width=0.9\textwidth]{images/HeadNet_dropout}
- \caption{
- مساحت تحت نمودار، به ازای مقادیر مختلف نرخ حذف تصادفی در پارامترهای شبکهی سر
- }
- \label{fig:dropout_on_head}
- \end{figure}
- همانطور که از نتایج این آزمایش مشخص است، مقادیر اندک نرخ حذف تصادفی باعث بهبود عملکرد مدل بر مجموعه دادهی کرایتیو-22 میشود؛ اما مثل آزمایشهای قبل، مجموعه دادهی کرایتیو-20 به دلیل سادگی بیش از حد مدل، نیازی به اعمال روشهای تنظیم احساس نشده و با افزایش نرخ حذف تصادفی، عملکرد مدل پیوسته کاهش مییابد.
-
- \section{سایر آزمایشها}
- در بخش قبل با انجام چندین آزمایش، بهترین مقادیر برای \trans{ابرپارامتر}{Hyper-Parameter}های مربوط به تنظیم را یافته و تاثیر اعمال هرکدام از روشهای تنظیم را بر مدل بررسی کردیم. در این بخش، با طراحی و انجام چند آزمایش دیگر، سایر ابرپارامترهای مدل را بررسی کرده و مقادیر مناسب را برای آنها خواهیم یافت.
-
- \subsection{تعداد لایههای شبکههای تعامل و بعد بردارهای تعامل}
- برای تعیین تعداد لایهها در شبکههای تعامل و همچنین بعد بردارهای تعامل، که تنها ابرپارامترهای موجود در ساختار شبکههای تعامل هستند، آزمایشی روی مجموعه دادهی آوتبرین پیشپردازش شده طراحی و اجرا میکنیم. در این آزمایش، تعداد لایههای شبکههای تعامل را از یک تا چهار تغییر داده و برای هر حالت، بعد بردارهای تعامل را از یک تا چهار تغییر میدهیم. نتایج این آزمایش را در شکل \ref{fig:InteractionNet_experiment} مشاهده میکنید.
- \begin{figure}
- \center
- \includegraphics[width=0.9\textwidth]{images/InteractionNet_Layers_Interaction_Dim}
- \caption{
- مساحت تحت نمودار، به ازای تعداد لایههای مختلف شبکههای تعامل و همچنین مقادیر مختلف بعد بردارهای تعامل
- }
- \label{fig:InteractionNet_experiment}
- \end{figure}
- همانطور که از نتایج این آزمایش مشخص است، زمانی که بعد بردارهای تعبیه از 1 بیشتر باشند، عملکرد مدل بهبود مییابد. پس میتوانیم از این نتیجه، برداشت کنیم افزایش ابعاد بردارهای تعبیه، ایدهی موثری برای بهبود عملکرد مدل است. همچنین قابل ملاحظه است که تعداد لایههای شبکههای تعامل، رابطهی واضحی با عملکرد مدل در این مجموعهی داده ندارد.
-
- \subsection{تعداد لایهها و نورونهای شبکهی سر}
- شبکهی سر، همانطور که در بخشهای قبل گفته شد، نقش تصمیمگیری نهایی مدل را بر عهده دارد. تنظیم دقیق تعداد لایهها و نورونهای این شبکه، میتواند میزان پیچیدگی مدل و توان مدلسازی آن را تحت تاثیر قرار دهد؛ پس با طراحی آزمایشی، میزان تاثیر تعداد لایهها و همچنین تعداد نورونهای هر لایه از این شبکه را بین مقادیر مختلف تغییر داده و عملکرد مدل را روی مجموعه دادهی کرایتیو-22 با مساحت تحت منحنی میسنجیم. نتایج این آزمایش در شکل \ref{fig:HeadNet_experiment1} قابل مشاهده است.
-
- همچنین این آزمایش را روی مجموعه دادهی آوتبرین هم تکرار کرده و به دلیل سرعت بالای اجرا بر روی این مجموعه داده، مقادیر متنوعتری را از این ابرپارامترها میآزماییم. در شکل \ref{fig:HeadNet_experiment2} مساحت تحت منحنی را برای مدل در این آزمایش گزارش کردهایم.
-
- همانطور که از نتایج آزمایشهای فوق مشخص است، تاثیر تعداد لایههای شبکهی سر، تنها در یکی از مجموعههای داده و آنهم به صورت محدود مشاهده میشود؛ اما با افزایش تعداد نورونهای هر لایه از شبکهی سر، عملکرد مدل به صورت مداوم بهبود مییابد. میتوانیم از این نتایج این نکته را برداشت کنیم که به دلیل استخراج ویژگیهای مرتبه اول (بردارهای تعبیه) و دوم (بردارهای تعامل) مناسب، مدل به عمق زیادی برای پیشبینی نرخ کلیک نیاز ندارد؛ اما با افزایش تعداد نورونهای هر لایه از شبکهی سر، مدل میتواند جزئیات بیشتری از این ویژگیها استخراج کرده و مرز تصمیمگیری را دقیقتر ترسیم کند.
- \begin{figure}
- \center
- \includegraphics[width=0.9\textwidth]{images/HeadNet_Experiment1}
- \caption{
- مساحت تحت نمودار، به ازای تعداد لایههای مختلف شبکههای تعامل و همچنین مقادیر مختلف بعد بردارهای تعامل روی مجموعه دادهی کرایتیو-22
- }
- \label{fig:HeadNet_experiment1}
- \end{figure}
- \begin{figure}
- \center
- \includegraphics[width=0.9\textwidth]{images/HeadNet_Experiment2}
- \caption{
- مساحت تحت نمودار، به ازای تعداد لایههای مختلف شبکههای تعامل و همچنین مقادیر مختلف بعد بردارهای تعامل روی مجموعه دادهی آوتبرین
- }
- \label{fig:HeadNet_experiment2}
- \end{figure}
-
- \subsection{بررسی فضای تعبیه}
- یکی از پرسشهای مهمی که ممکن است در مورد نتایج این پژوهش به وجود بیاید، تاثیر استفاده از تکنیکهای مختلف روی کیفیت فضای بردارهای تعبیه است. \textbf{آیا متغیر در نظر گرفتن ابعاد بردارهای تعبیه و همچنین تخصیص چندین مسیر مختلف برای انتقال گرادیان به متغیرهای تعبیهی مدل، باعث شکلگیری یک فضای تعبیهی مفید میشود؟}
-
- برای پاسخ به این پرسش، به تنها فیلد درهمسازی نشدهی مجموعه دادهی آوتبرین که موقعیت جغرافیایی است، رجوع میکنیم. این فیلد نشان دهندهی کشور، استان یا ایالتی است که آدرس آیپی کاربر به آن ناحیه تعلق دارد. میتوانیم فرض کنیم استانها و ایالتهای مختلف یک کشور، به دلیل شباهت فرهنگی و زبانی، تاثیر مشابهی در برخورد کاربران با تبلیغات آنلاین داشته باشند؛ در نتیجه انتظار داریم استانها یا ایالتهای مختلف یک کشور، در فضای تعبیهی این فیلد، نزدیک به هم باشند.
-
- چون فضای تعبیهی این فیلد بیش از دو بعد دارد، نمیتوانیم بردارهای تعبیه را به صورت خام نمایش دهیم؛ پس از یک روش کاهش ابعاد\cite{t-sne} به نام $T-SNE$ استفاده میکنیم و این بردارها را به فضای دو بعدی منتقل میکنیم. الگوریتم $T-SNE$ به نحوی کار میکند که فاصلهی نقاط در فضای خروجی، مانند همین فواصل در فضای ورودی بوده و عملا نقاط نزدیک به هم، پس از کاهش ابعاد باز هم نزدیک به هم قرار گرفته و نقاط دور از هم، پس از کاهش ابعاد همچنان دور از یکدیگر باشند.
-
- در شکل \ref{fig:GeoLocEmb} نتایج این آزمایش را مشاهده مینمایید. قابل توجه است این شکل پس از کاهش ابعاد این فضا توسط الگوریتم $T-SNE$ به دو بعد رسم شده است.
- \begin{figure}
- \center
- \includegraphics[width=0.9\textwidth]{images/GeoLoc}
- \caption{
- نمایی از فضای تعبیهی استخراج شده از فیلد موقعیت جغرافیایی در مجموعهی دادهی آوتبرین توسط روش پیشنهادی
- }
- \label{fig:GeoLocEmb}
- \end{figure}
- برای سادگی مشاهدهی نتایج، استانها و ایالتهای مختلف هر کشور را به یک رنگ خاص نمایش دادهایم. همان طور که انتظار داشتیم، نقاط هم رنگ نزدیک به هم و به صورت خوشههای با اندازههای متغیر قرار گرفتهاند. این آزمایش به ما نشان میدهد همانطور که انتظار داشتیم، اقدامات انجام شده به منظور بهبود کیفیت فضای تعبیه، موثر بوده و مدل پیشنهادی، در ایجاد و استفاده از فضاهای تعبیهی مفید، موفق شده است.
- \subsection{مقایسه با روشهای پیشین}
- پس از تنظیم مقادیر ابرپارامترها و اطمینان از عملکرد مدل پیشنهادی، نوبت به مقایسهی آن با برخی از روشهای پیشین میرسد. به دلیل محدودیتهای سختافزاری، این مقایسه را به ماشینهای فاکتورگیری ساده و همچنین ماشینهای فاکتورگیری ژرف محدود میکنیم. قابل ذکر است ماشینهای فاکتورگیری ساده، نمایندهی روشهای غیر ژرف و ماشینهای فاکتورگیری ژرف، نمایندهی روشهای ژرف در این مقایسه هستند.
- \subsubsection{مجموعه دادهی آوتبرین}
- در جدول \ref{tbl:outbrain_results} نتایج مقایسهی مدل پیشنهادی با روشهای پیشین را در مجموعهی دادهی آوتبرین مشاهده میکنید.
-
- \begin{table}[!ht]
- \caption{مقایسهی نهایی عملکرد روی مجموعهی آوتبرین}
- \label{tbl:outbrain_results}
- %\begin{latin}
- \scriptsize
- \begin{center}
- \begin{tabular}{|c|c|} \hline
- {نام و جزئیات مدل} &
- {مساحت تحت منحنی (درصد)} \\ \hline
- {\begin{tabular}[c]{@{}c@{}}\textbf{ماشین فاکتورگیری ساده}\\ بعد بردارهای تعبیه = 9\end{tabular}} &
- {\textbf{$74.22$}} \\ \hline
- {\begin{tabular}[c]{@{}c@{}}ماشین فاکتورگیری ژرف\\ بعد بردارهای تعبیه = 10\\ تعداد لایهها = 3\\ تعداد نورونهای هر لایه = 20\end{tabular}} &
- {$72.27$} \\ \hline
- {\begin{tabular}[c]{@{}c@{}}ماشین فاکتورگیری ژرف\\ بعد بردارهای تعبیه = 10\\ تعداد لایهها = 3\\ تعداد نورونهای هر لایه = 100\end{tabular}} &
- {$73.00$} \\ \hline
- {\begin{tabular}[c]{@{}c@{}}ماشین فاکتورگیری ژرف\\ بعد بردارهای تعبیه = 10\\ تعداد لایهها = 3\\ تعداد نورونهای هر لایه = 400\end{tabular}} &
- {$73.44$} \\ \hline
- {\textbf{روش پیشنهادی}} &
- {\textbf{$74.13$}} \\ \hline
- \end{tabular}
- \end{center}
- \end{table}
-
- همان طور که از نتایج قابل مشاهده است، مدل پیشنهادی و ماشین فاکتورگیری ساده، عملکردی مناسب و نزدیک به هم ارائه کردهاند. این نکته قابل توجه است که ماشین فاکتورگیری ژرف، در مجموعه دادهی آوتبرین عملکرد مناسبی ندارد. این در حالی است که روش ژرف پیشنهادی، حتی با وجود تعداد بسیار کم ویژگیهای این مجموعه داده، میتواند عملکردی بسیار نزدیک به ماشین فاکتورگیری ساده (مدل غیر ژرف) ارائه کند. این نتیجه نشان میدهد روشهای تنظیم استفاده شده، عملکرد قابل قبولی داشته و جلوی بیشبرازش مدل پیشنهادی را گرفتهاند.
-
- \subsubsection{مجموعه دادهی کرایتیو-22}
- در جدول \ref{tbl:criteo22_results} نتایج مقایسهی روش پیشنهادی و ماشین فاکتورگیری ساده را، در مجموعه دادهی کرایتیو-22 مشاهده میکنید. لازم به ذکر است اجرای مدل ماشین فاکتورگیری ژرف در این مجموعه داده، به دلیل تعداد پارامترهای بسیار بالا قابل انجام نبوده و به ناچار، مقایسه در این مجموعه داده را تنها بین روش پیشنهادی و روش ماشین فاکتورگیری ساده انجام میدهیم.
- \begin{table}[!ht]
- \caption{مقایسهی نهایی عملکرد روی مجموعهی کرایتیو-22}
- \label{tbl:criteo22_results}
- %\begin{latin}
- \scriptsize
- \begin{center}
- \begin{tabular}{|c|c|c|c|c|} \hline
- {نام و جزئیات مدل} &
- {مساحت تحت منحنی (درصد)} &
- {دقت (درصد)} &
- {بازیابی (درصد)} &
- {اف 1 (درصد)} \\ \hline
- {\begin{tabular}[c]{@{}c@{}}ماشین فاکتورگیری ساده\\ بعد بردارهای تعبیه = 5\end{tabular}} &
- {\textbf{$75.41$}} &
- {$56.55$} &
- {$34.58$} &
- {$42.92$} \\ \hline
- {\begin{tabular}[c]{@{}c@{}}ماشین فاکتورگیری ساده\\ بعد بردارهای تعبیه = 10\\ \end{tabular}} &
- {$74.75$} &
- {$54.89$} &
- {$35.42$} &
- {$43.06$} \\ \hline
- {\begin{tabular}[c]{@{}c@{}}ماشین فاکتورگیری ساده\\ بعد بردارهای تعبیه = 40\\ \end{tabular}} &
- {$72.38$} &
- {$50.12$} &
- {$37.20$} &
- {$42.70$} \\ \hline
- {\begin{tabular}[c]{@{}c@{}}ماشین فاکتورگیری ساده\\ بعد بردارهای تعبیه = 100\\ \end{tabular}} &
- {$70.30$} &
- {$46.92$} &
- {$38.32$} &
- {$42.19$} \\ \hline
- {\textbf{روش پیشنهادی}} &
- {$76.08$} &
- {$43.07$} &
- {$70.39$} &
- {$53.44$} \\ \hline
- \end{tabular}
- \end{center}
- \end{table}
-
- نتایج این آزمایش نشان میدهد ماشین فاکتورگیری ساده، با افزایش بعد تعبیه، دچار مشکل بیشبرازش شده و عملکرد آن افت میکند. همچنین واضح است که روش پیشنهادی عملکرد بهتری را ارائه میکند.
-
- \subsubsection{مجموعه دادهی کرایتیو-21}
- در جدول \ref{tbl:criteo21_results} عملکرد روش پیشنهادی را با روشهای ماشین فاکتورگیری ساده و ماشین فاکتورگیری ژرف مقایسه میکنیم.
- \begin{table}[!ht]
- \caption{مقایسهی نهایی عملکرد روی مجموعهی کرایتیو-21}
- \label{tbl:criteo21_results}
- %\begin{latin}
- \scriptsize
- \begin{center}
- \begin{tabular}{|c|c|c|c|c|} \hline
- {نام و جزئیات مدل} &
- {مساحت تحت منحنی (درصد)} &
- {دقت (درصد)} &
- {بازیابی (درصد)} &
- {اف 1 (درصد)}
- \\ \hline
- {\begin{tabular}[c]{@{}c@{}}ماشین فاکتورگیری ساده\\ بعد بردارهای تعبیه = 5\end{tabular}} &
- {\textbf{$75.83$}} &
- {$58.77$} &
- {$31.73$} &
- {$41.21$} \\ \hline
- {\begin{tabular}[c]{@{}c@{}}ماشین فاکتورگیری ساده\\ بعد بردارهای تعبیه = 10\\ \end{tabular}} &
- {$75.49$} &
- {$57.75$} &
- {$32.49$} &
- {$41.59$} \\ \hline
- {\begin{tabular}[c]{@{}c@{}}ماشین فاکتورگیری ساده\\ بعد بردارهای تعبیه = 40\\ \end{tabular}} &
- {$73.68$} &
- {$53.60$} &
- {$34.40$} &
- {$41.91$} \\ \hline
- {\begin{tabular}[c]{@{}c@{}}ماشین فاکتورگیری ساده\\ بعد بردارهای تعبیه = 100\\ \end{tabular}} &
- {$71.71$} &
- {$50.14$} &
- {$35.08$} &
- {$41.28$} \\ \hline
- {\begin{tabular}[c]{@{}c@{}}ماشین فاکتورگیری ژرف\\ بعد بردارهای تعبیه = 10\\ تعداد لایهها = 3\\ تعداد نورونهای هر لایه = 20\end{tabular}} &
- {$74.85$} &
- {$32.71$} &
- {$91.81$} &
- {$48.23$} \\ \hline
- {\begin{tabular}[c]{@{}c@{}}ماشین فاکتورگیری ژرف\\ بعد بردارهای تعبیه = 10\\ تعداد لایهها = 3\\ تعداد نورونهای هر لایه = 100\end{tabular}} &
- {$76.01$} &
- {$38.16$} &
- {$82.51$} &
- {$52.18$} \\ \hline
- {\begin{tabular}[c]{@{}c@{}}ماشین فاکتورگیری ژرف\\ بعد بردارهای تعبیه = 10\\ تعداد لایهها = 3\\ تعداد نورونهای هر لایه = 400\end{tabular}} &
- {$76.24$} &
- {$42.21$} &
- {$73.34$} &
- {$53.58$} \\ \hline
- {\textbf{روش پیشنهادی}} &
- {\textbf{$76.70$}} &
- {$43.70$} &
- {$69.94$} &
- {$53.79$} \\ \hline
- \end{tabular}
- \end{center}
- \end{table}
-
- همانطور که از نتایج مشخص است، روش پیشنهادی در این مجموعه داده، عملکرد بهتری نسبت به ماشینهای فاکتورگیری ساده و ماشینهای فاکتورگیری ژرف به نمایش گذاشته است.
-
- \subsubsection{مجموعه دادهی کرایتیو-20}
- در جدول \ref{tbl:criteo20_results} عملکرد نهایی روش پیشنهادی را با روشهای ماشین فاکتورگیری ساده و ماشین فاکتورگیری ژرف بر روی مجموعه دادهی کرایتیو-20 مقایسه میکنیم.
-
- \begin{table}[!ht]
- \caption{مقایسهی نهایی عملکرد روی مجموعهی کرایتیو-20}
- \label{tbl:criteo20_results}
- %\begin{latin}
- \scriptsize
- \begin{center}
- \begin{tabular}{|c|c|c|c|c|} \hline
- {نام و جزئیات مدل} &
- {مساحت تحت منحنی (درصد)} &
- {دقت (درصد)} &
- {بازیابی (درصد)} &
- {اف 1 (درصد)} \\ \hline
- {\begin{tabular}[c]{@{}c@{}}ماشین فاکتورگیری ساده\\ بعد بردارهای تعبیه = 5\end{tabular}} &
- {\textbf{$75.57$}} &
- {$59.20$} &
- {$30.35$} &
- {$40.12$} \\ \hline
- {\begin{tabular}[c]{@{}c@{}}ماشین فاکتورگیری ساده\\ بعد بردارهای تعبیه = 10\\ \end{tabular}} &
- {$75.30$} &
- {$58.22$} &
- {$31.13$} &
- {$40.56$} \\ \hline
- {\begin{tabular}[c]{@{}c@{}}ماشین فاکتورگیری ساده\\ بعد بردارهای تعبیه = 40\\ \end{tabular}} &
- {$73.62$} &
- {$54.24$} &
- {$32.93$} &
- {$40.98$} \\ \hline
- {\begin{tabular}[c]{@{}c@{}}ماشین فاکتورگیری ساده\\ بعد بردارهای تعبیه = 100\\ \end{tabular}} &
- {$71.75$} &
- {$50.62$} &
- {$34.32$} &
- {$40.90$} \\ \hline
- {\begin{tabular}[c]{@{}c@{}}ماشین فاکتورگیری ژرف\\ بعد بردارهای تعبیه = 10\\ تعداد لایهها = 3\\ تعداد نورونهای هر لایه = 20\end{tabular}} &
- {$74.70$} &
- {$42.85$} &
- {$66.45$} &
- {$52.10$} \\ \hline
- {\begin{tabular}[c]{@{}c@{}}ماشین فاکتورگیری ژرف\\ بعد بردارهای تعبیه = 10\\ تعداد لایهها = 3\\ تعداد نورونهای هر لایه = 100\end{tabular}} &
- {$75.44$} &
- {$55.94$} &
- {$32.06$} &
- {$40.76$} \\ \hline
- {\begin{tabular}[c]{@{}c@{}}ماشین فاکتورگیری ژرف\\ بعد بردارهای تعبیه = 10\\ تعداد لایهها = 3\\ تعداد نورونهای هر لایه = 400\end{tabular}} &
- {$75.45$} &
- {$33.64$} &
- {$90.63$} &
- {$49.07$} \\ \hline
- {\textbf{روش پیشنهادی}} &
- {\textbf{$76.37$}} &
- {$42.76$} &
- {$68.61$} &
- {$53.44$} \\ \hline
- \end{tabular}
- \end{center}
- \end{table}
-
- همانطور که از نتایج قابل مشاهده است، مدل پیشنهادی در این مجموعه داده نیز عملکرد بهتری نشان داده و روشهای ماشین فاکتورگیری ساده و همچنین ماشین فاکتورگیری ژرف را پشت سر گذاشته است.
-
-
-
-
-
-
-
-
-
|