با سلام،
موضوعات بسیار جالب و کاربردی ای هستند.
در مورد سیستم های چند عامله که با تعدادی عامل مستقل از یکدیگر روبرو هستیم که می خواهند با همکاری یکدیگر به یک هدف مشخص برسند.که مستقل بودن عامل ها چالشی است برای رسیدن به همکاری. هر یک از عامل ها می توانند دارای سنسور ها و توانایی انجام کار های مختلفی باشند. مثلا بتوانند بشنوند یا توانایی حرف زدن داشته باشند و همچنین بتوانند حرکت کنند و... ، ما با استفاده از این امکانات تلاش می کنیم که یک همکاری بین عامل ها ایجاد کنیم تا به هدف برسیم.
یادگیری تقویتی نیز یکی از زیر شاخه های یادگیری ماشین هست و بر پایه پاداش و جزا می باشد. یعنی خود عامل رفته رفته یاد می گیرد که به چه کارهایی باید اولویت دهد. اینکه خود عامل یاد میگیرد که چه کاری انجام دهد در بعضی محیط ها بسیار مفید تر از این است که ما از قبل به عامل بگوییم چه کاری انجام دهد. از معایب یادگیری تقویتی نیز دیر به جواب رسیدن در محیط های پیچیده یا حتی ساده است.
پیشنهاد می گردد که در یکی از شاخه های روبوکاپ مانند شبیه سازی فوتبال دو بعدی کار کنید که یک لیگ استاندارد در سطح جهانی در زمینه روباتیک است و بر پایه سیستم های چند عامله و غیر قطعی، که نه تنها به عنوان یک کار تئوریک، بلکه می توانید تکنیک های مختلف هوش مصنوعی از جمله یادگیری تقویتی را روی آن پیاده سازی کنید و نتایج کار خود را مشاهده و لذت ببرید
برای اطلاعات بیشتر در زمینه شبیه سازی دو بعدی و سیستم های چند عامله در اینترنت جستجو کنید.
یک فایل پاور پوینت در زمینه یادگیری تقویتی پیوست گردید که مطالبش بسیار مفید است.
موفق باشید.