چندی پیش، فناوری آلفاگو از دیپمایند، از یادگیری تقویتی (نوعی از یادگیری ماشین که بر اساس مجازات و پاداش استوار است)، برای شکست دادن بهترین بازیکن Go در جهان، استفاده کرد؛ هرچند که هرگز با وی همبازی نشده بود.
به گزارش ایتنا به نقل از technologyreview، این فناوری وعده ظهور روباتهایی را میدهد که میتوانند تحت شرایط متغیر، به عملکرد خود ادامه دهند.
اما این تکنیک محدودیتهای خاص خودش را هم دارد؛ چرا که حرکات خود را خیلی آهسته بهبود میدهد. البته این مسأله در آزمایشگاه یا در هنگام بازی چندان جدی نیست؛ ولی در کاربردهایی همچون اتومبیلهای خودران، اصلاً مطلوب نیست.
گفتنی است پژوهشگران برای حذف نیاز به آموزش در جهان واقعی، راههای مختلفی توسعه دادهاند. برای مثال، یک خودرو میتواند از اطلاعات ترافیکی برای رانندگی مطمئن و ایمن در جهان واقعی استفاده کند. اما این راهکار کاملی نیست.
وقتی که یک ماشین در رویارویی با موقعیتهایی فراتر از حوزه دادههای آموزشی، ممکن است با خطاهای زیانباری روبرو شود. در یک نمونه، محققان دانشگاه نیویورک متوجه شدند که خودرو یاد گرفته است در حین حرکت، به یکباره ۹۰ درجه بچرخد؛ زیرا دادههای آموزشی آن، شامل انواع حالات و شرایط مختلف نبود.
همین گروه تحقیقاتی به همراه مدیر پژوهشهای هوش مصنوعی در فیسبوک، اکنون روش جدیدی را پیشنهاد دادهاند که میتواند بر این مشکل غلبه کند.
به گزارش ایتنا، آنها علاوه بر جریمه و پاداش خودرو در ازای رفتارهای مختلف، در صورتی که اتومبیل، خود در موقعیتهایی قرار دهد که برای آنها دادههای آموزشی کافی در اختیار ندارد، باز هم آن را جریمه میکنند.
بدینترتیب، خودرو به جای گردشهای بیمهابا و ویراژهایی که سبب میشوند در جاهای ناشناخته قرار بگیرد، با احتیاط بیشتری عمل خواهد کرد.
هنگامی که محققان رویکرد جدید خود را آزمایش کردند، متوجه شدند که در مقایسه با روشهای پیشین، خودرو با امنیت بیشتری میتواند در خیابانهای پرترافیک تردد کند؛ اما از آنجا که هنوز هم با مهارتهای رانندگی انسانها فاصله دارد، باید کارهای بیشتری روی بهبود آن صورت بگیرد.