سحقت منظمة العفو الدولية اثنين من الايجابيات البشرية في ستار كرافت - لكنها لم تكن معركة عادلة

DeepMind ، شركة بدء التشغيل AI التي استحوذت عليها Google في عام 2014 ، من المحتمل أن تشتهر بأنها أول منظمة العفو الدولية التي تفوقت على بطل عالمي في Go. إذن ، ماذا تفعل بعد إتقان إحدى أكثر ألعاب الألواح الصعبة في العالم؟ يمكنك معالجة لعبة فيديو معقدة. على وجه التحديد ، قرر DeepMind أن يكتب منظمة العفو الدولية للعب لعبة استراتيجية في الوقت الحقيقي ستار كرافت II.

ستار كرافت يتطلب من اللاعبين جمع الموارد وبناء العشرات من الوحدات العسكرية واستخدامها لمحاولة تدمير خصومهم. ستار كرافت يمثل تحديًا كبيرًا بالنسبة إلى الذكاء الاصطناعي لأن اللاعبين يجب عليهم تنفيذ خطط طويلة الأجل على مدار عدة دقائق من اللعب ، مما يجعلهم يقررون في مواجهة الهجمات المضادة للعدو. يقول DeepMind أنه قبل جهده الخاص ، لم يقترب أحد من تصميم ستار كرافت منظمة العفو الدولية جيدة مثل أفضل اللاعبين الإنسان.

يوم الخميس الماضي ، أعلن DeepMind طفرة كبيرة. حرضت شركة AI ، التي يطلق عليها AlphaStar ، ضد اثنين من كبار ستار كرافت لاعبين- داريو "TLO" وونش وغرزيغورز "مانا" Komincz. فاز AlphaStar بسلسلة من خمس مباريات ضد وونش 5-0 ، ثم فاز على Komincz 5-0 ، أيضًا.

قد يكون AlphaStar الأقوى ستار كرافت من أي وقت مضى خلق. لكن لم يكن هذا الإنجاز كبيرًا بقدر ما قد يبدو للوهلة الأولى لأنه لم يكن معركة عادلة تمامًا.

تم تدريب AlphaStar باستخدام "ما يصل إلى 200 عام" من اللعب الافتراضي

كتب DeepMind أن "سلوك AlphaStar يتم إنشاؤه بواسطة شبكة عصبية عميقة تتلقى بيانات الإدخال من واجهة اللعبة الخام (قائمة الوحدات وخصائصها) وتخرج سلسلة من الإرشادات التي تشكل إجراءً داخل اللعبة. وبشكل أكثر تحديدًا ، العصبية تطبق بنية الشبكة الجذع للمحول على الوحدات ، جنبًا إلى جنب مع جوهر LSTM عميق ، ورئيس سياسة التراجع التلقائي مع شبكة مؤشر ، وخط أساس قيمة مركزية. "

أنا شرطي لعدم فهم كامل ما يعنيه كل هذا. رفض DeepMind التحدث معي حول هذه القصة ، ولم يقم DeepMind بعد بإصدار ورقة مراجعة من قِبل النظراء تشرح بالضبط كيفية عمل AlphaStar. لكن DeepMind تشرح بشيء من التفصيل كيف تدربت على ما هو افتراضي ستار كرافت اللاعبين للحصول على أفضل مع مرور الوقت.

بدأت العملية باستخدام التعلم الخاضع للإشراف لمساعدة الوكلاء على تعلم تقليد استراتيجيات اللاعبين البشر. كانت هذه التقنية التعلم التعزيز كافية لبناء المختصة ستار كرافت II بوت. يقول DeepMind أن هذا العامل الأولي "هزم مستوى الذهب المدمج في مستوى النخبة AI - حول لاعب بشري في 95 ٪ من الألعاب."

بعد ذلك ، قام DeepMind بتفرع AI الأولي إلى أشكال متعددة ، ولكل منها أسلوب لعب مختلف قليلاً. تم طرح كل هؤلاء الوكلاء في شكل افتراضي ستار كرافت الدوري ، مع كل عميل يلعب الآخرين على مدار الساعة ، والتعلم من أخطائهم ، وتطوير استراتيجياتها مع مرور الوقت.

"لتشجيع التنوع في الدوري ، يكون لكل وكيل هدفه التعليمي الخاص: على سبيل المثال ، أي المنافسين يجب أن يهدف هذا الوكيل إلى التغلب عليه ، وأي دوافع داخلية إضافية تحيز كيف يلعب الوكيل" ، كتب DeepMind. "قد يكون لدى وكيل ما هدف للتغلب على منافس محدد ، بينما قد يضطر وكيل آخر للتغلب على مجموعة كاملة من المنافسين ، ولكن القيام بذلك عن طريق بناء المزيد من وحدة ألعاب معينة."

وفقًا لـ DeepMind ، حصل بعض الوكلاء على ما يعادل 200 عام من اللعب التدريبي ستار كرافت ضد عملاء آخرين. خلال فترة أسبوعين ، حسنت هذه العملية الداروينية من متوسط ​​مهارة الوكلاء بشكل كبير:

في نهاية هذه العملية ، اختار DeepMind خمسة من أقوى الوكلاء من قائمة المنابر الافتراضية لمواجهتها بمنافسات AlphaStar البشرية. وكانت إحدى نتائج هذا النهج أن اللاعبين الإنسانين واجهوا استراتيجية معارضة مختلفة في كل لعبة لعبوها ضد AlphaStar.

كان لدى AlphaStar ميزة غير عادلة في الألعاب الأولية

في الأسبوع الماضي ، دعا DeepMind اثنين من المحترفين ستار كرافت للاعبين والمذيعين تقديم تعليق أثناء إعادة عرض بعض من ألعاب AlphaStar العشرة ضد Wünsch و Komincz. لقد أذهل المعلقون قدرات AlphaStar "الدقيقة" - القدرة على اتخاذ قرارات تكتيكية سريعة في خضم المعركة.

كانت هذه القدرة أكثر وضوحًا في اللعبة 4 من سلسلة AlphaStar ضد Komincz. كان Komincz أقوى لاعبين بشريين واجههما AlphaStar ، وكانت Game 4 هي الأقرب التي حققها Komincz خلال سلسلة المباريات الخمس. حرضت المعركة المناخية للعبة جيش Komincz يتكون من عدة أنواع مختلفة من الوحدات (معظمها خالدون ، Archons ، و Zealots) ضد جيش AlphaStar يتكون بالكامل من الملاحقون.

لا يمتلك الملاحقون أسلحة وأسلحة قوية بشكل خاص ، لذلك سيخسرون بشكل عام ضد الخالدون والأرتشون في معركة مباشرة. لكن الملاحقون يتحركون بسرعة ، ولديهم قدرة تسمى "وميض" تتيح لهم النقل عن بعد لمسافة قصيرة.

خلق ذلك فرصة لـ AlphaStar: يمكن أن يهاجم مع مجموعة كبيرة من الملاحقون ، ويتسبب في إصابة الصف الأول من الملاحقون ببعض الأضرار ، ثم يرمشهم في مؤخرة الجيش قبل أن يقتلوا. تم إعادة شحن دروع Stalker تدريجياً ، لذلك من خلال تناوب قواتها بشكل مستمر ، تمكنت AlphaStar من إحداث الكثير من الأضرار للعدو بينما خسرت القليل جدًا من وحداتها.

الجانب السلبي لهذا النهج هو أنه يتطلب اهتمام اللاعب المستمر. يحتاج اللاعب إلى مراقبة صحة Stalkers لمعرفة أي منها يحتاج إلى وميض. ويمكن أن تصبح صعبة ، لأن ستار كرافت غالبًا ما يكون لدى اللاعب الكثير من الأشياء الأخرى على لوحته ، فهو بحاجة إلى القلق بشأن بناء وحدات جديدة في قاعدته ، والبحث عن قواعد العدو ، ومشاهدة هجمات العدو ، وما إلى ذلك.

تعجب المعلقون الذين يشاهدون معركة Game 4 ذروتها بين AlphaStar و Komincz في قدرات AlphaStar الصغيرة.

وقال المعلق دان ستيمكوسكي "ما زلنا نرى AlphaStar يفعلون تلك الخدعة التي تتحدثون عنها". سوف AlphaStar مهاجمة وحدات Komincz و "ثم وميض بعيدا" قبل اتخاذ ضرر كبير. وأضاف "أشعر أن معظم المحترفين كانوا سيخسرون كل هؤلاء الملاحقون الآن".

كان أداء AlphaStar مثيرًا للإعجاب ، لأنه في بعض النقاط كان يستخدم هذا التكتيك مع مجموعات متعددة من الملاحقون في مواقع مختلفة.

"من الصعب للغاية القيام بذلك في لعبة ستار كرافت IIوقال المعلق كيفن "RotterdaM" van der Kooi "وحدات صغيرة في الجانب الجنوبي من شاشتك ، ولكن في الوقت نفسه عليك أيضًا القيام بذلك على الجانب الشمالي. هذا تحكم جيد جدًا."

وأضاف Stemkoski: "الشيء المثير للصدمة حقًا هو أننا تابعنا الإجراءات في الدقيقة ، وهذا ليس بالشيء العالي حقًا". "إنه مستوى مقبول مقبول للسرعة من AlphaStar."

أنتجت DeepMind رسمًا يوضح هذه النقطة:

كما يوضح هذا المخطط ، أعلى ستار كرافت يمكن للاعبين إصدار تعليمات إلى وحداتهم بسرعة كبيرة. بلغ متوسط ​​معدل اللاعب Grzegorz "MaNa" Komincz 390 نشاط في الدقيقة (أكثر من ستة إجراءات في الثانية!) على مدار مبارياته ضد AlphaStar. لكن بالطبع ، يمكن لبرنامج الكمبيوتر أن يصدر بسهولة آلاف الإجراءات في الدقيقة ، مما يسمح له بممارسة مستوى من السيطرة على وحداته التي لا يمكن لأي لاعب بشري أن يضاهيها.

شاهد الفيديو: العفو الدولية: السلطات السعودية تستخدم عقوبة الإعدام كأداة لسحق المعارضة (أبريل 2020).