EITC/AI/ARL Advanced Reinforcement Learning เป็นโปรแกรมการรับรองด้าน IT ของยุโรปเกี่ยวกับแนวทางของ DeepMind ในการเรียนรู้การเสริมแรงด้วยปัญญาประดิษฐ์
หลักสูตรของ EITC/AI/ARL Advanced Reinforcement Learning มุ่งเน้นไปที่แง่มุมทางทฤษฎีและทักษะการปฏิบัติในเทคนิคการเรียนรู้การเสริมแรงจากมุมมองของ DeepMind ซึ่งจัดอยู่ในโครงสร้างต่อไปนี้ โดยครอบคลุมเนื้อหาการสอนวิดีโอที่ครอบคลุมเพื่อเป็นข้อมูลอ้างอิงสำหรับการรับรอง EITC นี้
Reinforcement learning (RL) เป็นพื้นที่ของการเรียนรู้ของเครื่องที่เกี่ยวข้องกับวิธีที่ตัวแทนอัจฉริยะควรดำเนินการในสภาพแวดล้อมเพื่อเพิ่มแนวคิดของรางวัลสะสม การเรียนรู้แบบเสริมกำลังเป็นหนึ่งในสามกระบวนทัศน์การเรียนรู้ของเครื่องขั้นพื้นฐานควบคู่ไปกับการเรียนรู้ภายใต้การดูแลและการเรียนรู้ที่ไม่มีผู้ดูแล
การเรียนรู้แบบเสริมกำลังแตกต่างจากการเรียนรู้ภายใต้การดูแลโดยไม่จำเป็นต้องนำเสนอคู่อินพุต/เอาต์พุตที่มีป้ายกำกับและไม่จำเป็นต้องมีการดำเนินการย่อยที่เหมาะสมเพื่อแก้ไขอย่างชัดเจน แทนที่จะมุ่งเน้นไปที่การหาจุดสมดุลระหว่างการสำรวจ (ของดินแดนที่ไม่จดที่แผนที่) และการแสวงหาผลประโยชน์ (ของความรู้ปัจจุบัน)
โดยทั่วไปสภาพแวดล้อมจะระบุไว้ในรูปแบบของกระบวนการตัดสินใจของ Markov (MDP) เนื่องจากอัลกอริธึมการเรียนรู้การเสริมแรงจำนวนมากสำหรับบริบทนี้ใช้เทคนิคการเขียนโปรแกรมแบบไดนามิก ความแตกต่างที่สำคัญระหว่างวิธีการเขียนโปรแกรมแบบไดนามิกแบบคลาสสิกและอัลกอริธึมการเรียนรู้แบบเสริมกำลังคือวิธีหลังไม่ถือว่ามีความรู้เกี่ยวกับแบบจำลองทางคณิตศาสตร์ที่แน่นอนของ MDP และกำหนดเป้าหมายไปที่ MDP ขนาดใหญ่ซึ่งวิธีการที่แน่นอนไม่สามารถทำได้
เนื่องจากลักษณะทั่วไปการเรียนรู้แบบเสริมกำลังจึงได้รับการศึกษาในหลายสาขาวิชาเช่นทฤษฎีเกมทฤษฎีการควบคุมการวิจัยปฏิบัติการทฤษฎีข้อมูลการเพิ่มประสิทธิภาพตามการจำลองระบบหลายตัวแทนหน่วยสืบราชการลับและสถิติ ในวรรณคดีการวิจัยและการควบคุมการดำเนินงานการเรียนรู้แบบเสริมกำลังเรียกว่าการเขียนโปรแกรมแบบไดนามิกโดยประมาณหรือการเขียนโปรแกรมแบบไดนามิก นอกจากนี้ยังมีการศึกษาปัญหาที่น่าสนใจในการเรียนรู้แบบเสริมแรงในทฤษฎีการควบคุมที่เหมาะสมซึ่งส่วนใหญ่เกี่ยวข้องกับการดำรงอยู่และลักษณะของการแก้ปัญหาที่เหมาะสมและอัลกอริทึมสำหรับการคำนวณที่แน่นอนและน้อยกว่าเมื่อเรียนรู้หรือประมาณโดยเฉพาะอย่างยิ่งในกรณีที่ไม่มี แบบจำลองทางคณิตศาสตร์ของสภาพแวดล้อม ในทางเศรษฐศาสตร์และทฤษฎีเกมอาจใช้การเรียนรู้แบบเสริมแรงเพื่ออธิบายว่าดุลยภาพอาจเกิดขึ้นได้อย่างไรภายใต้เหตุผลที่มีขอบเขต
การเสริมแรงขั้นพื้นฐานถูกจำลองเป็นกระบวนการตัดสินใจของ Markov (MDP) ในทางคณิตศาสตร์กระบวนการตัดสินใจของ Markov (MDP) เป็นกระบวนการควบคุมสุ่มเวลาที่ไม่ต่อเนื่อง เป็นกรอบทางคณิตศาสตร์สำหรับการสร้างแบบจำลองการตัดสินใจในสถานการณ์ที่ผลลัพธ์เป็นแบบสุ่มบางส่วนและบางส่วนอยู่ภายใต้การควบคุมของผู้มีอำนาจตัดสินใจ MDP มีประโยชน์สำหรับการศึกษาปัญหาการเพิ่มประสิทธิภาพที่แก้ไขผ่านการเขียนโปรแกรมแบบไดนามิก MDP เป็นที่รู้จักอย่างน้อยก็ในช่วงปี 1950 เนื้อหาหลักของการวิจัยเกี่ยวกับกระบวนการตัดสินใจของ Markov เป็นผลมาจากหนังสือปี 1960 ของ Ronald Howard เรื่อง Dynamic Programming และ Markov Processes ใช้ในหลายสาขาวิชารวมถึงหุ่นยนต์การควบคุมอัตโนมัติเศรษฐศาสตร์และการผลิต ชื่อของ MDP มาจากนักคณิตศาสตร์ชาวรัสเซีย Andrey Markov เนื่องจากเป็นส่วนขยายของเครือข่าย Markov
ในแต่ละขั้นตอนกระบวนการจะอยู่ในสถานะ S และผู้มีอำนาจตัดสินใจอาจเลือกการกระทำใด ๆ ที่มีอยู่ในสถานะ S กระบวนการตอบสนองในขั้นตอนถัดไปโดยการสุ่มย้ายไปยังสถานะใหม่ S 'และให้ ผู้ตัดสินใจได้รับรางวัลที่เกี่ยวข้อง Ra (S, S ')
ความน่าจะเป็นที่กระบวนการเคลื่อนเข้าสู่สถานะใหม่ S 'ได้รับอิทธิพลจากการกระทำที่เลือก a. โดยเฉพาะมันถูกกำหนดโดยฟังก์ชันการเปลี่ยนสถานะ Pa (S, S ') ดังนั้นสถานะถัดไป S 'จึงขึ้นอยู่กับสถานะปัจจุบัน S และการกระทำของผู้มีอำนาจตัดสินใจ a. แต่เมื่อกำหนด S และ a จะไม่ขึ้นอยู่กับสถานะและการกระทำก่อนหน้านี้ทั้งหมด กล่าวอีกนัยหนึ่งการเปลี่ยนสถานะของ MDP เป็นไปตามคุณสมบัติของ Markov
กระบวนการตัดสินใจของ Markov เป็นส่วนเสริมของเครือข่าย Markov ความแตกต่างคือการเพิ่มการกระทำ (ให้ทางเลือก) และรางวัล (ให้แรงจูงใจ) ในทางกลับกันหากมีเพียงการกระทำเดียวสำหรับแต่ละรัฐ (เช่น“ รอ”) และรางวัลทั้งหมดเหมือนกัน (เช่น“ ศูนย์”) กระบวนการตัดสินใจของ Markov จะลดลงเป็นห่วงโซ่ของ Markov
ตัวแทนการเรียนรู้แบบเสริมกำลังโต้ตอบกับสภาพแวดล้อมในขั้นตอนเวลาที่ไม่ต่อเนื่อง ในแต่ละครั้ง t ตัวแทนจะได้รับสถานะปัจจุบัน S (t) และรางวัล r (t) จากนั้นเลือกการกระทำ a (t) จากชุดของการดำเนินการที่มีอยู่ซึ่งจะถูกส่งไปยังสภาพแวดล้อมในภายหลัง สภาพแวดล้อมจะย้ายไปสู่สถานะใหม่ S (t + 1) และจะกำหนดรางวัล r (t + 1) ที่เกี่ยวข้องกับการเปลี่ยนแปลง เป้าหมายของตัวแทนการเรียนรู้แบบเสริมกำลังคือการเรียนรู้นโยบายที่เพิ่มผลตอบแทนสะสมที่คาดหวังให้ได้สูงสุด
การกำหนดปัญหาในฐานะ MDP จะถือว่าตัวแทนสังเกตสภาพแวดล้อมปัจจุบันโดยตรง ในกรณีนี้ปัญหากล่าวว่ามีความสามารถในการสังเกตได้ทั้งหมด หากตัวแทนสามารถเข้าถึงเฉพาะบางส่วนของสถานะหรือหากสถานะที่สังเกตได้รับความเสียหายจากสัญญาณรบกวนตัวแทนจะถูกกล่าวว่ามีความสามารถในการสังเกตได้บางส่วนและปัญหาอย่างเป็นทางการจะต้องถูกกำหนดให้เป็นกระบวนการตัดสินใจของ Markov ที่สังเกตได้บางส่วน ในทั้งสองกรณีชุดของการดำเนินการที่มีให้กับตัวแทนสามารถถูก จำกัด ได้ ตัวอย่างเช่นสถานะของยอดคงเหลือในบัญชีอาจถูก จำกัด ให้เป็นค่าบวก ถ้าค่าปัจจุบันของสถานะคือ 3 และการเปลี่ยนสถานะพยายามลดค่าลง 4 จะไม่อนุญาตให้เปลี่ยน
เมื่อเปรียบเทียบประสิทธิภาพของตัวแทนกับตัวแทนที่ทำหน้าที่อย่างเหมาะสมที่สุดความแตกต่างของประสิทธิภาพจะก่อให้เกิดความรู้สึกเสียใจ เพื่อที่จะดำเนินการอย่างเหมาะสมที่สุดตัวแทนจะต้องให้เหตุผลเกี่ยวกับผลที่ตามมาในระยะยาวของการกระทำ (เช่นเพิ่มรายได้ในอนาคตให้สูงสุด) แม้ว่ารางวัลทันทีที่เกี่ยวข้องกับสิ่งนี้อาจเป็นลบก็ตาม
ดังนั้นการเรียนรู้แบบเสริมกำลังจึงเหมาะอย่างยิ่งกับปัญหาที่รวมถึงการแลกเปลี่ยนผลตอบแทนในระยะยาวกับระยะสั้น มันถูกนำไปใช้กับปัญหาต่างๆได้สำเร็จรวมถึงการควบคุมหุ่นยนต์การตั้งเวลาลิฟต์การสื่อสารโทรคมนาคมแบ็คแกมมอนตัวตรวจสอบและ Go (AlphaGo)
องค์ประกอบสองอย่างทำให้การเรียนรู้แบบเสริมกำลังมีประสิทธิภาพ: การใช้ตัวอย่างเพื่อเพิ่มประสิทธิภาพและการใช้การประมาณฟังก์ชันเพื่อจัดการกับสภาพแวดล้อมขนาดใหญ่ ด้วยองค์ประกอบหลักทั้งสองนี้การเรียนรู้แบบเสริมกำลังสามารถใช้ในสภาพแวดล้อมขนาดใหญ่ในสถานการณ์ต่อไปนี้:
- เป็นที่รู้จักแบบจำลองของสภาพแวดล้อม แต่ไม่มีโซลูชันการวิเคราะห์
- ได้รับเฉพาะโมเดลจำลองของสภาพแวดล้อมเท่านั้น (เรื่องของการเพิ่มประสิทธิภาพตามการจำลอง)
- วิธีเดียวที่จะรวบรวมข้อมูลเกี่ยวกับสิ่งแวดล้อมคือการโต้ตอบกับสิ่งนั้น
ปัญหาสองข้อแรกนี้ถือได้ว่าเป็นปัญหาในการวางแผน (เนื่องจากมีรูปแบบบางรูปแบบ) ในขณะที่ปัญหาสุดท้ายอาจถือได้ว่าเป็นปัญหาการเรียนรู้ที่แท้จริง อย่างไรก็ตามการเรียนรู้แบบเสริมแรงจะแปลงทั้งปัญหาการวางแผนเป็นปัญหาการเรียนรู้ของเครื่อง
การสำรวจและการแลกเปลี่ยนการแสวงหาผลประโยชน์ได้รับการศึกษาอย่างละเอียดถี่ถ้วนที่สุดผ่านปัญหากลุ่มโจรหลายอาวุธและสำหรับ MDP ในพื้นที่ จำกัด ใน Burnetas และ Katehakis (1997)
การเรียนรู้แบบเสริมกำลังต้องการกลไกการสำรวจที่ชาญฉลาด การสุ่มเลือกการกระทำโดยไม่อ้างอิงถึงการแจกแจงความน่าจะเป็นโดยประมาณแสดงให้เห็นถึงประสิทธิภาพที่ไม่ดี กรณีของกระบวนการตัดสินใจของ Markov ที่ จำกัด (เล็ก) ค่อนข้างเข้าใจดี อย่างไรก็ตามเนื่องจากไม่มีอัลกอริธึมที่ปรับขนาดได้ดีกับจำนวนสถานะ (หรือปรับขนาดเป็นปัญหาเกี่ยวกับช่องว่างสถานะที่ไม่มีที่สิ้นสุด) วิธีการสำรวจอย่างง่ายจึงเป็นวิธีที่ใช้ได้จริงที่สุด
แม้ว่าประเด็นของการสำรวจจะถูกมองข้ามไปและแม้ว่ารัฐจะสามารถสังเกตได้ แต่ปัญหาก็ยังคงใช้ประสบการณ์ในอดีตเพื่อค้นหาว่าการกระทำใดที่นำไปสู่รางวัลสะสมที่สูงขึ้น
หากต้องการทราบรายละเอียดเกี่ยวกับหลักสูตรการรับรอง คุณสามารถขยายและวิเคราะห์ตารางด้านล่างได้
หลักสูตรการรับรองการเรียนรู้การเสริมแรงขั้นสูงของ EITC/AI/ARL อ้างอิงเนื้อหาการสอนแบบเปิดในรูปแบบวิดีโอ กระบวนการเรียนรู้แบ่งออกเป็นโครงสร้างทีละขั้นตอน (โปรแกรม -> บทเรียน -> หัวข้อ) ครอบคลุมส่วนต่างๆ ของหลักสูตรที่เกี่ยวข้อง นอกจากนี้ยังมีการให้คำปรึกษาอย่างไม่จำกัดกับผู้เชี่ยวชาญด้านโดเมนอีกด้วย
สำหรับรายละเอียดการตรวจสอบขั้นตอนการรับรอง มันทำงานอย่างไร.
แหล่งข้อมูลอ้างอิงหลักสูตร
การควบคุมระดับมนุษย์ผ่านสิ่งพิมพ์ Deep Reinforcement Learning
https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning
หลักสูตรแบบเปิดสำหรับการเรียนรู้แบบเสริมแรงที่ UC Berkeley
http://rail.eecs.berkeley.edu/deeprlcourse/
RL ใช้กับปัญหา K-armbed bandit จาก Manifold.ai
https://www.manifold.ai/exploration-vs-exploitation-in-reinforcement-learning
ดาวน์โหลดเอกสารเตรียมการเรียนรู้ด้วยตนเองแบบออฟไลน์ฉบับสมบูรณ์สำหรับโปรแกรมการเรียนรู้การเสริมกำลังขั้นสูงของ EITC/AI/ARL ในรูปแบบไฟล์ PDF
เอกสารการเตรียมการ EITC/AI/ARL – เวอร์ชันมาตรฐาน
เอกสารการเตรียมการ EITC/AI/ARL – เวอร์ชันขยายพร้อมคำถามทบทวน