การใช้ขั้นตอนการเรียนรู้ของเครื่องทั้ง 7 ขั้นตอนช่วยให้พัฒนาโมเดลการเรียนรู้ของเครื่องได้อย่างเป็นระบบ ซึ่งช่วยให้สามารถปฏิบัติตามกระบวนการอย่างเป็นระบบได้ตั้งแต่การกำหนดปัญหาไปจนถึงการใช้งานจริง กรอบงานนี้มีประโยชน์สำหรับทั้งผู้เริ่มต้นและผู้ปฏิบัติงานที่มีประสบการณ์ เนื่องจากช่วยจัดระเบียบเวิร์กโฟลว์และทำให้มั่นใจว่าไม่มีขั้นตอนสำคัญใดถูกมองข้าม ในที่นี้ ฉันจะอธิบายขั้นตอนเหล่านี้ในบริบทของตัวอย่างเชิงปฏิบัติ: การคาดการณ์ราคาที่อยู่อาศัยโดยใช้เครื่องมือการเรียนรู้ของเครื่อง Google Cloud
ขั้นตอนที่ 1: กำหนดปัญหา
ขั้นตอนเริ่มต้นในโครงการการเรียนรู้ของเครื่องคือการกำหนดปัญหาที่คุณต้องการแก้ไขอย่างชัดเจน ซึ่งเกี่ยวข้องกับการทำความเข้าใจปัญหาทางธุรกิจหรือปัญหาในทางปฏิบัติและแปลปัญหาเหล่านั้นเป็นปัญหาการเรียนรู้ของเครื่อง ในตัวอย่างของเรา ปัญหาทางธุรกิจคือการคาดการณ์ราคาบ้านในภูมิภาคใดภูมิภาคหนึ่งเพื่อช่วยให้ตัวแทนอสังหาริมทรัพย์และผู้ซื้อที่มีศักยภาพสามารถตัดสินใจได้อย่างรอบรู้ ปัญหาการเรียนรู้ของเครื่องสามารถกำหนดกรอบเป็นปัญหาการถดถอยแบบมีผู้ดูแลซึ่งมีเป้าหมายเพื่อคาดการณ์ตัวแปรเป้าหมายอย่างต่อเนื่อง ซึ่งก็คือราคาบ้าน โดยอิงจากคุณลักษณะต่างๆ เช่น ที่ตั้ง ขนาด จำนวนห้องนอน และคุณลักษณะที่เกี่ยวข้องอื่นๆ
ขั้นตอนที่ 2: รวบรวมและจัดเตรียมข้อมูล
การรวบรวมและเตรียมข้อมูลเป็นขั้นตอนสำคัญที่เกี่ยวข้องกับการรวบรวมข้อมูลที่เกี่ยวข้องที่สามารถนำมาใช้ในการฝึกโมเดลได้ ในตัวอย่างการคาดการณ์ราคาที่อยู่อาศัยของเรา ข้อมูลอาจรวบรวมได้จากรายการอสังหาริมทรัพย์ บันทึกสาธารณะ หรือฐานข้อมูลที่อยู่อาศัย ชุดข้อมูลควรมีคุณลักษณะต่างๆ ที่เชื่อว่าจะส่งผลต่อราคาบ้าน เช่น พื้นที่เป็นตารางฟุต จำนวนห้องนอนและห้องน้ำ ระดับของละแวกใกล้เคียง ความใกล้ชิดกับสิ่งอำนวยความสะดวก และข้อมูลการขายในอดีต
เมื่อรวบรวมข้อมูลแล้ว จำเป็นต้องประมวลผลข้อมูลล่วงหน้า ซึ่งเกี่ยวข้องกับการทำความสะอาดข้อมูลโดยจัดการค่าที่ขาดหายไป ลบค่าซ้ำซ้อน และแก้ไขความไม่สอดคล้องกัน ตัวอย่างเช่น ค่าที่ขาดหายไปในชุดข้อมูลอาจถูกใส่เข้าไปโดยใช้วิธีทางสถิติหรือความรู้เกี่ยวกับโดเมน นอกจากนี้ ตัวแปรเชิงหมวดหมู่ เช่น ชื่อละแวกใกล้เคียง อาจต้องเข้ารหัสเป็นรูปแบบตัวเลขโดยใช้เทคนิค เช่น การเข้ารหัสแบบ one-hot
ขั้นตอนที่ 3: เลือกรุ่น
การเลือกแบบจำลองนั้นขึ้นอยู่กับประเภทของปัญหาและลักษณะของข้อมูล สำหรับปัญหาการถดถอย เช่น การคาดการณ์ราคาที่อยู่อาศัย อาจพิจารณาใช้แบบจำลอง เช่น การถดถอยเชิงเส้น ต้นไม้การตัดสินใจ หรืออัลกอริทึมที่ซับซ้อนกว่า เช่น ป่าสุ่มและเครื่องเร่งความชัน ใน Google Cloud Machine Learning คุณสามารถเข้าถึง TensorFlow และไลบรารีอื่นๆ ที่ช่วยอำนวยความสะดวกในการนำแบบจำลองเหล่านี้ไปใช้
แบบจำลองการถดถอยเชิงเส้นแบบง่ายสามารถใช้เป็นข้อมูลอ้างอิงได้ อย่างไรก็ตาม เนื่องจากข้อมูลในโลกแห่งความเป็นจริงมีความซับซ้อนและไม่เป็นเชิงเส้น ดังนั้น แบบจำลองที่ซับซ้อนกว่า เช่น XGBoost หรือ DNNRegressor ของ TensorFlow อาจเหมาะสมกว่า การเลือกแบบจำลองควรพิจารณาจากประสิทธิภาพในชุดข้อมูลการตรวจสอบความถูกต้องและความสามารถในการสรุปผลข้อมูลที่ไม่ปรากฏให้เห็นอย่างชัดเจน
ขั้นตอนที่ 4: ฝึกโมเดล
การฝึกโมเดลเกี่ยวข้องกับการป้อนข้อมูลที่เตรียมไว้ลงในอัลกอริทึมที่เลือกเพื่อเรียนรู้รูปแบบพื้นฐาน ขั้นตอนนี้ต้องแยกข้อมูลออกเป็นชุดฝึกและชุดตรวจสอบ ซึ่งช่วยให้โมเดลสามารถเรียนรู้จากชุดย่อยชุดหนึ่งและประเมินผลในอีกชุดหนึ่งได้ ใน Google Cloud สิ่งนี้สามารถจัดการได้อย่างมีประสิทธิภาพโดยใช้บริการต่างๆ เช่น Google Cloud AI Platform ซึ่งจัดเตรียมทรัพยากรที่ปรับขนาดได้สำหรับการฝึกโมเดล
ระหว่างการฝึก อาจจำเป็นต้องปรับไฮเปอร์พารามิเตอร์ของแบบจำลองเพื่อเพิ่มประสิทธิภาพการทำงาน ตัวอย่างเช่น ในแบบจำลองต้นไม้การตัดสินใจ พารามิเตอร์ เช่น ความลึกของต้นไม้และจำนวนตัวอย่างขั้นต่ำที่จำเป็นในการแยกโหนดอาจส่งผลกระทบอย่างมีนัยสำคัญต่อความแม่นยำและความสามารถในการสรุปทั่วไปของแบบจำลอง เทคนิคเช่น การค้นหากริดหรือการค้นหาแบบสุ่มสามารถนำมาใช้เพื่อค้นหาการตั้งค่าไฮเปอร์พารามิเตอร์ที่เหมาะสมที่สุด
ขั้นตอนที่ 5: ประเมินแบบจำลอง
การประเมินเป็นขั้นตอนสำคัญในการประเมินประสิทธิภาพของโมเดลที่ผ่านการฝึกอบรม ซึ่งเกี่ยวข้องกับการใช้เมตริกที่เหมาะสมกับประเภทของปัญหา สำหรับปัญหาการถดถอย เมตริกทั่วไป ได้แก่ ข้อผิดพลาดสัมบูรณ์เฉลี่ย (MAE) ข้อผิดพลาดกำลังสองเฉลี่ย (MSE) และข้อผิดพลาดรากที่สองเฉลี่ย (RMSE) เมตริกเหล่านี้ให้ข้อมูลเชิงลึกเกี่ยวกับความแม่นยำของโมเดลและขอบเขตของข้อผิดพลาดในการทำนาย
ในตัวอย่างการคาดการณ์ราคาที่อยู่อาศัยของเรา หลังจากฝึกโมเดลแล้ว จะมีการประเมินโมเดลบนชุดการตรวจสอบเพื่อให้แน่ใจว่าโมเดลทำงานได้ดีกับข้อมูลที่ไม่เคยเห็นมาก่อน แพลตฟอร์ม AI ของ Google Cloud มอบเครื่องมือสำหรับติดตามเมตริกเหล่านี้และแสดงภาพประสิทธิภาพของโมเดล ซึ่งช่วยในการทำความเข้าใจว่าโมเดลน่าจะทำงานได้ดีเพียงใดในสถานการณ์จริง
ขั้นตอนที่ 6: ปรับแต่งโมเดล
การปรับแต่งแบบจำลองเป็นกระบวนการแบบวนซ้ำที่มุ่งเป้าไปที่การปรับปรุงประสิทธิภาพของแบบจำลอง ขั้นตอนนี้อาจเกี่ยวข้องกับการปรับไฮเปอร์พารามิเตอร์ การลองใช้อัลกอริทึมที่แตกต่างกัน หรือการปรับเปลี่ยนชุดคุณลักษณะ ตัวอย่างเช่น หากแบบจำลองเริ่มต้นทำงานได้ไม่น่าพอใจ วิศวกรรมคุณลักษณะอาจต้องถูกนำมาพิจารณาใหม่เพื่อรวมเงื่อนไขการโต้ตอบหรือคุณลักษณะพหุนามที่จับความสัมพันธ์ที่ไม่เป็นเชิงเส้น
ใน Google Cloud การปรับแต่งไฮเปอร์พารามิเตอร์สามารถทำได้โดยอัตโนมัติโดยใช้ฟีเจอร์การปรับแต่งไฮเปอร์พารามิเตอร์ของ Cloud AI Platform ซึ่งจะค้นหาพื้นที่ไฮเปอร์พารามิเตอร์อย่างมีประสิทธิภาพเพื่อค้นหาการผสมผสานที่ดีที่สุดสำหรับแบบจำลอง ซึ่งสามารถปรับปรุงประสิทธิภาพของแบบจำลองได้อย่างมากโดยไม่ต้องดำเนินการด้วยตนเอง
ขั้นตอนที่ 7: ปรับใช้โมเดล
การปรับใช้ทำให้โมเดลที่ผ่านการฝึกอบรมพร้อมใช้งานในแอปพลิเคชันในโลกแห่งความเป็นจริง ขั้นตอนนี้เกี่ยวข้องกับการตั้งค่าสภาพแวดล้อมที่โมเดลสามารถรับข้อมูลอินพุต ทำการคาดการณ์ และส่งคืนผลลัพธ์ให้กับผู้ใช้หรือระบบ Google Cloud เสนอตัวเลือกการปรับใช้หลายตัวเลือก รวมถึง AI Platform Prediction ซึ่งช่วยให้สามารถปรับใช้โมเดลเป็น RESTful API ได้
ในตัวอย่างการคาดการณ์ราคาที่อยู่อาศัย โมเดลที่นำไปใช้งานสามารถผสานรวมเข้ากับแอปพลิเคชันอสังหาริมทรัพย์ได้ โดยผู้ใช้จะป้อนคุณสมบัติของบ้านและรับการคาดการณ์ราคา นอกจากนี้ การใช้งานยังเกี่ยวข้องกับการตรวจสอบประสิทธิภาพของโมเดลในการผลิตเพื่อให้แน่ใจว่าโมเดลจะส่งมอบการคาดการณ์ที่แม่นยำอย่างต่อเนื่อง และอัปเดตโมเดลตามความจำเป็นเมื่อมีข้อมูลใหม่เข้ามา
ตัวอย่างบริบท
ลองพิจารณาบริษัทอสังหาริมทรัพย์ที่มุ่งหวังที่จะปรับปรุงกระบวนการประเมินมูลค่าทรัพย์สินโดยใช้การเรียนรู้ของเครื่องจักร โดยปฏิบัติตามขั้นตอนทั้ง 7 ขั้นตอนที่ได้ระบุไว้ บริษัทสามารถพัฒนาแบบจำลองการเรียนรู้ของเครื่องจักรที่มีประสิทธิภาพเพื่อคาดการณ์ราคาบ้านได้อย่างเป็นระบบ ในขั้นแรก บริษัทจะกำหนดปัญหาโดยระบุถึงความจำเป็นในการประเมินมูลค่าทรัพย์สินที่แม่นยำ จากนั้นจึงรวบรวมข้อมูลจากหลายแหล่ง รวมถึงบันทึกการขายในอดีตและรายการทรัพย์สิน เพื่อให้แน่ใจว่าได้ชุดข้อมูลที่ครอบคลุมซึ่งสะท้อนถึงแนวโน้มของตลาด
หลังจากประมวลผลข้อมูลเบื้องต้นเพื่อจัดการกับค่าที่ขาดหายไปและเข้ารหัสตัวแปรตามหมวดหมู่แล้ว บริษัทจึงเลือกใช้โมเดลการเพิ่มประสิทธิภาพแบบไล่ระดับเนื่องจากสามารถจัดการกับความสัมพันธ์ที่ซับซ้อนและการโต้ตอบระหว่างฟีเจอร์ต่างๆ ได้ บริษัทฝึกโมเดลโดยใช้แพลตฟอร์ม AI ของ Google Cloud โดยใช้ประโยชน์จากโครงสร้างพื้นฐานที่ปรับขนาดได้เพื่อจัดการกับชุดข้อมูลขนาดใหญ่ได้อย่างมีประสิทธิภาพ
มีการประเมินโมเดลโดยใช้ RMSE เพื่อเปิดเผยพื้นที่ที่ต้องปรับปรุง โดยการปรับไฮเปอร์พารามิเตอร์และทดลองใช้ฟีเจอร์เพิ่มเติมที่ได้จากความรู้เกี่ยวกับโดเมน บริษัทจึงเพิ่มความแม่นยำในการทำนายของโมเดล ในที่สุด โมเดลจะถูกนำไปใช้งานเป็น API ซึ่งช่วยให้บูรณาการเข้ากับระบบที่มีอยู่ของบริษัทได้ โดยจะให้การประมาณราคาแบบเรียลไทม์แก่ผู้ใช้ จึงช่วยปรับปรุงกระบวนการตัดสินใจและความพึงพอใจของลูกค้า
คำถามและคำตอบล่าสุดอื่น ๆ เกี่ยวกับ EITC/AI/GCML Google Cloud Machine Learning:
- สามารถใช้โมเดลมากกว่าหนึ่งโมเดลในระหว่างกระบวนการเรียนรู้ของเครื่องจักรได้หรือไม่
- การเรียนรู้ของเครื่องจักรสามารถปรับอัลกอริทึมที่จะใช้ขึ้นอยู่กับสถานการณ์ได้หรือไม่
- เส้นทางที่ง่ายที่สุดในการฝึกฝนและปรับใช้โมเดล AI เชิงทฤษฎีขั้นพื้นฐานที่สุดบนแพลตฟอร์ม Google AI โดยใช้ระดับทดลองใช้งาน/ฟรีโดยใช้คอนโซล GUI ทีละขั้นตอนสำหรับผู้เริ่มต้นที่ไม่มีพื้นฐานด้านการเขียนโปรแกรมคืออะไร?
- วิธีการฝึกฝนและปรับใช้โมเดล AI ง่าย ๆ ใน Google Cloud AI Platform ในทางปฏิบัติผ่านทางอินเทอร์เฟซ GUI ของคอนโซล GCP ในบทช่วยสอนทีละขั้นตอนได้อย่างไร
- ขั้นตอนทีละขั้นตอนที่ง่ายที่สุดในการฝึกฝนการฝึกอบรมโมเดล AI แบบกระจายใน Google Cloud คืออะไร
- โมเดลแรกที่สามารถใช้งานได้พร้อมข้อเสนอแนะที่เป็นประโยชน์สำหรับการเริ่มต้นคืออะไร?
- อัลกอริทึมและการทำนายจะขึ้นอยู่กับอินพุตจากฝั่งมนุษย์หรือไม่
- ข้อกำหนดหลักและวิธีการที่ง่ายที่สุดในการสร้างโมเดลการประมวลผลภาษาธรรมชาติคืออะไร เราจะสร้างโมเดลดังกล่าวโดยใช้เครื่องมือที่มีอยู่ได้อย่างไร
- การใช้เครื่องมือเหล่านี้ต้องสมัครสมาชิกรายเดือนหรือรายปีหรือไม่ หรือสามารถใช้งานได้ฟรีในระดับหนึ่งหรือไม่
- ยุคในบริบทของพารามิเตอร์โมเดลการฝึกอบรมคืออะไร?
ดูคำถามและคำตอบเพิ่มเติมใน EITC/AI/GCML Google Cloud Machine Learning