โครงข่ายประสาทเทียมแบบหมุน (CNN) ได้รับการออกแบบครั้งแรกเพื่อจุดประสงค์ในการจดจำภาพในด้านการมองเห็นของคอมพิวเตอร์ เครือข่ายเหล่านี้เป็นโครงข่ายประสาทเทียมชนิดพิเศษที่ได้รับการพิสูจน์แล้วว่ามีประสิทธิภาพสูงในการวิเคราะห์ข้อมูลภาพ การพัฒนาของ CNN ได้รับแรงผลักดันจากความจำเป็นในการสร้างแบบจำลองที่สามารถจำแนกและจัดหมวดหมู่ภาพได้อย่างถูกต้อง และความสำเร็จในโดเมนนี้ได้นำไปสู่การใช้อย่างแพร่หลายในแอปพลิเคชันอื่นๆ มากมาย เช่น การตรวจจับวัตถุ การแบ่งส่วนภาพ และแม้แต่การประมวลผลภาษาธรรมชาติ
CNN ได้รับแรงบันดาลใจจากโครงสร้างและการทำงานของเปลือกสมองส่วนการมองเห็นในสมองของมนุษย์ เช่นเดียวกับคอร์เทกซ์ภาพ CNN ประกอบด้วยเซลล์ประสาทหลายชั้นที่เชื่อมต่อถึงกัน ซึ่งประมวลผลแง่มุมต่างๆ ของข้อมูลอินพุต นวัตกรรมที่สำคัญของ CNN อยู่ที่ความสามารถในการเรียนรู้และแยกคุณสมบัติที่เกี่ยวข้องจากรูปภาพโดยอัตโนมัติ ซึ่งช่วยลดความจำเป็นในการใช้วิศวกรรมคุณสมบัติแบบแมนนวล ซึ่งทำได้โดยการใช้เลเยอร์แบบหมุนวน ซึ่งใช้ฟิลเตอร์กับรูปภาพอินพุตเพื่อตรวจจับรูปแบบและคุณสมบัติการมองเห็นต่างๆ เช่น ขอบ มุม และพื้นผิว
ความก้าวหน้าครั้งแรกใน CNN มาพร้อมกับการเปิดตัวสถาปัตยกรรม LeNet-5 โดย Yann LeCun และคณะ ในปี 1998 LeNet-5 ได้รับการออกแบบมาโดยเฉพาะสำหรับการรู้จำตัวเลขที่เขียนด้วยลายมือ และได้รับประสิทธิภาพที่โดดเด่นในชุดข้อมูล MNIST ซึ่งเป็นชุดข้อมูลเกณฑ์มาตรฐานที่ใช้กันอย่างแพร่หลายในการประเมินอัลกอริธึมการรู้จำภาพ LeNet-5 แสดงให้เห็นถึงพลังของ CNN ในการจับภาพคุณลักษณะที่มีลำดับชั้นจากรูปภาพ ทำให้สามารถจำแนกประเภทได้อย่างแม่นยำ แม้ในกรณีที่มีการเปลี่ยนแปลงขนาด การหมุน และการแปล
ตั้งแต่นั้นมา CNN ก็ได้พัฒนาไปอย่างมาก โดยมีการพัฒนาสถาปัตยกรรมที่ลึกและซับซ้อนมากขึ้น ความก้าวหน้าที่โดดเด่นประการหนึ่งคือการแนะนำสถาปัตยกรรม AlexNet โดย Alex Krizhevsky และคณะ ในปี 2012 AlexNet ประสบความสำเร็จในการจำแนกประเภทรูปภาพด้วยการชนะการแข่งขัน ImageNet Large Scale Visual Recognition Challenge (ILSVRC) โดยมีอัตราข้อผิดพลาดที่ลดลงอย่างมากเมื่อเทียบกับแนวทางก่อนหน้านี้ ความสำเร็จนี้ปูทางไปสู่การนำ CNN มาใช้ในงานจดจำภาพอย่างกว้างขวาง
CNN ยังนำไปใช้กับงานคอมพิวเตอร์วิทัศน์อื่นๆ ได้สำเร็จอีกด้วย ตัวอย่างเช่น ในการตรวจจับวัตถุ CNN สามารถรวมกับเลเยอร์เพิ่มเติมเพื่อระบุตำแหน่งและจัดประเภทวัตถุภายในรูปภาพได้ Convolutional Neural Network (R-CNN) ตามภูมิภาคที่มีชื่อเสียงแนะนำโดย Ross Girshick และคณะ ในปี 2014 เป็นตัวอย่างหนึ่งของสถาปัตยกรรมดังกล่าว R-CNN บรรลุผลลัพธ์ที่ล้ำสมัยในเกณฑ์มาตรฐานการตรวจจับวัตถุโดยใช้ประโยชน์จากพลังของ CNN ในการดึงคุณสมบัติและผสมผสานเข้ากับวิธีการเสนอระดับภูมิภาค
โครงข่ายประสาทเทียมแบบ Convolutional ได้รับการออกแบบครั้งแรกสำหรับงานจดจำภาพในด้านการมองเห็นของคอมพิวเตอร์ พวกเขาได้ปฏิวัติวงการนี้ด้วยการเรียนรู้คุณสมบัติที่เกี่ยวข้องจากรูปภาพโดยอัตโนมัติ ทำให้ไม่จำเป็นต้องมีวิศวกรรมคุณสมบัติแบบแมนนวล การพัฒนาของ CNN ได้นำไปสู่ความก้าวหน้าที่สำคัญในการจำแนกภาพ การตรวจจับวัตถุ และงานด้านการมองเห็นของคอมพิวเตอร์อื่นๆ
คำถามและคำตอบล่าสุดอื่น ๆ เกี่ยวกับ EITC/AI/ADL Advanced Deep Learning:
- เหตุใดเราจึงต้องใช้การเพิ่มประสิทธิภาพในการเรียนรู้ของเครื่อง?
- Overfitting เกิดขึ้นเมื่อใด?
- Convolutional Neural Networks สามารถจัดการข้อมูลแบบลำดับโดยการรวมการบิดเบี้ยวเมื่อเวลาผ่านไป ดังที่ใช้ในโมเดล Convolutional Sequence to Sequence ได้หรือไม่
- Generative Adversarial Networks (GANs) อาศัยแนวคิดของผู้สร้างและผู้เลือกปฏิบัติหรือไม่?