Google Vision API เป็นเครื่องมือทำความเข้าใจรูปภาพขั้นสูงที่ช่วยให้นักพัฒนาสามารถรวมความสามารถในการจดจำรูปภาพอันทรงพลังเข้ากับแอปพลิเคชันของตนได้ มันมีคุณสมบัติที่หลากหลาย เช่น การตรวจจับวัตถุ การจดจำใบหน้า การแยกข้อความ และอื่น ๆ อีกมากมาย เพื่อสาธิตการทำงานของ Google Vision API นักพัฒนาสามารถใช้ไลบรารีและภาษาการเขียนโปรแกรมต่างๆ ได้
ภาษาโปรแกรมยอดนิยมอย่างหนึ่งที่ใช้โต้ตอบกับ Google Vision API คือ Python Python เป็นที่รู้จักอย่างกว้างขวางในเรื่องความเรียบง่าย อ่านง่าย และการรองรับไลบรารี่ที่กว้างขวาง ทำให้เป็นตัวเลือกในอุดมคติสำหรับนักพัฒนา หากต้องการเข้าถึง Google Vision API โดยใช้ Python นักพัฒนาสามารถใช้ไลบรารีไคลเอ็นต์ Google Cloud อย่างเป็นทางการสำหรับ Python ได้ ไลบรารีนี้มีชุด API ระดับสูงที่ทำให้กระบวนการโต้ตอบกับ API ง่ายขึ้น ทำให้ง่ายต่อการทำงานต่างๆ เช่น การอัปโหลดรูปภาพ การร้องขอ API และการดึงผลลัพธ์
ต่อไปนี้เป็นตัวอย่างวิธีใช้ไลบรารีไคลเอ็นต์ Google Cloud สำหรับ Python เพื่อสาธิตการทำงานของ Google Vision API:
python from google.cloud import vision # Instantiates a client client = vision.ImageAnnotatorClient() # The name of the image file to annotate file_name = 'path/to/image.jpg' # Loads the image into memory with open(file_name, 'rb') as image_file: content = image_file.read() image = vision.Image(content=content) # Performs object detection on the image response = client.object_localization(image=image) objects = response.localized_object_annotations # Prints the detected objects for object_ in objects: print(f'{object_.name} (confidence: {object_.score})')
ในตัวอย่างนี้ ก่อนอื่นเราจะนำเข้าโมดูลที่จำเป็นจากไลบรารีไคลเอ็นต์ Google Cloud สำหรับ Python จากนั้นเราจะสร้างอินสแตนซ์ออบเจ็กต์ไคลเอ็นต์ที่จะใช้ในการสร้างคำขอ API ต่อไป เราระบุไฟล์รูปภาพที่เราต้องการใส่คำอธิบายประกอบและโหลดลงในหน่วยความจำ สุดท้ายนี้ เราสร้างคำขอ API สำหรับการตรวจจับวัตถุและดึงข้อมูลวัตถุที่ตรวจพบพร้อมกับคะแนนความเชื่อมั่น
นอกเหนือจาก Python แล้ว ภาษาการเขียนโปรแกรมอื่นๆ เช่น Java, Node.js และ Go ยังสามารถใช้เพื่อโต้ตอบกับ Google Vision API ได้อีกด้วย Google มีไลบรารีไคลเอ็นต์สำหรับภาษาเหล่านี้ด้วย ทำให้นักพัฒนาสามารถรวม API เข้ากับแอปพลิเคชันของตนได้ง่ายขึ้น
เพื่อสาธิตการทำงานของ Google Vision API นักพัฒนาสามารถใช้ไลบรารีและภาษาการเขียนโปรแกรมต่างๆ ได้ Python พร้อมด้วย Google Cloud Client Library สำหรับ Python เป็นตัวเลือกยอดนิยมเนื่องจากความเรียบง่ายและการรองรับไลบรารีที่กว้างขวาง อย่างไรก็ตาม ภาษาอื่นๆ เช่น Java, Node.js และ Go ได้รับการสนับสนุนโดยไลบรารีไคลเอ็นต์ของ Google เช่นกัน
คำถามและคำตอบล่าสุดอื่น ๆ เกี่ยวกับ ความเข้าใจภาพขั้นสูง:
- หมวดหมู่ที่กำหนดไว้ล่วงหน้าสำหรับการจดจำวัตถุใน Google Vision API มีอะไรบ้าง
- แนวทางที่แนะนำในการใช้คุณลักษณะการตรวจจับการค้นหาปลอดภัยร่วมกับเทคนิคการดูแลอื่นๆ คืออะไร
- เราจะเข้าถึงและแสดงค่าความน่าจะเป็นสำหรับแต่ละหมวดหมู่ในคำอธิบายประกอบการค้นหาปลอดภัยได้อย่างไร
- เราจะรับคำอธิบายประกอบการค้นหาปลอดภัยโดยใช้ Google Vision API ใน Python ได้อย่างไร
- ห้าหมวดหมู่ที่รวมอยู่ในคุณลักษณะการตรวจจับการค้นหาปลอดภัยมีอะไรบ้าง
- คุณลักษณะการค้นหาที่ปลอดภัยของ Google Vision API ตรวจจับเนื้อหาที่ไม่เหมาะสมภายในภาพได้อย่างไร
- เราจะระบุและเน้นวัตถุที่ตรวจพบในภาพด้วยสายตาโดยใช้ไลบรารีหมอนได้อย่างไร
- เราจะจัดระเบียบข้อมูลวัตถุที่แยกออกมาในรูปแบบตารางโดยใช้กรอบข้อมูลของแพนด้าได้อย่างไร
- เราจะแยกคำอธิบายประกอบวัตถุทั้งหมดออกจากการตอบสนองของ API ได้อย่างไร
- Google Vision API ทำการตรวจหาวัตถุและการแปลในรูปภาพอย่างไร
ดูคำถามและคำตอบเพิ่มเติมในการทำความเข้าใจรูปภาพขั้นสูง
คำถามและคำตอบเพิ่มเติม:
- สนาม: ปัญญาประดิษฐ์
- โปรแกรม: EITC/AI/GVAPI Google Vision API (ไปที่โปรแกรมการรับรอง)
- บทเรียน: ความเข้าใจภาพขั้นสูง (ไปที่บทเรียนที่เกี่ยวข้อง)
- หัวข้อ: การตรวจจับวัตถุ (ไปที่หัวข้อที่เกี่ยวข้อง)
- ทบทวนข้อสอบ