หากต้องการเข้าถึงข้อความที่แยกออกมาจากรูปภาพโดยใช้ Google Vision API คุณสามารถทำตามขั้นตอนต่างๆ ที่เกี่ยวข้องกับการใช้ความสามารถ Optical Character Recognition (OCR) ของ API เทคโนโลยี OCR ใน Google Vision API ช่วยให้สามารถตรวจจับและแยกข้อความจากรูปภาพ รวมถึงลายมือด้วย ฟังก์ชันนี้มีประโยชน์อย่างยิ่งในแอปพลิเคชันที่ต้องการการวิเคราะห์และทำความเข้าใจข้อมูลที่เป็นข้อความที่อยู่ในข้อมูลภาพ
ขั้นแรก คุณต้องตั้งค่าสภาพแวดล้อมที่จำเป็นเพื่อทำงานกับ Google Vision API สิ่งนี้เกี่ยวข้องกับการสร้างโปรเจ็กต์ใน Google Cloud Console การเปิดใช้งาน Vision API และการได้รับข้อมูลรับรองการตรวจสอบสิทธิ์ที่จำเป็น เช่น คีย์ API หรือคีย์บัญชีบริการ
เมื่อตั้งค่าสภาพแวดล้อมของคุณแล้ว คุณสามารถใช้เมธอด `asyncBatchAnnotateFiles` ของ Vision API เพื่อดำเนินการ OCR กับไฟล์รูปภาพได้ วิธีนี้ช่วยให้คุณส่งรายการไฟล์รูปภาพสำหรับการประมวลผลและรับผลลัพธ์แบบอะซิงโครนัส หรือคุณสามารถใช้เมธอด `asyncBatchAnnotateImages` เพื่อประมวลผลรายการรูปภาพได้โดยตรง
หากต้องการแยกข้อความออกจากรูปภาพ คุณต้องสร้างอินสแตนซ์ของออบเจ็กต์ `AnnotateImageRequest` และระบุคุณสมบัติที่ต้องการ ในกรณีนี้ คุณจะต้องตั้งค่าคุณลักษณะ "TEXT_DETECTION" เพื่อระบุว่าคุณต้องการแยกข้อความออกจากรูปภาพ คุณยังสามารถระบุพารามิเตอร์เพิ่มเติม เช่น คำใบ้ภาษา เพื่อปรับปรุงความแม่นยำของ OCR
ถัดไป คุณต้องเข้ารหัสไฟล์รูปภาพเป็นสตริงที่เข้ารหัส base64 และสร้างอินสแตนซ์ของออบเจ็กต์ "รูปภาพ" โดยใช้ข้อมูลภาพที่เข้ารหัส ควรเพิ่มออบเจ็กต์ `Image` นี้ลงในออบเจ็กต์ `AnnotateImageRequest` ที่สร้างขึ้นก่อนหน้านี้
หลังจากตั้งค่าคำขอแล้ว คุณสามารถส่งคำขอไปยัง Vision API ได้โดยใช้เมธอด `batchAnnotateImages` หรือ `batchAnnotateFiles` ขึ้นอยู่กับวิธีการที่คุณเลือก API จะประมวลผลรูปภาพและส่งคืนการตอบกลับที่มีข้อความที่แยกออกมา
หากต้องการเข้าถึงข้อความที่แยกออกมาจากการตอบกลับ คุณสามารถวนซ้ำในช่อง `textAnnotations` ของออบเจ็กต์ `AnnotateImageResponse` ช่องนี้มีรายการออบเจ็กต์ `EntityAnnotation` ซึ่งแต่ละออบเจ็กต์แสดงถึงองค์ประกอบข้อความที่ตรวจพบในรูปภาพ ช่อง "คำอธิบาย" ของออบเจ็กต์ "EntityAnnotation" แต่ละรายการมีข้อความที่แยกออกมา
นี่คือตัวอย่างโค้ดใน Python ที่สาธิตวิธีเข้าถึงข้อความที่แยกจากรูปภาพโดยใช้ Google Vision API:
python from google.cloud import vision def extract_text_from_image(image_path): client = vision.ImageAnnotatorClient() with open(image_path, 'rb') as image_file: content = image_file.read() image = vision.Image(content=content) request = vision.AnnotateImageRequest( image=image, features=[{'type': vision.Feature.Type.TEXT_DETECTION}] ) response = client.batch_annotate_images(requests=[request]) for annotation in response.responses[0].text_annotations: extracted_text = annotation.description print(extracted_text) # Usage extract_text_from_image('path_to_image.jpg')
ในตัวอย่างนี้ ฟังก์ชัน `extract_text_from_image` ใช้เส้นทางไปยังไฟล์รูปภาพเป็นอินพุต และใช้ไลบรารีไคลเอ็นต์ Google Cloud Vision เพื่อส่งคำขอไปยัง Vision API จากนั้นข้อความที่แยกออกมาจะถูกพิมพ์ออกมา
หากต้องการเข้าถึงข้อความที่แยกออกจากรูปภาพโดยใช้ Google Vision API คุณจะต้องตั้งค่าสภาพแวดล้อม สร้างออบเจ็กต์ `AnnotateImageRequest` ด้วยฟีเจอร์ที่ต้องการ เข้ารหัสไฟล์รูปภาพ ส่งคำขอไปยัง API และดึงข้อความที่แยกออกมา จากการตอบรับ ความสามารถ OCR ของ Vision API ช่วยให้สามารถตรวจจับและแยกข้อความจากรูปภาพ รวมถึงลายมือด้วย
คำถามและคำตอบล่าสุดอื่น ๆ เกี่ยวกับ การตรวจจับและแยกข้อความจากลายมือ:
- ข้อจำกัดใดที่อาจเกิดขึ้นเมื่อแยกข้อความจากเอกสารที่ซับซ้อนโดยใช้ Google Vision API
- ระดับความเชื่อมั่นในการตีความข้อความของ Google Vision API มีความสำคัญอย่างไร
- Google Vision API สามารถจดจำและแยกข้อความจากบันทึกที่เขียนด้วยลายมือได้อย่างแม่นยำได้อย่างไร
- อะไรคือความท้าทายในการตรวจจับและแยกข้อความจากรูปภาพที่เขียนด้วยลายมือ
- Google Vision สามารถจดจำลายมือได้หรือไม่