Ezbot OCR기능/변수관련 문의드립니다.



  • 영어+한글과 같이 다중언어에 대한 OCR시 문자를 제대로 인식하지 못하고 Kr+En 등의 언어속성 값을 변경해도 마찬가지라서 인식률을 높일 수 있는 방법이 어떤것이 있는지 알고싶습니다.

    또, 문장이나 문단을 인식하려고할때 일정 글자수가 넘어가면 중간에 짤리고 ...식으로 처리되는데 이에 대한 해결방안도 있는지 알고 싶습니다.

    그리고 봇자체에 테이블, 리스트 변수가 있긴한데 사전에 등록해놓는 방법 말고는 어떤식으로 사용해야할지를 몰라서 값을 설정하여 활용하는 방법을 알고싶습니다.



  • 영어+한글 섞인 OCR

    • 이 주제는 저보다 다른 전문가의 답변을 기대해 봅니다.

    문장 인식 후 말줄임표 표현

    • 변수창에 OCR 결과를 말줄임하여 표현하는 것을 말씀하시는 것 같은데, 다음과 같이 응용할 수가 있습니다. OCR결과를 SetClipboardText명령어를 이용하여 클립보드로 넣을 수 있습니다.
      0bdc6b62-4da6-4756-ba3d-e5defadad683-image.png
      c49fa6d2-e3e9-4ee6-a61c-0a1fc30a6d53-image.png

    테이블, 리스트 변수 사용

    • 보통 Loop문에서 리스트 아이템을 하나씩 처리하고자 할 경우에 사용됩니다.
      • 리스트 변수 등록
        60ff3ba4-9aa6-4072-99ab-dd6d46c25d60-image.png
      • Edit버튼 눌러서 아이템 등록
        c51a4f29-79ab-46ce-b73c-69912ba2f358-image.png
      • 리스트로 반복문 생성
        리스트명에 "과일" 입력, 반복 변수명에 "아이템" 입력
        a115cc15-79f9-4591-9ab8-1ca649df5d88-image.png
        16bd3e39-19af-4674-b95f-37dfa545d823-image.png
      • MessageBox 에서 과일 아이템 반복 출력
        c40391ab-dc41-45dd-a820-86a5eef8d38e-image.png


  • 기본적으로 OCR을 할때에는 OCR을 할 타겟 이미지의 상태가 매우 중요합니다.
    타겟 이미지의 상태에 따라, 이미지 이진화텍스트 영역 정확히 자르기등의 전처리를 거친 후 OCR을 진행하게되면 좋은 인식률이 나올수 있습니다.

    **이미지의 종류**
    -디지털, 스캔
    
    **텍스트 뒷배경의 복잡도**
    -단일색상, 패턴, 사진
    
    **텍스트의 폰트 종류, 크기, 색상, 회전정도**
    
    **텍스트 주변의 다른 요소들 여부**
    -표, 밑줄, 취소선 등
    

    또한, 이미지 내의 텍스트가 어떻게 되어있는지에 따라 인식률이 달라질수 있습니다.
    여러 언어의 문자가 섞인 단어가 많아질수록 OCR 정확도가 떨어질 가능성이 높습니다.

    **OCR 할 텍스트의 종류**
    -단어, 한 문장, 한 문단, 여러개의 문단
    
    **영어와 한글이 섞여있는 패턴:**
    -단어 단위로 분리된 언어 (예: github 커밋), 일련번호같이 복잡한 조합(예: 1A2B3C)
    

Log in to reply