이미지에서 한글을 추출하기 위해서는 OCR(Optical Character Recognition) 기술이 사용됩니다. 대부분 영어권에서 개발된 OCR 엔진을 사용하여 텍스트를 추출하기 때문에 알파벳과 숫자의 정확도는 99.9%입니다. 그렇다면 한글 추출 정확도는 어떨까요?
현재 OCR 엔진의 한글 정확도는 약 90% 정도 수준을 유지하고 있습니다. 90%라면 상당히 높은 편이긴 하지만 만약 “대한민국”이라는 단어를 정확히 인식할 확률은 각 글자당 90%이기 때문에 4자 모두 완벽하게 인식할 확률은 65.6%로 떨어지게 됩니다. 즉 “대한민국”이라는 단어로 검색했을 때 찾을 수 있는 확률이 65.6% 정도 된다는 얘기가 됩니다.
OCR을 통해 추출하는 것은 대부분 숫자나 바코드 등으로 정확도가 높아 시스템을 자동화하기 위해 많이 사용하고 있습니다. 하지만 한글을 추출하기에는 다소 아쉬운 부분이 있습니다. 이에 따라 AI기술이 탑재된 OCR 엔진이 대안으로 제시되고 있습니다.
AI OCR은 인공지능과 딥러닝 기술을 활용하기 때문에 사용할수록 고객사의 환경에 최적화되어 인식 정확도를 높여주게 됩니다.
신도리코에서는 AI OCR 엔진을 국내 최초로 탑재하여 문서보안 솔루션을 구축 운영하고 있습니다. 특히 AI OCR과 함께 Readable PDF를 생성하여 검색까지 가능한 파일시스템으로 확장하는 고객도 증가하고 있습니다.
AI OCR은 기존 OCR엔진과는 달리 엔비디아 그래픽카드가 장착된 고가의 AI시스템 전용 서버가 필요합니다. 도입비용이 다소 증가하였음에도 대폭 향상된 정확도를 자랑하기 때문에 대부분의 고객사에서 AI OCR로 전환을 요청하고 있습니다. 문서보안을 위한 개인정보 마스킹 기능 역시 AI OCR로 구축할 경우 훨씬 더 높은 성능을 구현할 수 있습니다. 민감한 정보가 포함된 영역을 자동으로 마스킹하거나 블러 처리할 수 있어, 개인정보를 안전하게 비식별화 할 수 있습니다. 문서에서 보안 단어를 검출 시, 그리고 일상적이지 않은 상황일 경우 관리자에게 즉시 알림을 보내는 기능도 제공합니다.
신도리코는 국내 최초로 AI OCR을 구축하였고 AI OCR을 가장 많이 제공하고 있습니다. AI OCR로 업무를 획기적으로 개선하고 싶다면, 신도리코 전문가와 상담해보세요.