AXFront DocuParse

HWP까지 완벽히 이해하는 JSON 문서 추출 엔진

PDF·DOCX·HWPX·HWP 문서에서 구조화된 데이터를 JSON 형식으로 정확하게 추출합니다. 한글(HWP) 포맷까지 손실 없이 다루는 검증된 문서추출 엔진입니다.

주요 기능

HWP까지 완벽히 이해하는 JSON 문서 추출 엔진

순수 텍스트 추출

서식·이미지 없이 본문 텍스트만 깔끔하게 추출해 재활용과 분석에 최적화합니다.

구조 보존 JSON

문서의 제목·문단·표·키값 구조를 보존한 JSON으로 변환해 후속 처리에 바로 연계합니다.

HWP 네이티브 파싱

OCR에 의존하지 않고 HWP/HWPX 바이너리를 직접 해석해 한글 문서를 정확히 추출합니다.

표·키값 추출

복잡한 표와 양식의 키-값 데이터를 인식해 구조화된 형태로 뽑아냅니다.

벡터라이징·RAG 연계

추출 JSON을 임베딩해 사내 지식창고·검색·챗봇 파이프라인에 연결합니다.

빠른 경량 처리

불필요한 요소를 제외해 신속하게 변환하고 가벼운 결과 파일을 생성합니다.

01

사용법

  • 지원 문서 업로드: PDF, 한글(.hwp/.hwpx), MS Office(.doc/.docx/.ppt/.pptx/.xls/.xlsx)
  • 드래그 앤 드롭 또는 업로드 버튼 클릭 (파일당 최대 50MB)
  • 서식·이미지·표를 제외한 본문 텍스트, 또는 구조화 JSON 추출 선택
  • 웹 브라우저에서 추출 결과 미리보기 후 다운로드
02

보안

  • 모든 문서 처리가 보안 서버 환경에서 진행
  • 업로드된 파일은 처리 후 즉시 삭제 (저장하지 않음)
  • HTTPS를 통한 암호화 전송
  • 암호 걸린 문서·손상된 파일 안전 감지 및 오류 처리
03

특징

  • 다양한 포맷 지원: PDF·한글·MS Office 완벽 처리
  • 가장 호환성 높은 텍스트/JSON 형식으로 출력
  • 분석·재편집에 적합한 깔끔한 결과
  • 대량 문서 자동화·온프레미스 연계 가능

도입을 검토 중이신가요?

도입 절차와 기술 사양을 확인하고 문의를 남겨주세요.

도입·문의