top of page

​문서 전처리 마법사

서비스 개요

생성형 AI를 업무에 적용하기 위해서는 문서 전처리 작업이 필수 입니다.

1.jpg

docxmarker의 핵심 기능

전처리를 통한 개체추출 및 표, 이미지 해석 및 구조화 정보 추출 

2.jpg
3.jpg

01. 문서 선택

오피스 문서 (PDF, 한글, 워드, 파워포인트, 엑셀 등)와 이미지 문서 (JPG, PNG, TIFF, BMP, GIF, PDF 등) 포맷을 지원합니다.

02. Document Parsing

03. 결과물

텍스트, 그림, 표 등 문서 내 객체를 인식합니다.

인식 결과는 HTML, Markdown, Text 등 정형 데이터로 변환하고 추출 이미지는 별도 파일로 저장(jpg, png 등) 가능합니다.

04. 활용

Vector Embedding을 통한 RAG / LLM 서비스와 연동합니다. 또한, 문서의 내용을 파싱하고, 모바일이나 PC용 웹페이지(html)로 자동 변환하여, 문서에 포함된 정보를 웹을 통해 제공할 수도 있습니다.

4.jpg

문서 및 구조 분석/추출

  •  오피스 문서 (PDF, 한글, 워드, 파워포인트, 엑셀 등)와 이미지 문서 (JPG, PNG, TIFF, BMP, GIF, PDF 등) 포맷을 지원합니다.

•문서 제목, 섹션 소제목 리스트

•텍스트 단락, 리스트, 수식

•표, 그림, 캡션

•머리말, 꼬리말, 각주

  • 자연스러운 읽기 순서 유지

  • 폰트 크기, 이미지 크기와 위치 인식

  • ​그림, 표의 캡션 관계 인식

5.jpg

표 구조 인식

  • 문서 내 다양한 표 인식 가능

  • <table>, <thead>, <th>, <th> 등 HTML에서 테이블을 표현하는 태그 사용 레이아웃 요소 인식

  • 표 캡션을 인식하여 <caption> 태그로 표현 가능

  • 병합된 셀 인식 가능

  • 헤더 정보 인식

기타 주요 기능

비정형데이터 전처리 자동화를 통해 작업시간 단축 및 대규모 문서에 대한 처리 효율성을 높여드립니다.

  • 목차, 텍스트, 이미지, 표 개체 추출 자동화

  • 이미지 어노테이션 자동화

  • 워크플로우 자동화 파이프라인 구축

  • 품질 검증 자동화로 오류 최소화

  • 다양한 데이터 소스 연계 자동화

전처리 자동화

  • 의미론적 관계 추출 및 매핑

  • 계층적 구조 생성 및 온톨로지 연계

  • 구조화된 청크 생성

  • 효율적인 정보 검색 가능

  • 데이터 분석 및 기계학습 적용 용이

문맥 구조화

대용량 처리 및 API 연동

  • 대용량 확장성 보장

  • AI 파이프라인과 통합 용이

  • 개인정보 익명화 및 비식별화

  • 데이터 형식 정규화

  • 학습데이터셋 생성

표 구조 인식

REST API

API List

API는 HTTP 헤더에 인증키를 전송해 사용할 수 있는 Open API 입니다.

API를 사용하기 위해서는 API Key가 필요하며 Client ID, Secret Key를 함께 전송해야 됩니다.  

전처리 API

  • 유료 Key

  • 무료 Key

  • Web demo

비정형 데이터 전처리를 위한 API 사용방법

 

페이지별 분석결과를 반환하는 API입니다.

->코드 샘플 보기

End Point /restApi/Extract

Method POST

Input

JSON(*표시된 항목은 필수 입력 정보입니다.)

query : {JSON} (text)과 개체(select entity) 정보를 담고 있는 데이터입니다.

​구현예제

​준비중

bottom of page