Question 1

텍스트 추출은 어떻게 동작합니까?

Accepted Answer

브라우저가 PDF를 화면에 띄울 때 쓰는 엔진으로, 대부분의 PDF가 화면 뒤에 담고 있는 텍스트 레이어를 읽습니다. 사이트가 한 번 열리면 전부 기기 안에서 처리되어 문서가 업로드되지 않습니다. 대부분의 문서는 몇 초 안에 텍스트가 나오고, 복사하거나 .txt로 저장할 수 있습니다.

Question 2

결과가 왜 비어 있습니까?

Accepted Answer

아무것도 안 나오면 그 PDF는 대부분 스캔본입니다. 글자 레이어 없이 페이지를 찍은 이미지인 거죠. 추출은 파일 안에 실제로 저장된 글자만 읽을 수 있습니다. 이런 스캔본은 결과가 비면 화면에 'OCR로 텍스트 추출' 버튼이 떠서, 페이지 이미지에서 글자를 직접 읽어냅니다(영어·한국어, 기기 안에서 처리).

Question 3

문서가 어디로 업로드됩니까?

Accepted Answer

안 올라갑니다. PDF는 브라우저 안에서 읽히고 추출된 텍스트도 기기 밖으로 나가지 않습니다. 텍스트를 뽑는 문서는 계약서, 보고서, 명세서처럼 비공개로 둘 만한 게 많아서 이 점이 중요합니다. 끝나면 탭을 닫는 것으로 충분하고, 서버에 남는 게 없습니다.

Question 4

서식도 그대로 유지됩니까?

Accepted Answer

줄바꿈이 있는 읽기 좋은 텍스트가 나오지만, 단 나누기·표·머리말·글꼴 같은 레이아웃은 그대로 살리지 못합니다. 2단 편집 페이지는 순서가 뒤섞여 읽힐 수 있고, 표는 한 줄로 풀어져 나옵니다. 그냥 읽거나 검색하거나 다른 곳에 붙여 넣기엔 충분하지만, 정확한 레이아웃이 필요하면 원본 PDF를 쓰세요.

Question 5

한국어나 다른 언어도 됩니까?

Accepted Answer

됩니다. PDF에 실제 텍스트 레이어가 있으면 언어는 상관없습니다. 한국어, 영어, 숫자, 섞인 내용 모두 똑같이 추출됩니다. 글자 레이어가 없는 스캔 이미지만 일반 추출이 안 되는데, 이 경우는 내장 OCR 폴백이 영어·한국어를 함께 인식해 처리합니다.

텍스트 추출

원본 문서

PDF 텍스트 추출 — 업로드 없이 글자만 뽑기

업로드 없는 텍스트 추출

PDF에서 텍스트 추출하는 법

PDF 텍스트 추출 자주 묻는 질문

연관 가이드

PDF에서 글자(텍스트) 추출하는 법

스캔한 PDF에서 텍스트를 무료로 추출하는 방법 (로컬 OCR)