pdf 텍스트 추출 여러가지 방법 정리!!

7월 08, 2016

pdf문서를 많이들 접하는데 안에있는 내용을 순수하게 텍스트만 뽑아내서 가져오고 싶을때 할 수 있는 여러가지 방법에 대해서 메모겸 정리해본다.

순수 아크로벳 리더기에서 가져오기

내용을 마우스로 쭉 긁어서 복사한 다음 텍스트에 붙여넣는다.
단, 이렇게 하면 내용부분 외에도 쪽수라던지 그밖의 형식들까지 텍스트로 같이 긁어가지므로 메모장에 텍스트 붙여넣고 조금 수정이 필요함.

이 방법의 경우 선택적으로 일부 내용을 추출시 알맞고 전체 내용을 뽑아내려면
Adobe Acrobat Reader 플그램 상에서 파일 > 다른형식으로 저장 > 텍스트를 선택한다.
그러면 따로 txt파일로 모두 변환이 된다.

가장 손쉽고 바로 빠르게 가능한 방법이라고 할수 있다.

구글 드라이브에 올려놓고, 구글문서로 실행

각자 지메일 계정이 있다고 하면 구글 드라이브를 실행하고 그곳에 해당 피디에프 문서를 업로드 (화면에 끌어다 놓으면 됨)

그리고 해당 업로드 문서를 실행하면 구글 문서로 실행하도록 선택하면 안에 있는 텍스트가 변환 및 복사가 돼서 텍스트로 인식할수 있는 파일로 바뀌게 된다.

small pdf 가서 텍스트로 변환

다음의 주소로 이동해서 메인에서 PDF to Word 항목을 선택
https://smallpdf.com/

이동된 곳에서 파일을 업로드하여 변환하고 워드파일로 최종 변환 완료되면 그것을 다운받아 워드 프로그램으로 문서를 열면 된다.

또는 엑셀이라던지 ppt등으로도 변환할수 있는데 자기가 깔아놓은 오피스프로그램이 있다면 그에 맞게 변환하면 된다.

OCR 프로그램 이용

텍스트로 긁을수 있도록 문서가 대개 존재하지만 문서에 따라서 아예 이미지로 스캔한 이미지만 들어가있는 문서 (이미지에 텍스트가 박혀있어 텍스트로 추출이 안되는)도 있다.

이럴 때는 이미지를 텍스트 인식하는 OCR 프로그램의 사용이 필요하다.
대개 좀 찾아보면 관련 프로그램이 있지만 많은 이들은 ABBYY 소프트웨어를 사용하는것으로 보이고, 만약 트라이얼로 무료로 써보려면 ABBYY Finereader 를 설치해 써는것도 좋은 방법인듯 하다.

https://www.abbyy.com/finereader/

지금까지 pdf 텍스트 추출 방법에 대해서 여러 방법들을 알고 있는데로 정리해보았느데 비슷한 고민있는 분들이라면 참고가 되었음 좋겠다.

특별한 의미