Извлечение строковых данных из PDF многостраничного столбцов с Python

голоса
0

У меня есть некоторые PDF-файлы, которые организованы в столбцы, которые мне нужно, чтобы очистить. Проблема заключается в том, что каждый столбец имеет несколько страниц и не в типичной компоновке для столбцов, например:

******Column 1******************Column 2*************

Sombody once told me Finger and her thumb The world was gonna In the shape of an L Roll me. I ain't the On her forehead. Well *******************NEXT PAGE************************** Sharpest tool in the The years start coming Shed. She was looking And they don't stop coming Kind of dumb with her

Я попытался с помощью стандартной PDF скребки, как PDFMiner но он просто возвращает строку, которая читается как:

Sombody однажды сказал мне
мир собирался
Ролл меня. Я не
палец и большой палец

Любая помощь будет оценен по достоинству!

Задан 02/09/2018 в 05:04
источник пользователем
На других языках...                            

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more