Top

Como extrair as tabelas do PDF em Python

Você está cansado de procurar a opção mais fácil para extrair as tabelas do PDF em Python? Não se preocupe mais e leia este artigo para obter a melhor guia.

PDFelement-editor de PDF poderoso e simples

Comece com a maneira mais fácil de gerenciar PDFs com o PDFelement!

PDF é um acrônimo para Portable Document Format e é classificado como o melhor formato para compartilhar documentos eletrônicos. Os PDFs estão em toda parte e são vitais nos fluxos de trabalho de todas as organizações. Os arquivos PDF contêm todos os tipos de conteúdo, incluindo tabelas. Os banqueiros precisam extrair informações dos clientes das tabelas, os professores precisam extrair pontuações das tabelas para preparar transcrições e os contadores precisam de dados da tabela para criar faturas e recibos.

Embora existam várias maneiras de extrair as tabelas do PDF, o Python está provando ser um ótimo método. Python é uma linguagem de programação de computadores interativa usada para o desenvolvimento de sites e software. No entanto, ele também oferece uma plataforma para ler e extrair as tabelas dos arquivos PDF. Você pode extrair a tabela desejada do PDF com Python com um trecho de código adequado. Este artigo mostra a maneira mais fácil de extrair uma tabela do PDF com o Python.

Método 1: Use o tabular-Py Python Wrapper para extrair a tabela do PDF

O Tabular-py é um wrapper de Java tabular - uma biblioteca java que permite que os usuários leiam o conteúdo de uma tabela incorporada em um documento PDF. Ele lê o conteúdo da tabela e o converte em Pandas DataFrame. Com o tabula-py, você pode converter o seu arquivo PDF em arquivos CSV, TSV ou JSON. No entanto, o seu sistema deve ter Java8+ e Python 3.7+. Você deve executar os seguintes comandos para baixar e instalar automaticamente as dependências necessárias do Java no seu sistema.

$ pip install tabula-py

$ pip install tabulate

Suponha que o caminho de salvamento para PDF com a tabela de destino seja /home/Ubuntu/data.pdf; você pode executar o seguinte código no terminal para extrair a tabela do seu PDF e salvá-la como CSV, TSV ou JSON.

Importar a tabela

# comece importando a biblioteca de tabelas

Importar a tabela

# ler a tabela do arquivo pdf

dfs = tabula-read_pdf("/home/ubuntu/data.pdf",pages="all")

# converter a sua tabela PDF ao formato CSV

tabula.convert_into ("/home/ubuntu/data.pdf","output.csv","outpour_format="csv", pages="all")

Você também pode extrair e imprimir a tabela do terminal usando o código a seguir.

from tabula import read_pdf

from tabulate import tabulate

# Este comando lê a tabela no seu arquivo PDF

df = read_pdf("/home/ubuntu/data.pdf",pages="all")

# Este comando imprime o seu arquivo PDF no terminal

print(tabulate(df)

O comando read_pdf () lê o conteúdo da tabela no seu arquivo PDF.

O comando tabulate () organiza os dados lidos em um formato de tabela.

Dicas e Observações

* Certifique-se de que o Java esteja presente no seu sistema.

* Tente ter conhecimentos básicos de Python para facilitar o seu trabalho.

Método 2: Use a biblioteca Camelot-Py do Python para extrair a tabela do PDF

O Camelot é outra biblioteca Python útil que você pode usar para extrair as tabelas do PDF. A beleza do Camelot é o nível de controle que ele oferece. Esta biblioteca te dá mais poder para personalizar a extração de tabelas e satisfazer as suas necessidades. Além disso, cada tabela é um Panda DataFrame que é fácil de integrar em fluxos de trabalho de ETL e análise de dados. Com a biblioteca Camelot, você pode exportar a suas tabelas para uma variedade de formatos de arquivo, incluindo JSON, Excel, HTML e Sqlite.

Para instalar a biblioteca Camelot no seu sistema, execute o seguinte comando.

$ pip install camelot-py

Ao contrário do tabula-py, o Camelot utiliza matrizes e índices para acessar uma determinada tabela no seu arquivo PDF. A tabela é lida primeiro usando a função read_pdf () e as tabelas armazenadas em uma matriz de tabelas. As matrizes irão obviamente começar a partir de tabelas [0], em seguida, tabelas [1] e assim por diante. Para imprimir um PDF no terminal, você pode executar o seguinte código.

import camelot

# extraia todas as tabelas do arquivo PDF

abc = camelot.read_pdf("/home/ubuntu/data.pdf")

# imprima a primeira tabela como Pandas DataFrame

print(abc[0].df)

O comando import Camelot importa a biblioteca Camelot para ser usada no programa. Se a biblioteca Camelot não estiver instalada, o Python imprimirá uma mensagem de erro.

O comando Camelot.read_pdf () lê o conteúdo da sua tabela PDF e o armazena em uma matriz de tabelas abc.

O comando print (abc[0].DF) imprime a primeira tabela na matriz ou seja, a tabela [0] no terminal.

Dicas e Observações

* Use a função de análise para descartar tabelas inválidas com base na precisão e no espaço em branco.

· Se pretender extrair tabelas de páginas diferentes e pretender alterar a ordem de extração, você pode utilizar o comando order na função de análise.

* Tente se familiarizar com a sintaxe Python para minimizar as dificuldades de conversão.

[Bônus] PDFelement: Extraia tabelas do PDF de forma mais conveniente do que com o Python

Embora o Python seja útil na extração de tabelas dos PDFs, ele não oferece a conveniência de uma ferramenta específica de extração de dados em PDF. O Python é uma linguagem de programação e não é fácil entender e memorizar a sintaxe. Se você não tem experiência usando o Python, talvez leia a primeira linha e desanime. Você precisa de conhecimento profissional para navegar e extrair as tabelas do PDF com facilidade e precisão. Mesmo se você for um profissional, o processo de escrever e executar códigos para extrair dados da tabela é demorado e cansativo.

Ainda bem que o, PDFelement resolve este problema, te dando uma plataforma conveniente para extrair as tabelas do PDF. A interface é elegante e fácil de usar. Se você é novato, você vai achar extremamente fácil navegar e extrair tabelas do PDF. Você não precisa de conhecimento de codificação ou experiência para extrair tabelas do PDF com este software. Além disso, o Wondershare PDFelement é compatível com vários dispositivos e sistemas operativos, incluindo Windows, Mac e iOS. Você não precisa se preocupar em adicionar bibliotecas porque este programa está totalmente embalado. Mais uma vez, a sua incrível velocidade de processamento e acessibilidade o tornam uma ferramenta conveniente para todos os usuários, incluindo os novatos.

Método 1: Extrair tabelas mantendo o formato original

Às vezes, você deseja extrair tabelas do PDF sem alterar o formato original. Isso é útil quando você precisa da tabela e do conteúdo, deseja apresentar a tabela exatamente no mesmo formato ou quando não tem interesse em ajustar o layout da tabela. Este processo é rápido e simples no PDFelement, como ilustrado abaixo.

Passo 1 Primeiro, inicie o PDFelement no seu aparelho e carregue o arquivo do qual pretende extrair as tabelas. Como alternativa, você pode clicar com o botão direito do mouse no arquivo PDF e abri-lo com o Wondershare PDFelement.

Passo 2 Quando o arquivo PDF for carregado, vá para a barra de ferramentas e clique na aba "Converter" entre as opções apresentadas abaixo, escolha a opção "para o Excel".

extrair tabela de pdf python alternativa converter para excel

Passo 3 O PDFelement vai te levar automaticamente para a janela de saída "Guardar como". Aqui, escolha uma pasta de destino adequada e clique no botão "Salvar". O PDFelement converterá imediatamente o seu arquivo PDF para o arquivo Excel. Abra o arquivo Excel para verificar a tabela.

extrair tabela de pdf python alternativa salvar excel

Dicas e Observações

* Se você estiver manipulando vários arquivos, use o processo em lote para economizar tempo e energia.

* Se você tem um arquivo de várias páginas e você só precisa de uma seção dele, basta cortá-la antes de converter o PDF para Excel.

Método 2: Extrair dados apenas do PDF para CSV

Em outros casos, você não estará preocupado com o formato da tabela, mas sim com o conteúdo dela. Neste cenário, você será obrigado a extrair apenas o conteúdo da tabela PDF. Felizmente, o PDFelement permite aos usuários extrair dados apenas de PDF para CSV. O CSV é um formato de texto simples que organiza os dados em forma de tabela usando vírgulas.

Baixe Grátis Baixe Grátis Baixe Grátis Baixe Grátis

seguridad garantizada100% Seguro | Sem software malicioso |ai Impulsionado por IA

PDFelement permite extrair dados de um formulário preenchível em PDF. No entanto, o formulário PDF deve conter campos de formulário preenchíveis antes de extrair os dados da tabela PDF para CSV. Se os campos do formulário não forem preenchíveis/reconhecíveis, você precisará do recurso OCR do PDFelement para torná-los reconhecíveis/preenchíveis. Ilustramos os passos a seguir.

Passo 1 Abra o seu arquivo PDF com o PDFelement. Certifique-se de que a sua versão do PDFelement tem o plugin OCR instalado.

Passo 2 Vá para a seção "Formulário" e clique no ícone "Reconhecer" nas várias opções exibidas abaixo. O PDFelement tornará reconhecíveis os campos do formulário PDF automaticamente.

extrair tabela do pdf python reconhecer formulário

Agora que o arquivo PDF é reconhecível, você precisa proceder para extrair os dados da tabela do seu arquivo PDF da seguinte maneira.

Passo 1 Vá para a barra de ferramentas e clique na aba "Formulário". Nas opções apresentadas, clique na opção "Extrair Dados".

Passo 2 O PDFelement exibirá a janela de diálogo "Extrair Dados" na tela. Aqui, você pode escolher "extrair dados de campos de formulário" ou "extrair dados com base na seleção." Quando você escolhe a opção "Extrair dados de campos de formulário", os seus campos do formulário serão extraídos como um arquivo CSV.

extrair tabela de campos de formulário python pdf

Se você escolher a opção "Extrair dados com base na selecção", terá de seleccionar cada campo do formulário que quer extrair com o cursor na janela pop-up. Depois disso, insira o nome dos campos de formulário selecionados e selecione um idioma de reconhecimento adequado.

Passo 3 Depois de selecionar todos os campos desejados do formulário, clique no botão "Aplicar". O PDFelement extrairá imediatamente os dados apenas do PDF para CSV.

extrair tabela da seleção pdf python

Dicas e Observações

· Se você quiser extrair dados de campos não preenchíveis, certifique-se de que o plugin OCR esteja instalado para o reconhecimento do PDF primeiro.

* Use o processo em lote se você tiver vários PDFs que você precisa para extrair dados da mesma área ou deseja extrair dados de um formulário PDF com várias tabelas que transportam dados diferentes.

· O recurso "extrair dados com base na seleção" pode ser aplicado a formulários PDF baseados em texto e digitalizados.

· Como você precisa selecionar cada campo do formulário manualmente, use o "extrair dados com base na seleção" quando precisar de apenas uma pequena quantidade de dados.

Extrair tabelas de PDF com Python requer conhecimento e experiência em programação. No entanto, o PDFelement aproxima a extração de tabelas PDF de você com uma interface intuitiva e amigável. O processo é simples e conveniente para todos os usuários, incluindo novatos. Faça o download do PDFelement hoje mesmo e aproveite uma experiência inigualável ao extrair tabelas do PDF.