Função
GetPdfOcr()
Extrai o texto de um PDF modo texto ou imagem usando OCR (Reconhecimento Óptico de Caracteres).
Retorno: String
Retorno: String
GetPdfOcr(caminho [, idioma [, pagina [, dpi [, opcoes...]]]])
Parâmetros
| Parâmetro | Obrigatório | Descrição |
|---|---|---|
caminho | Sim | Caminho completo do arquivo PDF. |
idioma | Não | Idioma do OCR: 'eng' (padrão), 'por', 'spa'. |
pagina | Não | Número da página (0 = todas). Padrão: 0. |
dpi | Não | Resolução para renderização. Padrão: 300. |
TrimLines | Não | Remove espaços no início e fim de cada linha. |
RemoveEmptyLines | Não | Remove linhas em branco. |
PageBreak | Não | Insere marcador de quebra de página. |
SaveText | Não | Salva o texto extraído em arquivo .txt. |
GetCoords | Não | Retorna também as coordenadas de cada palavra. |
SaveImages | Não | Salva as imagens de cada página. |
CleanSpaces | Não | Remove espaços duplicados. |
Exemplos
string $texto = GetPdfOcr(@'C:\docs\boleto.pdf', 'por', 0, 300, 'TrimLines', 'RemoveEmptyLines')