v1.0
Função

GetPdfOcr()

Extrai o texto de um PDF modo texto ou imagem usando OCR (Reconhecimento Óptico de Caracteres).
Retorno: String
Sintaxe
GetPdfOcr(caminho [, idioma [, pagina [, dpi [, opcoes...]]]])

Parâmetros

ParâmetroObrigatórioDescrição
caminhoSimCaminho completo do arquivo PDF.
idiomaNãoIdioma do OCR: 'eng' (padrão), 'por', 'spa'.
paginaNãoNúmero da página (0 = todas). Padrão: 0.
dpiNãoResolução para renderização. Padrão: 300.
TrimLinesNãoRemove espaços no início e fim de cada linha.
RemoveEmptyLinesNãoRemove linhas em branco.
PageBreakNãoInsere marcador de quebra de página.
SaveTextNãoSalva o texto extraído em arquivo .txt.
GetCoordsNãoRetorna também as coordenadas de cada palavra.
SaveImagesNãoSalva as imagens de cada página.
CleanSpacesNãoRemove espaços duplicados.

Exemplos

AthusScript
string $texto = GetPdfOcr(@'C:\docs\boleto.pdf', 'por', 0, 300, 'TrimLines', 'RemoveEmptyLines')