#import PyPDF2
#para instalarlo se necesita pip install "PyPDF2<3.0"
#pdf_archivo = open('8364904.pdf', 'rb')
#pdf_lectura = PyPDF2.PdfFileReader(pdf_archivo)
#print(pdf_lectura.documentInfo)
#print(pdf_lectura.getNumPages())
#pdf_obj = pdf_lectura.getPage(0)
#text= pdf_obj.extract_text()
#print(text)

import PyPDF2, json

### Ruta del archivo PDF
pdfFilePath='8364904.pdf'

### Inicializo un arreglo que guarda la cantidad de paginas
page_text = []

### Extraigo el texto del archivo PDF usando PyPDF2
with open('8364904.pdf', 'rb') as pdf_file:

    ### Uso el metodo de lectura de PyPDF2
    pdf_reader = PyPDF2.PdfFileReader(pdf_file)

    ### Leo las paginas del archivo PDF
    for page_num in range(len(pdf_reader.pages)):

        ### Leo la informacion del archivo PDF
        page = pdf_reader.pages[page_num]

        ### Extraigo el texto de la pagina pdf 
        text = page.extractText()

        ### Muestra el texto
        print(f"Page {page_num + 1}: ")
        print(text)

        ## Agrega el texto actual a un arreglo
        page_text.append({"page_number:  ": page_num + 1, "text: ": text})

### imprimir toda la data en formato JSON
print(page_text)

### Escribir en archivo JSON 
#with open('page_text.json', 'w') as json_file:
#    json.dump(page_text, json_file, indent=4)

### imprime el JSON 
#print(json.dumps(page_text, indent=4))