Hvordan behandle store Excel-filer og generere PDF-rapporter med Python

Når det gjelder behandling av store datamengder i Excel-filer, er det viktig å benytte teknikker som ikke krever mye minne, samtidig som man opprettholder effektivitet og pålitelighet. Ved å bruke Python-biblioteket openpyxl kan vi håndtere både lesing og skriving av Excel-filer på en minneeffektiv måte. Her skal vi utforske hvordan man kan lese, prosessere og eksportere store Excel-filer, samt generere PDF-rapporter ved hjelp av verktøy som WeasyPrint.

Når vi arbeider med store Excel-filer, er det ofte viktig å benytte en lesemodus som kun holder en liten del av filen i minnet om gangen. Dette gjøres ved å bruke read_only=True i openpyxl, som gjør at filen kan åpnes uten å laste hele innholdet i minnet. Dette er avgjørende når man arbeider med filer som kan være på flere gigabyte, da det forhindrer at programmet krasjer eller bruker unødvendig mye minne.

En annen nyttig flagg i openpyxl er data_only=True, som gjør at vi kun får verdiene fra cellene, uten å måtte laste inn formateringsinformasjon. Dette bidrar til å gjøre prosesseringen raskere og lettere. Når vi prosesserer Excel-filer, kan vi også hente ut kolonneoverskriftene og bruke dem til å mappe verdiene i hver rad til et ordbokformat for enklere behandling:

python
from openpyxl import load_workbook
def process_excel_with_headers(file_path, sheet_name=None):
    wb = load_workbook(file_path, read_only=True, data_only=True)
    ws = wb[sheet_name] if sheet_name else wb.active
    rows = ws.iter_rows(values_only=True)
    headers = next(rows)
    for values in rows:
        row = dict(zip(headers, values))
        handle_row(row)

Denne metoden gjør det mulig å behandle Excel-filer på samme måte som CSV-filer, samtidig som vi bevarer filens opprinnelige struktur. Dette er en praktisk tilnærming når man arbeider med datasett som er for store til å lastes helt inn i minnet.

Skriving og eksportering av Excel-filer

En vanlig oppgave når vi behandler store datasett, er å eksportere bearbeidede data tilbake til en Excel-fil. For å gjøre dette effektivt, kan vi bruke openpyxl på en måte som unngår å laste inn hele filen i minnet. Vi kan bruke write_only=True når vi lager en ny arbeidsbok, noe som betyr at kun de nødvendige radene lastes inn etter hvert som de skrives ut:

python
from openpyxl import Workbook
def export_data_to_excel(rows, output_path, headers):
    wb = Workbook(write_only=True)
    ws = wb.create_sheet()
    ws.append(headers)
    for row in rows:
        ws.append([row.get(header, "") for header in headers])
    wb.save(output_path)

Ved å bruke write_only=True kan vi effektivt eksportere data som er for store til å lastes inn i minnet samtidig. Dette er spesielt nyttig når vi arbeider med tusenvis eller hundretusener av rader.

Håndtering av koding, datatyper og feil

Både Excel- og CSV-filer kan inneholde utfordringer som uforenlige tegnsett, inkonsistente kolonneantall eller blandede datatyper. For å sikre at skriptene våre er robuste, er det viktig å:

Angi kodingen eksplisitt (UTF-8 er det tryggeste for de fleste moderne filer).
Validere hver rad for å fange opp feil uten å bryte strømmen.
Håndtere manglende eller ekstra kolonner ved å bruke dict.get() og standardverdier.
Normalisere datatyper tidlig i prosessen (for eksempel konvertere numeriske strenger til tall).

Et enkelt eksempel på feilhåndtering kan være å fange unntak når vi prosesserer hver rad, slik at vi kan loggføre feil uten å stoppe programmet:

python
def safe_handle_row(row):

    try:
        process_row(row)
    except Exception as e:
        log_error(e, row)

Ved å benytte en strømmetilnærming til lesing og skriving, kan vi behandle datasett som ellers ville krasje tradisjonelle minnebaserte metoder. Dette gjør det mulig å jobbe med store filer på maskiner med begrensede ressurser, og gir oss et verktøy som er nyttig for alt fra rask ETL-behandling til produksjonsklare webtjenester.

Generering av PDF-rapporter

En annen viktig oppgave i databehandling er generering av profesjonelle, automatiserte PDF-rapporter. Dette kan være nyttig for fakturering, analyser, overholdelse av krav eller kunderapporter. PDF-er er universelt lesbare, kan skrives ut, og har rik stylingmulighet via HTML og CSS, noe som gjør dem ideelle for rapporter som fakturaer eller tilpassede analytiske dashbord.

For å generere PDF-er fra HTML kan vi bruke moderne verktøy som WeasyPrint, et Python-bibliotek som støtter CSS og kan konvertere HTML til PDF på en pålitelig måte. Et alternativ til WeasyPrint er å bruke headless Chrome, som gir full nettleserkraft for serverbaserte skript.

For å lage dynamiske rapporter kan vi bruke Jinja2, et templating-bibliotek som er vanlig i webutvikling. Jinja2 lar oss lage HTML-maler der vi kan sette inn live data, og på den måten generere skreddersydde rapporter. Et eksempel på en Jinja2-mal for en transaksjonsrapport kan se slik ut:

html
<h1>{{ report_title }}</h1>
<p>Generated at: {{ generated_at }}</p>
<p>Total Transactions: {{ transactions | length }}</p>
<p>Report Author: {{ author }}</p>
<table>
  <thead>
    <tr>
      <th>Date</th>
      <th>Description</th>
      <th>Amount</th>
    </tr>
  </thead>
  <tbody>
    {% for t in transactions %}
    <tr>
      <td>{{ t.date }}</td>
      <td>{{ t.description }}</td>
      <td>{{ "%.2f"|format(t.amount) }}</td>
    </tr>
    {% endfor %}
  </tbody>
</table>

Ved å bruke denne malen kan vi generere HTML-innhold som deretter kan konverteres til en PDF ved hjelp av WeasyPrint.

python
from weasyprint import HTML

def html_to_pdf_bytes(html: str) -> bytes:
    pdf_file = HTML(string=html).write_pdf()
    return pdf_file

Denne funksjonen tar HTML-innhold som input og returnerer en PDF-fil som en byte-strøm, klar til å lagres eller strømmes.

Effektiv levering av PDF-er

For å levere disse PDF-rapportene effektivt, kan vi bruke asynkrone strømmetjenester, som FastAPI’s StreamingResponse. Dette lar oss strømme PDF-en direkte til klienten uten å bruke for mye serverminne eller tråder, noe som er spesielt viktig når vi håndterer mange samtidige forespørsler.

python
from fastapi import APIRouter, Response
from fastapi.responses import StreamingResponse
import io
router = APIRouter()
@router.post("/reports/pdf")

async def generate_pdf_report(data: dict):

    transactions = data.get("transactions", [])
    html = render_report_html(transactions)
    pdf_bytes = html_to_pdf_bytes(html)
    return StreamingResponse(io.BytesIO(pdf_bytes), media_type="application/pdf")

Denne tilnærmingen gjør det mulig å levere PDF-rapporter umiddelbart, og gir en optimal brukeropplevelse.

Hvordan Generere PDF-rapporter og Håndtere Bilder i Python-applikasjoner

Å lage og generere PDF-rapporter er en essensiell ferdighet i enhver Python-applikasjon, spesielt når man jobber med data- eller forretningsrapporter. Enten det dreier seg om enkle oversikter eller store, komplekse rapporter, gir teknikkene for PDF-generering i Python en solid grunnlag for å levere dokumenter av høy kvalitet til brukerne. På samme måte krever applikasjoner som håndterer bilder - for eksempel profiler, produkter eller galerier - en effektiv måte å generere og håndtere bildeminiatyrer på. Denne artikkelen fokuserer på hvordan man kan implementere PDF-rapportgenerering og bildebehandling, inkludert oppretting av miniutgaver, i Python-applikasjoner ved hjelp av FastAPI og relevante biblioteker.

Generering av PDF-rapporter i Python

Generering av PDF-rapporter starter vanligvis med å renderere innholdet som HTML. Dette gir fleksibilitet i hvordan dataene presenteres. I første steg genereres HTML-koden basert på de dataene som skal rapporteres. Deretter kan HTML-en konverteres til en PDF-fil, enten synkront eller asynkront, ved hjelp av biblioteker som WeasyPrint eller headless Chrome.

For å gjøre dette effektivt, kan man bruke en enkel FastAPI-rute som illustrert i følgende kode:

python
author = data.get("author", "System")
title = data.get("title", "Transaction Report")
html = render_report_html(transactions, author, title)
pdf_bytes = html_to_pdf_bytes(html)
return StreamingResponse(io.BytesIO(pdf_bytes), media_type="application/pdf", headers={
    "Content-Disposition": "inline; filename=report.pdf"
})

Denne koden tar inn dataene (som transaksjoner, forfatter og tittel) og genererer en PDF-rapport som svar til brukeren. Ved å bruke asynkrone metoder kan man håndtere rapportgenerering av store eller komplekse data uten å blokkere andre prosesser i applikasjonen. Dette er spesielt viktig når man jobber med større rapporter, da det tillater en mer effektiv og skalerbar løsning. For enda større rapporter kan man dele innholdet i seksjoner og sende det i biter, eller bruke midlertidige filer som buffere.

Håndtering av Bildeopplastinger og Miniatyrbilder

Når en applikasjon tillater opplasting av bilder, er det ofte nødvendig å generere miniutgaver av bildene i flere størrelser. Dette er viktig for å sikre at brukergrensesnittet er raskt, og at båndbredden for brukerne blir spart, samtidig som man gir responsivt design og høyoppløselige bilder uten å overbelaste backend.

Python-biblioteket Pillow er svært effektivt for å håndtere bildebehandling. Det gir et lettvekts, men kraftig verktøysett for alt fra enkel skalering til avanserte fargeendringer og metadata-preservering. Med Pillow kan vi enkelt generere miniutgaver i ulike størrelser for bilder som lastes opp til serveren. Ved å bruke FastAPI sammen med Pillow kan vi lage en effektiv rute som både lagrer det opplastede bildet og genererer nødvendige miniutgaver.

Her er et eksempel på hvordan dette kan implementeres i en FastAPI-rute:

python
from fastapi import APIRouter, UploadFile, File, HTTPException
from PIL import Image
import os
router = APIRouter()
UPLOAD_DIR = "uploaded_images"

THUMBNAIL_SIZES = [(64, 64), (128, 128), (256, 256)]

os.makedirs(UPLOAD_DIR, exist_ok=True)
@router.post("/upload-image/")
async def upload_image(file: UploadFile = File(...)):
    if not file.content_type.startswith("image/"):
        raise HTTPException(status_code=400, detail="Invalid image format")
    file_ext = os.path.splitext(file.filename)[1].lower()
    save_path = os.path.join(UPLOAD_DIR, file.filename)
    # Save original file

    with open(save_path, "wb") as out_file:

        content = await file.read()
        out_file.write(content)
    # Generate and save thumbnails
    thumbnails = []
    try:
        image = Image.open(save_path)
        for size in THUMBNAIL_SIZES:
            thumb = image.copy()
            thumb.thumbnail(size)
            thumb_name = f"{os.path.splitext(file.filename)[0]}_{size[0]}x{size[1]}{file_ext}"
            thumb_path = os.path.join(UPLOAD_DIR, thumb_name)
            thumb.save(thumb_path)
            thumbnails.append({"size": size, "path": thumb_path})
    except Exception as e:
        raise HTTPException(status_code=500, detail=f"Image processing failed: {e}")
    return {
        "original": save_path,
        "thumbnails": thumbnails
    }

I denne ruten kontrollerer vi først om filen er et bilde ved å sjekke filens MIME-type. Deretter lagres bildet i sitt originale format, og flere miniutgaver opprettes i forhåndsdefinerte størrelser (f.eks. 64x64, 128x128, 256x256). Dette lar oss tilby et raskt og effektivt bildehåndteringssystem som fungerer på tvers av enheter og skjermstørrelser.

Pillow gjør det enkelt å opprette miniutgaver, og ved å bruke metoden thumbnail() kan man skalere bildene proporsjonalt, noe som sikrer at bildene ikke blir forvrengt. Hvis man ønsker mer kontroll over bildestørrelsene, kan man justere listen over miniutgavestørrelser eller til og med bruke en metode for å beskjære bildet til ønsket størrelse.

Markdown til HTML-konvertering

En annen viktig komponent i mange applikasjoner er håndtering og konvertering av brukerinnhold skrevet i Markdown-format. Dette formatet er populært på grunn av sin enkle og menneskelige lesbarhet, samtidig som det gir nok struktur for tekstinnhold som overskrifter, lister og kodesnutter.

For å konvertere Markdown til HTML på en trygg og effektiv måte, kan man bruke bibliotekene markdown-it-py og bleach. markdown-it-py er et raskt og utvidbart Markdown-parser som gir mulighet til å konvertere Markdown-tekst til HTML, mens bleach brukes til å rense HTML-en for eventuelle sikkerhetsproblemer som kan oppstå ved utrygt brukerinnhold. Sammen gir disse bibliotekene en robust løsning for håndtering av Markdown-innhold i applikasjoner.

Etter installasjonen av nødvendige biblioteker kan vi implementere en funksjon som konverterer Markdown til HTML:

python
from markdown_it import MarkdownIt

def markdown_to_html(markdown_text: str) -> str:

    md = MarkdownIt()
    html = md.render(markdown_text)
    return html

Denne funksjonen kan enkelt integreres i applikasjoner for å transformere brukerinnhold til HTML for visning på nettsider. Ved å bruke bleach kan vi også kontrollere hvilke HTML-elementer og attributter som er tillatt, og dermed sikre at brukerens HTML ikke inneholder skadelige elementer som kan utnyttes i XSS-angrep.

I tillegg til konvertering, bør man alltid sørge for at brukerinnhold blir sanitert og at kun trygge HTML-etiketter og attributter tillates, for å beskytte applikasjonen mot sikkerhetstrusler.

Hvordan avsløre skjulte identiteter: En historie om observasjon og strategi
Hvordan finner man kunstnerisk frihet gjennom strukturert veiledning?
Hvordan forstå arabiske menyer og matkategorier: En guide til autentiske arabiske retter
Hvordan Galilei og hans Forløpere Endret Vårt Syn på Universet