Hur filtrerar man filer och kataloger i Rust-baserade CLI-program?

När ett kommandoradsverktyg får sina argument korrekt tolkade, börjar den verkliga logiken: att hitta de poster som matchar användarens angivna kriterier. Ett enkelt men robust sätt att navigera filsystemet i Rust är genom att använda walkdir-paketet, vilket gör det möjligt att rekursivt vandra genom katalogstrukturer.

Alla poster returneras som Result, vilket innebär att både framgångsrika och felaktiga läsningar hanteras uttryckligen. Fel, till exempel för saknade kataloger eller otillräckliga rättigheter, skrivs ut till STDERR för att inte störa den primära utmatningen till STDOUT. Detta möjliggör smidigare felsökning samtidigt som man håller funktionens kärna fokuserad på relevanta resultat.

För att uppnå filtrering efter typ av post — oavsett om det är filer, kataloger eller symboliska länkar — används ett enkelt logiskt villkor som utvärderar varje post mot användarens angivna typer. Funktionen Iterator::any spelar här en central roll: den returnerar true om åtminstone ett angivet kriterium matchar posten. Denna strategi möjliggör en deklarativ och lättförståelig kontrollstruktur utan att kompromissa med uttrycksfullhet.

När det gäller namnbaserad filtrering används reguljära uttryck (Regex) som matchas mot varje fils eller katalogs namn. Om inga namn är angivna, inkluderas alla. Men när namn ges, måste åtminstone en av de reguljära uttrycken matcha filnamnet för att posten ska inkluderas i utmatningen. Denna matchning implementeras genom ytterligare ett Iterator::any-anrop, vilket harmoniserar med tidigare logik och bevarar kodens struktur.

Kombinationen av typ- och namnfiltrering uppnås genom ett logiskt OCH (&&), vilket innebär att en post endast inkluderas om båda villkoren uppfylls. Denna konstruktion är kritisk, särskilt i program där man vill erbjuda flexibel men exakt kontroll över vilka filer som ska bearbetas.

Det är också avgörande att programmet inte kraschar vid första bästa I/O-fel. Genom att behandla varje post som en Result kan man fortsätta arbetet även om vissa kataloger inte går att läsa. Detta gör verktyget robust och användbart i verkliga scenarier, såsom systemadministration, där otillgängliga resurser inte får hindra analys av resten av filsystemet.

En subtil men viktig aspekt är plattformsoberoende hantering. Eftersom olika operativsystem kan visa sökvägar med olika konventioner (t.ex. snedstreck mot bakstreck) är det avgörande att testsviten inte gör antaganden om exakt strängmatchning, utan snarare fokuserar på semantisk korrekthet. Detta kräver att testmiljön är medveten om dessa skillnader och att själva programmet inte bygger logik på sökvägsformat.

För att möjliggöra framtida utbyggnad bör programstrukturen vara modulär. Ett lämpligt nästa steg vore att extrahera filtreringslogiken till separata funktioner eller iteratoradapter-strukturer. Det förbättrar både läsbarhet och testbarhet. Även prestanda skulle kunna förbättras, exempelvis genom parallellisering med hjälp av rayon för stora katalogträd.

Att förstå skillnaden mellan Iterator::any och Iterator::all är också centralt. Den förra används för att verifiera om något villkor uppfylls, medan den senare kräver att alla gör det. I detta sammanhang passar any bäst, eftersom man sällan kräver att en post ska matcha alla reguljära uttryck eller alla typer samtidigt.

Genom att kombinera dessa komponenter – korrekt felhantering, logisk filtrering och robust iteration – uppnår man ett kommandoradsverktyg som är kraftfullt, flexibelt och tillförlitligt. Ett sådant verktyg kan utan vidare integreras i större automatiseringsflöden eller användas som fristående analysverktyg för filsystemet.

Det som är avgörande att förstå här är hur programmets struktur speglar det semantiska syftet: att ge användaren maximal kontroll utan att göra avkall på tydlighet eller förutsägbarhet. Att hantera flera argument av samma typ, som t.ex. flera filtyper eller namn, kräver explicit och sammanhängande logik. I praktiken innebär det ofta att kombinera flera any-anrop på ett sådant sätt att inga oönskade fall slinker igenom, samtidigt som inga relevanta poster förbises. Det är just i detta skärningsfält mellan uttrycksfullhet och precision som verktygets verkliga kraft ligger.

Hur skapar man ett robust CLI-verktyg med `clap` i Rust?

I konstruktionen av robusta kommandoradsverktyg i Rust spelar argumenthantering en central roll. Med hjälp av clap-biblioteket kan vi skapa tydliga, pålitliga och användarvänliga gränssnitt där alla parametrar är definierade, validerade och lättförståeliga.

Programmet i fokus här är en Rust-implementering av Unix-verktyget comm, som jämför två filer rad för rad och sorterar dem i tre kolumner beroende på var raderna förekommer. Argumentparsern är utformad så att de två positionella argumenten tolkas som filvägar, medan övriga parametrar styr vilka kolumner som ska visas, huruvida jämförelsen ska vara skiftlägesokänslig, och vilken teckendelare som ska användas.

Att använda ArgAction::SetTrue respektive SetFalse för att kontrollera booleska flaggor ger en tydlig semantik: en flagga med -1 döljer kolumn 1, -2 döljer kolumn 2, och så vidare. Men istället för att definiera dessa som "suppress", gör vi motsatsen: vi definierar show_col1, show_col2 och show_col3 och inverterar logiken via SetFalse. Detta ger en mer intuitiv och positiv logik i koden.

Exempel på anrop med alla parametrar satta:

shell
$ cargo run -- tests/inputs/file1.txt tests/inputs/file2.txt -123 -d , -i

Här tolkas -123 som att alla kolumner ska döljas (dvs sätts till false), -d , sätter utdataavgränsare till kommatecken, och -i aktiverar skiftlägesokänslig jämförelse.

Med detta i åtanke konstrueras argumentparsern med hjälp av clap::{Arg, ArgAction, Command} i funktionen get_args, eller mer idiomatiskt via derivatmakron med #[derive(Parser)] för strukturen Args.

En viktig detalj är att endast en av filerna får vara angiven som standard input ("-"). Båda får inte vara "-" samtidigt, och detta valideras i run-funktionen. Felhantering sker genom anyhow::bail, vilket både förenklar och förtydligar felmeddelanden till användaren. Fel som inte går att ignorera – exempelvis icke-existerande filer – bör omedelbart avsluta programmet med tydlig diagnostik. Detaljerade felmeddelanden som inkluderar filnamnet ökar användbarheten dramatiskt:

lua
blargh: No such file or directory (os error 2)

Filinläsningen sköts via BufRead::lines, vilket innebär att radslut inte bevaras – ett acceptabelt val i denna kontext. Dessutom gör vi läsningen generisk med Box<dyn BufRead> för att kunna stödja både filer och standard input utan att duplikera kod.

Nästa steg är att behandla innehållet i filerna. Jämförelsen sker rad för rad. Verktyget ska kunna återskapa samma beteende som det klassiska comm, där rader sorteras i tre kolumner: de unika för första filen, de unika för den andra, och de gemensamma. En viktig aspekt här är att testfilerna i projektets tests/inputs-katalog speglar flera scenarier: tomma filer, filer med endast blankrader, eller olika kombinationer av överlappande och unika rader.

Till exempel:

shell
$ comm file1.txt file2.txt

 	 B
a
b
c
d

Här syns rader som endast finns i den ena filen, eller båda. Skiftlägeskänsligheten avgör om till exempel B och b a

Hur man hanterar kommandoradsargument för ett Rust-program som emulerar `tail`

Att skriva ett Rust-program som hanterar kommandoradsargument på rätt sätt är en central del för att skapa användarvänliga och robusta verktyg. I denna del ska vi gå igenom hur man kan hantera och validera kommandoradsargument för ett program som liknar UNIX-verktyget tail, men implementerat i Rust. Vi använder biblioteket clap för att hantera argumentparsing och ger en detaljerad genomgång av hur man definierar och validerar argument, inklusive hantering av både positiva och negativa numeriska värden.

Kommandoradsargumenten som ska hanteras av programmet inkluderar: filinmatning, antal rader eller byte, och ett valfritt tyst läge som undertrycker headers. Ett vanligt scenario är att användaren ska kunna ange antalet rader som ska visas från slutet av en eller flera filer, eller istället ange ett antal byte. Programmet ska kunna hantera felaktiga argument och ge användaren korrekt feedback.

Grundläggande argumenthantering med `clap`

För att börja skapa vårt kommandoradsprogram använder vi clap, ett populärt bibliotek för Rust som gör argumenthantering enkel och flexibel. Här definierar vi de argument som vårt program ska stödja:

Filargument (files): Detta argument krävs för att ange filerna som ska bearbetas. Det är ett positionsargument, vilket betyder att användaren måste specificera åtminstone en fil.
Antal rader (lines): Detta argument specificerar hur många rader som ska visas från slutet av filen. Standardvärdet är 10, och om användaren inte specificerar något värde, används detta.
Antal byte (bytes): Om användaren vill visa ett visst antal byte från slutet av filen kan detta argument användas. Det är ömsesidigt exklusivt med rader, vilket innebär att man inte kan ange både antalet rader och byte samtidigt.
Tyst läge (quiet): Detta flaggargument gör att headers inte visas i resultatet.

Den grundläggande koden för att definiera och bearbeta dessa argument ser ut så här:

rust
fn get_args() -> Args {

    let matches = Command::new("tailr")
        .version("0.1.0")
        .author("Ken Youens-Clark")
        .about("Rust version of `tail`")

        .arg(Arg::new("files").value_name("FILE").help("Input file(s)").required(true).num_args(1..))

        .arg(Arg::new("lines").short('n').long("lines").value_name("LINES").help("Number of lines").default_value("10"))

        .arg(Arg::new("bytes").short('c').long("bytes").value_name("BYTES").conflicts_with("lines").help("Number of bytes"))

        .arg(Arg::new("quiet").short('q').long("quiet").action(ArgAction::SetTrue).help("Suppress headers"))
        .get_matches();
    Args {
        files: matches.get_many("files").unwrap().cloned().collect(),

        lines: matches.get_one("lines").cloned().unwrap(),

        bytes: matches.get_one("bytes").cloned(),
        quiet: matches.get_flag("quiet"),
    }
}

Konflikt mellan antal rader och antal byte

En viktig aspekt av detta program är att hantera konflikten mellan argumenten för rader och byte. Eftersom dessa två alternativ inte kan användas samtidigt, ser koden till att användaren får ett felmeddelande om båda anges samtidigt. För att hantera detta i kod används conflicts_with för att säkerställa att programmet inte accepterar både lines och bytes på samma gång.

Exempel på användning:

bash
$ cargo run -- tests/inputs/empty.txt --bytes 1 --lines 1

error: the argument '--bytes' cannot be used with '--lines'

Detta säkerställer att användaren får korrekt feedback om hur man använder programmet.

Hantering av både positiva och negativa numeriska argument

En annan aspekt som är viktig är att kunna hantera både positiva och negativa värden för antalet rader eller byte som ska visas. I det här fallet använder vi i64 för att hantera både positiva och negativa värden. En särskild utmaning är att kunna särskilja mellan värdet 0 (som betyder att inget ska väljas) och +0 (som betyder att allt ska väljas).

För att lösa detta definierar vi en enum som representerar dessa olika värden:

rust
#[derive(Debug, PartialEq)]

enum TakeValue {
    PlusZero,
    TakeNum(i64),
}

När användaren anger ett numeriskt värde, ska det tolkas korrekt som antingen ett positivt eller negativt värde. För att implementera detta skriver vi en funktion parse_num som tar en sträng och returnerar antingen en TakeValue eller ett fel om argumentet inte är ett giltigt nummer.

Testfall för denna funktion säkerställer att både positiva och negativa tal tolkas korrekt:

rust
#[cfg(test)]

mod tests {
    use super::{parse_num, TakeValue::*};
    #[test]
    fn test_parse_num() {
        let res = parse_num("3".to_string());
        assert!(res.is_ok());

        assert_eq!(res.unwrap(), TakeNum(-3));

        let res = parse_num("+3".to_string());
        assert!(res.is_ok());

        assert_eq!(res.unwrap(), TakeNum(3));

        let res = parse_num("-3".to_string());
        assert!(res.is_ok());

        assert_eq!(res.unwrap(), TakeNum(-3));

        let res = parse_num("0".to_string());
        assert!(res.is_ok());

        assert_eq!(res.unwrap(), TakeNum(0));

        let res = parse_num("+0".to_string());
        assert!(res.is_ok());
        assert_eq!(res.unwrap(), PlusZero);
    }
}

Viktiga överväganden

Det är också viktigt att förstå hur programmet ska bete sig när det inte finns några filargument, eller om filen som anges inte kan hittas. Att hantera sådana fel förhindrar att programmet kraschar och gör det mer användarvänligt.

Slutligen kan användaren välja att använda -q för att undertrycka headers. Detta alternativ är användbart när man kör programmet i skript eller automatiserade miljöer där extra information inte behövs.

Hur kan man skriva och testa ett program som ersätter "ls" i Rust?

Att implementera ett program som ersätter kommandot "ls" i Rust kräver att man hanterar och formaterar filmetadata på ett precist och robust sätt. Programmet måste läsa filsystemets metadata, såsom ägare, grupp, rättigheter, antal länkar, storlek och modifieringstid, och sedan presentera denna information i ett strukturerat och läsbart format. En central utmaning är att hantera variationer i metadata beroende på system, vilket gör testning extra komplex.

Först hämtas metadata för varje fil eller katalog med hjälp av funktioner som fs::metadata. Härifrån extraheras användar- och grupp-ID, vilka sedan översätts till namn, eller om det inte är möjligt, visas som strängversioner av ID:n. Filens typ indikeras med en bokstav, där exempelvis "d" betyder katalog och "-" betyder vanlig fil. Rättigheterna formateras i oktal notation och visas i ett format som liknar Unix "ls -l".

Modifieringstiden hämtas och formateras enligt standardiserade datum- och tidsformat. Det finns särskilda metoder för att hantera storlek och antal länkar, där katalogers storlek ibland ignoreras på grund av inkonsekvenser mellan olika system. Den slutliga presentationen sker som en tabell med rader och kolumner, där varje rad representerar en fil eller katalog.

Testningen av detta program är en väsentlig del, och här uppstår flera svårigheter. Metadata såsom ägare och modifieringstid skiljer sig mellan olika maskiner, vilket gör det svårt att skriva fasta tester. Därför utformas testerna för att kontrollera att viktiga delar av utdata — som filnamn, rättigheter och filstorlek — stämmer överens med förväntningar, samtidigt som man tillåter variation i format och layout.

Testerna delas ofta upp i två kategorier: enhetstester som verifierar funktionalitet på enskilda filer, och integrationstester som kör programmet med olika argument och kontrollerar hela utdata. Ett exempel är funktionen som kör programmet med lång lista för en viss fil och sedan kontrollerar att första kolumnen (rättigheter), femte kolumnen (storlek) och sista kolumnen (filnamn) är korrekta. För kataloger ignoreras ofta storleken för att undvika fel som beror på olika systemrapporteringar.

Det är också viktigt att använda hjälpfunktioner för testning som kan hantera osäkerheter i data och struktur, till exempel genom att bryta upp utdata i rader och kolumner, filtrera bort tomma rader och jämföra mot förväntade värden utan att kräva exakt format. Genom att strukturera tester på detta sätt blir de mer robusta och kan hantera variationer i systemmiljö.

Vidare kan man ta inspiration från existerande Rust-implementationer av "ls", som exa och lsd, för att förbättra funktionaliteten och lägga till fler alternativ. En naturlig utveckling är att implementera andra kommandon, såsom basename och dirname, med samma testdrivna utvecklingsmetodik. Man kan också ta sig an mer avancerade program som tree, vilka visar en trädstruktur av filer och mappar, samtidigt som de presenterar liknande metadata som "ls".

Det är avgörande att förstå att en stor del av komplexiteten i sådana program handlar om att korrekt hantera och tolka filsystemets metadata och att anpassa presentationen efter olika operativsystem och användarkonfigurationer. Testerna måste därför balansera mellan att vara noggranna och att tillåta systemberoende variationer. Genom att använda robusta, återanvändbara testmetoder och fokusera på kärninformation som rättigheter, storlek och namn kan man säkerställa programkvalitet trots dessa utmaningar.

Hur interaktiva enheter förändrar vår vardag: Från pekskärmar till bärbar teknik
Hur uniform konvergens i Fourier-serier kan garanteras genom olika kriterier
Hur kan sakramenten forma vårt samhälle?