Fremhævningsdetektionsregler

Dette afsnit beskriver syntaksdetektionsregler.

Hver regel kan matche nul eller flere tegn i begyndelsen af strengen de bliver bedt om at teste imod. Hvis reglen matcher, bliver de matchende tegn tilknyttet stilen eller attributten defineret af reglen, og en regel vil måske spørge om den aktuelle sammenhæng er skiftet.

En regel ser sådan her ud:

<RuleName attribute="(identifier)" context="(identifier)" [regelspecifikke attributter] />

Attributten identificerer den stil der skal bruges til matchede tegn ved navn, og sammenhængen identificerer sammenhængen der skal bruges fra nu af.

Sammenhængen kan identificeres ved:

Nogle regler kan have afledte regler som så bliver evaluerede hvis den oprindelige regel matches. Hele den matchede streng vil blive givet attributten defineret af den oprindelige regel. En regel med afledte regler ser sådan her ud:

<RuleName (attributes)>
  <ChildRuleName (attributes) />
  ...
</RuleName>

Regelspecifikke attributter varierer og beskrives i følgende afsnit.

Almindelige attributter

Alle regler har følgende egenskaber fælles og er tilgængelige på alle steder (fælles egenskaber) vises. Egenskaberne attribute og context er nødvendige, alle øvrige er valgfrie.

Dynamiske regler

Visse regler tillader den valgfrie egenskab dynamic med Boolesk type, som har standardværdi false. Hvis dynamic er true, kan en regel bruge pladsmarkører som repræsenterer teksten som matches af en regel med et regulært udtryk som skifter til nuværende sammenhæng med sin egenskab string eller char. I en string erstattes pladsmarkøren %N (hvor N er et tal) med tilsvarende N i det kaldende regulære udtryk. I en char skal pladsmarkøren være et tal N og det erstattes med det første tegn i tilsvarende N i det kaldende regulære udtryk. Nårsomhelst en regel tillader denne egenskab, indeholder den (dynamic).

Reglerne i detalje

DetectChar

Detekterer et enkelt tegn. Almindeligt brugt for eksempel til at finde slutningen af citerede strenge.

<DetectChar char="(character)" (almindelige attributter) (dynamisk) />

char-attributten definerer tegnet der skal matches.

Detect2Chars

Detekterer to specifikke tegn i en defineret rækkefølge.

<Detect2Chars char="(tegn)" char1="(tegn)" (almindelige attributter) (dynamisk) />

char-attributten definerer det første tegn der skal matches, char1 det andet.

AnyChar

Detekterer et tegn fra et bestemt sæt angivne tegn.

<AnyChar String="(string)" (almindelige attributter) />

Streng-attributten definerer sættet af tegn.

StringDetect

Detekterer en eksakt streng.

<StringDetect String="(string)" [insensitive="true|false;"] (almindelige attributter) (dynamisk) />

Streng-attributten definerer strengen der skal matches. insensitive-attributten er som standard false og fødes til strengsammenligningsfunktionen. Hvis værdien er true bruges insensitive sammenligning.

RegExpr

Matcher mod et regulært udtryk.

<RegExpr String="(string)" [insensitive="true|false;"] [minimal="true|false"] (almindelige attributter) (dynamisk) />

Streng-attributten definerer det regulære udtryk.

insensitive er som standard false og videregives til den regulære udtryksmaskine.

minimal er som standard false og viederegives til den regulære udtryksmaskine.

Fordi reglerne altid matches imod begyndelsen af den aktuelle streng, vil et regulært udtryk der starter med en karet (^) indikere at reglen kun skal matches mod begyndelsen af en linje.

Se Regulære udtryk for yderligere oplysninger om disse.

nøgleord

Detektér et nøgleord fra en bestemt liste.

<keyword String="(list name)" (almindelige attributter) />

String-attributten identificerer nøgleordslisten ved navn. En liste med dette navn skal eksistere.

Int

Detektér et heltal.

<Int (almindelige attributter) (dynamisk) />

Denne regel har ingen specifikke attributter. Afledte regler bruges typisk til at detektere kombinationer af L og U efter tallet, indikerende heltalstypen i programkode. Rent faktisk er alle regler tilladte som afledte regler, selvom DTD'en kun tillader den afledte regel StringDetect.

Følgende eksempel matcher heltal som følges af tegnet 'L'.

<Int attribute="Decimal" context="#stay" >
  <StringDetect attribute="Decimal" context="#stay" String="L" insensitive="true"/>
</Int>

Decimaltal

Detektér et decimaltal.

<Float (almindelige attributter) />

Denne regel har ingen specifikke egenskaber. AnyChar tillades som en delregel, og bruges typisk for at detektere kombinationer, se reglen Int for en reference.

HlCOct

Detektér en oktal pointnummer repræsentation.

<HlCOct (almindelige attributter) />

Denne regel har ingen specifikke attributter.

HlCHex

Detektér en hexadecimal nummerrepræsentation.

<HlCHex (almindelige attributter) />

Denne regel har ingen specifikke attributter.

HlCStringChar

Detektér et escape-tegn.

<HlCStringChar (almindelige attributter) />

Denne regel har ingen specifikke attributter.

Den matcher bogstavelige repræsentationer af tegn som er almindeligt brugte i programkode, for eksempel \n (nylinje) eller \t (TAB).

Følgende tegn vil matche hvis de følger efter en baglæns skråstreg (\): abefnrtv"'?\. Derudover vil escape-hexadecimale tal som for eksempel \xff og escape-oktale tal, for eksempel \033 matche.

HlCChar

Detektér et C-tegn.

<HlCChar (almindelige attributter) />

Denne regel har ingen specifikke attributter.

Det matcher C-tegn omgivet af apostrofer (for eksempel 'c'). Der kan være et enkelt tegn eller en tegnefølge indenfor apostrofferne. Se HlCStringChar for matchede tegnfølgder.

RangeDetect

Detekterer en streng med defineret start- sluttegn.

<RangeDetect char="(character)"  char1="(character)" (almindelige attributter) />

char definerer tegnet der starter området, char1 tegnet der afslutter området.

Nyttigt til at detektere for eksempel små citerede strenge og den slags, men bemærk at fordi fremhævningsmaskinen virker på én linje af gangen, vil den ikke finde strenge der går udover et linjebrud.

LineContinue

Matcher slutningen af linjen.

<LineContinue (almindelige attributter) />

Denne regel har ingen specifikke attributter.

Denne regel er nyttig til at skifte sammenhæng ved linjeskift, hvis det sidste tegn er en baglæns skråstreg ('\'). Dette behøves for eksempel i C/C++ for at fortsætte makroer eller strenge.

IncludeRules

Inkludér regler fra et anden sammenhæng eller sprog/fil.

<IncludeRules context="sammenhængslink" [includeAttrib="true|false"] />

Egenskaben context definerer hvilken sammenhæng som skal inkluderes.

Hvis den er en enkelt streng indeholder den alle definerede regler i den nuværende sammenhæng, for eksempel:

<IncludeRules context="anden-sammenhæng" />

Hvis strengen begynder med ## leder syntaksfremhævningssystemet efter en anden sprogdefinition med det givne navn, for eksempel:

<IncludeRules context="##C++" />

Hvis egenskaben includeAttrib er true, ændres målegenskaben til kildens egenskab. Dette kræves for eksempel for at kommentarer skal virke hvis tekst som matches af den inkluderede sammenhæng har en anden fremhævning end værtsammenhængen.

DetectSpaces

Detektér blanke tegn.

<DetectSpaces (almindelige attributter) />

Denne regel har ingen specifikke attributter.

Brug denne regel hvis du véd at der kan være flere blanke tegn foran, for eksempel i begyndelsen af indrykkede linjer. Reglen springer over alle blanke tegn på en gang, i stedet for at prøve flere regler og springe over en af gangen eftersom den ikke matcher.

DetectIdentifier

Detektér strenge for identifikator (som et regulært udtryk: [a-zA-Z_][a-zA-Z0-9_]*).

<DetectIdentifier (fælles egenskaber) />

Denne regel har ingen specifikke attributter.

Brug denne regel for at springe over en streng med ordtegn på en gang, i stedet for at teste den med flere regler og springe over et af gangen afhængig af at ingenting matcher.

Vink og tricks

Når du har forstået hvordan sammenhængsskift virker bliver det nemt at skrive fremhævningsdefinitioner. Du bør alligevel nøje kontrollere hvilken regel du vælger i hvilken situation. Regulære udtryk er meget kraftfulde, men de er langsomme sammenlignet med andre regler. Du bør derfor tage hensyn til følgende vink.

  • Hvis du kun matcher to tegn, brug Detect2Chars i stedet for StringDetect. Det samme for DetectChar.

  • Regulære udtryk er nemme at bruge, men oftest er der en anden meget hurtigere måde at opnå samme resultat. Antag at du kun vil matche tegnet '#' hvis det er det første tegn på en linje. En løsning baseret på regulære udtryk ville se sådan ud:

    <RegExpr attribute="Macro" context="macro" String="^\s*#" />
    Du kan opnå det samme meget hurtigere med:
    <DetectChar attribute="Macro" context="macro" char="#" firstNonSpace="true" />
    Hvis du vil matche det regulære udtryk '^#' kan du stadigvæk bruge DetectChar med egenskaben column="0". Egenskaben column tæller baseret på tegn, så en tabulator er stadigvæk kun et tegn.

  • Du kan skifte sammenhæng uden at behandle tegn. Antag at du vil skifte sammenhæng når du støder på strengen */, men skal behandle denne streng i næste sammenhæng. Reglen nedenfor matcher, og egenskaben lookAhead gør at fremhævningen beholder den matchede strengen for næste sammenhæng.

    <Detect2Chars attribute="Comment" context="#pop" char="*" char1="/" lookAhead="true" />

  • Brug DetectSpaces hvis du véd at mange blanke tegn forekommer.

  • Brug DetectIdentifier i stedet for et regulært udtryk '[a-zA-Z_]\w*'.

  • Brug standardstiler overalt du kan. På den måde finder brugeren et bekendt miljø.

  • Kig i andre XML-filer for at se hvordan andre implementerede trickede regler.

  • Du kan validere alle XML-filer ved at bruge kommandoen xmllint --dtdvalid language.dtd min-syntax.xml.

  • Hvis du meget ofte gentager komplekse regulære udtryk kan du bruge ENTITETER. For eksempel:

    <?xml version="1.0" encoding="UTF-8"?>
    <!DOCTYPE language SYSTEM "language.dtd"
    [
            <!ENTITY minref    "[A-Za-z_:][\w.:_-]*">
    ]>
    

    Nu kan du bruge &minref; i stedet for det regulære udtryk.