Taugakerfisgreining setninga

Yfirlit

Snapper inniheldur taugakerfisstuðða setningamörkagreini gegnum nnsplit, bæta-stigs LSTM erelíkan sem keyrir á tract (hreint Rust ONNX ályktunarvél).

Reglubundni greinarinn (sjálfgefinn) meðhöndlar enskan fræðitexta vel: skammstafanir (Dr., Fig., Eq.), innlínueiningar (tenglar, stærðfræði) og staðlað greinarmerki. Taugakerfisgreinarinn meðhöndlar tungumál þar sem reglubundin skipting dugir ekki.

Hvenær á að nota taugakerfisgreiningu

  • Texti á öðrum tungumálum en ensku (þýska, franska, kínverska, rússneska, tyrkneska o.s.frv.)

  • Texti með óvenjulegum greinarmerkjamynstrum

  • Fjöltyngd skjöl þar sem skammstöfunarlistar ná ekki yfir öll tungumál

Fyrir enskar fræðigreinar gefur reglubundni greinarinn betri niðurstöður (hraðvirkari, engin röng skil á skammstöfunum eins og „Fig.“).

Grunnnotkun

snapper --neural paper.org

Við fyrstu keyrslu hleðst enska erelíkanið (~4MB) niður og vistast í ~/.cache/nnsplit/en/. Síðari keyrslur hlaða úr skyndiminni.

Önnur tungumál en enska

Notaðu --lang til að velja tungumálalíkan:

snapper --neural --lang de paper_german.tex
snapper --neural --lang fr article_french.md
snapper --neural --lang zh document_chinese.org

Tiltæk tungumál: en, de, fr, no, sv, zh, tr, ru, uk.

Hvert erelíkan hleðst niður við fyrstu notkun (~4MB hvert) og vistast í ~/.cache/nnsplit/<lang>/.

Sérsniðin erelíkön

Hlaða sérsniðinni ONNX erelíkansskrá:

snapper --neural --model-path /path/to/custom_model.onnx paper.org

Sérsniðin erelíkön verða að fylgja nnsplit ONNX sniðinu (bæta-stigs inntak, sigmoid-úttak, split_sequence lýsigögn).

Afkastasamanburður

Stilling

Hraði

Meðhöndlun skammstafana

Best fyrir

Reglubundið (sjálfgefið)

~5ms/skrá

Framúrskarandi (80+ reglur)

Enskur fræðitexti

Taugakerfi (--neural)

~200ms/skrá

Háð erelíkani

Ekki-enskur, blandaður texti

Reglubundni greinarinn ræsist samstundis. Taugakerfisgreinarinn hleður erelíkaninu við fyrstu kvaðningu (~100-500ms) og vinnur síðan úr texta á ~200ms fyrir dæmigerða fræðiskrá.

Samþætting við sniðmeðvitaðan þáttara

Taugakerfisgreining kemur aðeins í stað setningaskiptingarinnar. Sniðmeðvitaður þáttur (kóðablokkir, stærðfræði, skúffur, töflur) gildir enn. Innlínuvernd eininga (tenglar, stærðfræði, kóði) gildir enn.

# Neural splitting + Org-mode format awareness
snapper --neural --format org paper.org

# Neural splitting + LaTeX format awareness
snapper --neural --format latex paper.tex