Taugakerfisgreining setninga¶
Yfirlit¶
Snapper inniheldur taugakerfisstuðða setningamörkagreini gegnum nnsplit, bæta-stigs LSTM erelíkan sem keyrir á tract (hreint Rust ONNX ályktunarvél).
Reglubundni greinarinn (sjálfgefinn) meðhöndlar enskan fræðitexta vel: skammstafanir (Dr., Fig., Eq.), innlínueiningar (tenglar, stærðfræði) og staðlað greinarmerki. Taugakerfisgreinarinn meðhöndlar tungumál þar sem reglubundin skipting dugir ekki.
Hvenær á að nota taugakerfisgreiningu¶
Texti á öðrum tungumálum en ensku (þýska, franska, kínverska, rússneska, tyrkneska o.s.frv.)
Texti með óvenjulegum greinarmerkjamynstrum
Fjöltyngd skjöl þar sem skammstöfunarlistar ná ekki yfir öll tungumál
Fyrir enskar fræðigreinar gefur reglubundni greinarinn betri niðurstöður (hraðvirkari, engin röng skil á skammstöfunum eins og „Fig.“).
Grunnnotkun¶
snapper --neural paper.org
Við fyrstu keyrslu hleðst enska erelíkanið (~4MB) niður og vistast í ~/.cache/nnsplit/en/. Síðari keyrslur hlaða úr skyndiminni.
Önnur tungumál en enska¶
Notaðu --lang til að velja tungumálalíkan:
snapper --neural --lang de paper_german.tex
snapper --neural --lang fr article_french.md
snapper --neural --lang zh document_chinese.org
Tiltæk tungumál: en, de, fr, no, sv, zh, tr, ru, uk.
Hvert erelíkan hleðst niður við fyrstu notkun (~4MB hvert) og vistast í ~/.cache/nnsplit/<lang>/.
Sérsniðin erelíkön¶
Hlaða sérsniðinni ONNX erelíkansskrá:
snapper --neural --model-path /path/to/custom_model.onnx paper.org
Sérsniðin erelíkön verða að fylgja nnsplit ONNX sniðinu (bæta-stigs inntak, sigmoid-úttak, split_sequence lýsigögn).
Afkastasamanburður¶
Stilling |
Hraði |
Meðhöndlun skammstafana |
Best fyrir |
|---|---|---|---|
Reglubundið (sjálfgefið) |
~5ms/skrá |
Framúrskarandi (80+ reglur) |
Enskur fræðitexti |
Taugakerfi ( |
~200ms/skrá |
Háð erelíkani |
Ekki-enskur, blandaður texti |
Reglubundni greinarinn ræsist samstundis. Taugakerfisgreinarinn hleður erelíkaninu við fyrstu kvaðningu (~100-500ms) og vinnur síðan úr texta á ~200ms fyrir dæmigerða fræðiskrá.
Samþætting við sniðmeðvitaðan þáttara¶
Taugakerfisgreining kemur aðeins í stað setningaskiptingarinnar. Sniðmeðvitaður þáttur (kóðablokkir, stærðfræði, skúffur, töflur) gildir enn. Innlínuvernd eininga (tenglar, stærðfræði, kóði) gildir enn.
# Neural splitting + Org-mode format awareness
snapper --neural --format org paper.org
# Neural splitting + LaTeX format awareness
snapper --neural --format latex paper.tex