A téma bemutatása 9
Előadás a témában: "9.1 Tezauruszok: A hagyományos információ-visszakereső tezauruszok kidolgozásához, létrehozásához és használatához szükséges alapelvek: tesaurusok példái". - Átirat:
1 9.1. Tezauruszok. A hagyományos információ-visszakereső tezauruszok kidolgozásának, létrehozásának és használatának alapelvei. Példák a tezauruszokra.

2 A tantárgy fogalmi rendszere A tárgykör bármely alapja az e terület fogalmának rendszere. Fogalom meghatározása: A fogalom egy olyan gondolat, amely általánosságban a tárgyak és a valóság jelenségeit tükrözi tulajdonságaik és kapcsolataik rögzítésével; az utóbbiak (tulajdonságok és kapcsolatok) a koncepcióban általános és specifikus sajátosságokként jelennek meg, a tárgyak és jelenségek osztályával (nyelvi szótár)

3 Fogalmak és kifejezések A témakör fogalmának kifejezése a szövegekben, szavak vagy kifejezések, nevezett kifejezések. A tématerület fogalmának formája a terminológiai rendszert alkotja. Egy konkrét fogalom és egy domain terminológiai rendszer más kifejezéseinek összefüggése definíció segítségével definiálható

4 A fogalom meghatározása? A szó (vagy a szavak kombinációja), amely pontosan megnevezi a tudomány, a technológia, a művészet, a társadalmi élet stb. Speciális fogalmát. || Egy speciális szó vagy kifejezés, amelyet a jg. ebben a környezetben, egy szakma (az orosz nyelv nagy szava)

5 Fogalmak - a fogalmak pontos megnevezése Általában minden térség fogalma legalább egy egyedileg megértett kifejezésnek felel meg, amelynek jelentése ez a koncepció. - kifejezések a hagyományos terminológiaelmélet értelmében A kifejezések tulajdonságai - a fogalmak pontos elnevezése - a kifejezésnek közvetlenül a fogalomra kell utalnia, egyértelműen kell kifejeznie a koncepciót; - a kifejezés értelmének pontosnak kell lennie, és nem szabad átfedni más kifejezésekkel; - a kifejezés jelentése nem függhet a kontextustól. A koncepciót pontosan megfogalmazó kifejezések a terminológiaelmélet, a terminológusok tanulmányozásának függvényei

6 Szöveg Ami a valódi szövegek domén utalni a koncepció mellett az alapvető kifejezéseket használni sokféle nyelvi kifejezések, ahogy mi hívjuk a szöveg szempontjából: - szintaktikai és szóképzés változatok: a kedvezményezett a költségvetési források - költségvetési források; - lexikai változatok - csoportos beszedés, vitathatatlan leírási; - multi-értékű kifejezés, a szövegkörnyezettől függően, küldés alkalmazottak különböző fogalom művészeti, például a szó deviza különböző kontextusokban jelentheti a nemzeti valuta, vagy deviza.

7 Érték koncepció-fogalom Definíció Egyértelmű név = kifejezés terminológiaelmélet értelmében

8 Tájékozódási tezaurusz Az információ-visszakeresés tezaurusz egy olyan szabályozott domain szótár, amelyet az adott tématerületen az információ-visszakeresés minőségének javítására hoztak létre
10 Példák fogalomtár szinonimaszótár UN - UNBIS Thesaurus Thesaurus Az Európai Unió - EuroVoc tezaurusz amerikai Kongresszusi Kutató Szolgálat - LIV Szovjetunió -Pravovoy szinonimaszótár -INION -Shemakin „Műszaki szinonimaszótár» ISO szabványok, GOST

11 Hagyományos információszerzés szinonimaszótár kézi indexelés: Structure Concepts Software - kezeli Feltételes szinonimák - askriptory - egyenértékűség kapcsolatok askriptor - kezelni közötti kapcsolatok leírások
13-leírások az alom alom - részben a névtáblát daruk (emelőberendezések) vs daruk (madár) kagyló (struktúrák) - összehasonlítása a különböző szótárak Preferences mondatok: -Phonograph bejegyzések vs. bejegyzések (fonográf) Almok és többes számban: Fa (anyag) Woods (erdőterületek)

14 A leíró neve kiválasztása Gyakori tudás és használat gyakorisága Semlegesség: fejlődő nemzetek vs. alulfejlett országok Egyéb források: szótárak, jogszabályok, szinonimák - Központi költségvetés - önkormányzati költségvetés
15 A leíró-2 név kiválasztása Teljes forma vs. A neológusok, a szleng, a zsargon csökkentése Védjegyek - vs. Aspirin, Xerox Közös és tudományos név Hiteles szavak
16. A felvétel leírások alapján bőbeszédű kifejezések felosztása távon növeli a kétértelműség: növényi eredetű élelmiszer kifejezés jelentését függ szórend: Információs tudományok - tudományos információ egy szó komponens hatályán kívül szinonimaszótár, vagy túl általános: elsősegély-leíró összefüggések nem következik szerkezete: - mesterséges vesék, menekültstátuszt, közlekedési lámpák
17 hierarchikus kapcsolatokat a generikus helyzete gyakran egész szám -Authority test -Geograficheskie tárgyak -Distsipliny -hierarchical szerkezete (ezred - zászlóalj - cég) aránya példák: - a Himalája - hegység
18. Az asszociatív kapcsolatok ipar - színész -Matematika - Matematika Discipline - -Nevrologiya tárgya tanulmány - az idegrendszer Action - szer vagy eszköz -Hunting - Hunter Action - az eredmény a -Tkachestvo - szövet akció - cél -Perepletnye munka - könyv ok-okozati - halál - a méret a temetés - egységnyi szilil árammérő - erősítő Action - partner -Allergen - antiallergén gyógyszer, stb
19 Információ visszakeresés szinonimaszótár: fejlettségű Első szakasz: indexers leírja a fő témája a szöveg véletlenszerű szavak és kifejezések kapott sok szövegek a feltételeket hozott össze a családtagok közötti értelmében a feltételeket választotta ki a legreprezentatívabb része a fennmaradó szinonimák feltételes, és a többi hagyni Konkrétan általában nem tartoznak
20 Információ visszakeresés szinonimaszótár: a fejlesztés a művészet leírások - feltételek, amelyek szükségesek a kifejezés a fő téma a dokumentum szinonimák, hogy csak a legszükségesebb (például elkezd egy másik levél), hogy ne akadályozzák a munkát a indexelő Hasonló kifejezések kell csökkenteni egységes kifejezés, hogy elkerüljék szubjektivitás indexszintek a hierarchia, a felvételét speciális kifejezéseket korlátozott
22 Információvisszatérítési tezaurusz: a kapcsolatok használata Az indexer kiválasztja a legpontosabb leírót a dokumentum tartalmának leírásához. Egyesületekkel kapcsolatos problémák
23 Hagyományos IPT: application gépi feldolgozása során az ismeretek hiánya a tényleges nyelvi PONehvatka ismeretek tényleges nyelvi szoftver törvényerejű indexelés Szókincs: Jogalkotási indexelés szókincs: -az szöveg csapatok - Thesaurus haderők -in CAPITAL szöveg - a tőke, hanem a tőke, a szinonimaszótár javasolt: Minden leíró kiegészítésére listák szavak és kifejezések javasolt: minden leíró kiegészítésére listák szavak és kifejezések, de: a kétértelműség, vagy amelyek a különböző jellemzőket. De: a kétértelműség, vagy amelyek a különböző jellemzőket. disambiguation disambiguation
24 Hagyományos IPT: automatikus lekérdezéses bővítés Probléma társulásokkal Javasolt: a súlyok megadása a súlyok megadásához a kapcsolat nevének megadásához: tárgy, vagyon stb. írja be a kapcsolat nevét: objektum, tulajdon stb. KÖVETKEZTETÉS: Meg kell tanulnod, hogyan kell a nyelvi erőforrásokat kifejezetten a szöveggyűjtemények automatikus feldolgozására felépíteni
25 Thesaurus EUROVOC - többnyelvű tezaurusz tezaurusz az Európai Közösség 9 nyelven orosz változat EUROVOC - + 5000 fogalmak, amelyek tükrözik a pontos orosz többnyelvű tezaurusza -Deskriptor - nevek különböző nyelveken -Askriptory - egyes nyelvek
29 Kérdések az előadáshoz Sorolja fel a kapcsolatok fő típusát az IPT-ben. Miért kevés a hagyományos IPT az automatikus szöveges indexeléshez? A hagyományos IPT használatának módszerei az automatikus szövegfeldolgozási technológiákban (lekérdezések).