Kontrolliertes Vokabular
Kontrollierte Vokabulare bieten eine Möglichkeit, Wissen für den späteren Abruf zu organisieren. Sie werden in Schlagwortverzeichnissen , Schlagworten , Thesauri , [1] [2] Taxonomien und anderen Wissensorganisationssystemen verwendet . Kontrollierte Vokabularschemata erfordern die Verwendung vordefinierter, autorisierter Begriffe, die von den Designern der Schemata vorausgewählt wurden, im Gegensatz zu Vokabularen natürlicher Sprache , die keine solche Einschränkung haben.
In der Bibliotheks- und Informationswissenschaft
In der Bibliotheks- und Informationswissenschaft ist kontrolliertes Vokabular eine sorgfältig ausgewählte Liste von Wörtern und Phrasen , die verwendet werden, um Informationseinheiten (Dokument oder Arbeit) zu markieren , damit sie durch eine Suche leichter gefunden werden können. [3] [4] Kontrollierte Vokabulare lösen die Probleme von Homographen , Synonymen und Polysemen durch eine Bijektion zwischen Konzepten und autorisierten Begriffen. Kurz gesagt reduzieren kontrollierte Vokabulare die Mehrdeutigkeit, die normalen menschlichen Sprachen innewohnt, in denen dem gleichen Konzept unterschiedliche Namen gegeben werden können, und stellen die Konsistenz sicher.
Beispielsweise müssen in den Schlagwortüberschriften der Library of Congress [5] (ein Schlagwortsystem, das ein kontrolliertes Vokabular verwendet) autorisierte Begriffe – in diesem Fall Schlagworte – ausgewählt werden, um die Wahl zwischen verschiedenen Schreibweisen desselben Wortes zu handhaben (amerikanisch gegen Briten), Auswahl zwischen wissenschaftlichen und populären Begriffen ( Kakerlake gegen Periplaneta americana ) und Auswahl zwischen Synonymen ( Automobil gegen Auto ) neben anderen schwierigen Themen.
Die Auswahl autorisierter Begriffe basiert auf den Prinzipien der Benutzergarantie (welche Begriffe werden Benutzer wahrscheinlich verwenden), der literarischen Garantie (welche Begriffe werden im Allgemeinen in der Literatur und Dokumenten verwendet) und der strukturellen Garantie (Begriffe werden unter Berücksichtigung der Struktur, des Umfangs der der kontrollierte Wortschatz).
Kontrollierte Vokabulare behandeln typischerweise auch das Problem der Homographen mit Qualifizierern. Zum Beispiel muss der Begriff Pool qualifiziert werden, um sich entweder auf den Swimmingpool oder den Spielpool zu beziehen, um sicherzustellen, dass sich jeder autorisierte Begriff oder jede zulässige Überschrift nur auf ein Konzept bezieht.
In Bibliotheken verwendete Typen
Es gibt zwei Hauptarten von kontrollierten Vokabularwerkzeugen, die in Bibliotheken verwendet werden: Schlagworte und Thesauri. Während die Unterschiede zwischen den beiden abnehmen, gibt es immer noch einige kleinere Unterschiede.
Historisch wurden Schlagworte von Katalogisierern zur Beschreibung von Büchern in Bibliothekskatalogen entwickelt, während Thesauri von Indexern verwendet wurden, um Indexbegriffe auf Dokumente und Artikel anzuwenden. Schlagworte sind in der Regel breiter angelegt und beschreiben ganze Bücher, während Thesauri eher spezialisiert sind und sehr spezifische Disziplinen abdecken. Auch wegen des Zettelkatalogsystems neigen Schlagworte dazu, Begriffe in indirekter Reihenfolge zu haben (obwohl diese mit dem Aufkommen automatisierter Systeme entfernt werden), während Thesaurus-Begriffe immer in direkter Reihenfolge stehen. Schlagworte neigen auch dazu, eine stärkere Vorab-Koordination von Begriffen zu verwenden, so dass der Designer des kontrollierten Vokabulars verschiedene Konzepte miteinander kombiniert, um eine autorisierte Schlagwort-Überschrift zu bilden. (zB Kinder und Terrorismus), während Thesauri dazu neigen, singuläre direkte Begriffe zu verwenden. Schließlich führen Thesauri nicht nur gleichwertige Begriffe, sondern auch engere, weiter gefasste Begriffe und verwandte Begriffe unter verschiedenen zugelassenen und nicht zugelassenen Begriffen auf, während dies in der Vergangenheit bei den meisten Schlagworten nicht der Fall war.
Zum Beispiel hatte die Betreffüberschrift der Library of Congress selbst bis 1943 keine große syndetische Struktur, und es dauerte bis 1985, als sie begann, die thesauriartigen Begriffe „ Broader term “ und „ Narrow term “ zu übernehmen.
Die Begriffe werden von ausgebildeten Fachleuten (einschließlich Bibliothekaren und Informatikern) ausgewählt und organisiert, die über Fachkenntnisse im Fachgebiet verfügen. Begriffe aus kontrolliertem Vokabular können genau beschreiben, worum es in einem gegebenen Dokument tatsächlich geht, auch wenn die Begriffe selbst nicht im Text des Dokuments vorkommen. Zu den bekannten Schlagwortsystemen gehören das Library of Congress-System , MeSH und Sears . Bekannte Thesauri sind der Thesaurus Kunst und Architektur und der Thesaurus ERIC .
Die Auswahl der zu verwendenden autorisierten Begriffe ist eine knifflige Angelegenheit. Abgesehen von den oben bereits behandelten Bereichen muss der Designer die Spezifität des gewählten Begriffs berücksichtigen, ob Direkteingabe, Interkonsistenz und Stabilität der Sprache verwendet werden sollen. Schließlich ist die Menge der Vorkoordinaten (in diesem Fall wird der Grad der Aufzählung gegenüber der Synthese ein Problem) und der Nachkoordinate im System ein weiteres wichtiges Thema.
Kontrollierte Vokabularelemente (Begriffe/Phrasen), die als Tags verwendet werden , um den Prozess der Inhaltsidentifizierung von Dokumenten zu unterstützen, oder andere Informationssystementitäten (zB DBMS, Webdienste) gelten als Metadaten .
Indizierungssprachen
Es gibt drei Haupttypen von Indexierungssprachen.
- Kontrollierte Indexierungssprache – nur genehmigte Begriffe können vom Indexer verwendet werden, um das Dokument zu beschreiben
- Indizierungssprache in natürlicher Sprache – jeder Begriff aus dem betreffenden Dokument kann verwendet werden, um das Dokument zu beschreiben
- Freie Indexierungssprache – jeder Begriff (nicht nur aus dem Dokument) kann verwendet werden, um das Dokument zu beschreiben
Bei der Indexierung eines Dokuments muss der Indexer auch den Grad der Indexierungserschöpfung wählen, den Detaillierungsgrad, in dem das Dokument beschrieben wird. Bei Verwendung einer geringen Indexerschöpfung werden beispielsweise kleinere Aspekte der Arbeit nicht mit Indexbegriffen beschrieben. Im Allgemeinen gilt: Je höher die Indexierungserschöpfung, desto mehr Begriffe werden für jedes Dokument indexiert.
In den letzten Jahren hat sich die Freitextsuche als Zugang zu Dokumenten durchgesetzt. Dies beinhaltet die Verwendung einer Indizierung in natürlicher Sprache mit einer vollständig auf Maximum gesetzten Indizierung (jedes Wort im Text wird indiziert ). Es wurden viele Studien durchgeführt, um die Effizienz und Effektivität von Freitextsuchen mit Dokumenten zu vergleichen, die von Experten unter Verwendung einiger gut ausgewählter kontrollierter Vokabulardeskriptoren indiziert wurden.
Vorteile
Von kontrolliertem Vokabular wird oft behauptet, dass es die Genauigkeit der Freitextsuche verbessert, beispielsweise um irrelevante Elemente in der Suchliste zu reduzieren . Diese irrelevanten Elemente ( falsche positive Ergebnisse ) werden oft durch die inhärente Mehrdeutigkeit der natürlichen Sprache verursacht . Nehmen Sie zum Beispiel das englische Wort Fußball . Fußball ist die Bezeichnung für verschiedene Mannschaftssportarten . Die weltweit beliebteste dieser Mannschaftssportarten ist der Vereinsfußball , der in einigen Ländern auch Fußball genannt wird. Das Wort Football wird auch auf Rugby Football ( Rugby Union und Rugby League ), American Football , Australian Rules Football , Gaelic Football und Canadian Football angewendet . Eine Suche nach Fußball wird daher Dokumente finden, die sich auf mehrere völlig unterschiedliche Sportarten beziehen. Kontrolliertes Vokabular löst dieses Problem, indem die Dokumente so markiert werden , dass die Mehrdeutigkeiten eliminiert werden.
Im Vergleich zur Freitextsuche kann die Verwendung eines kontrollierten Vokabulars die Leistung eines Information-Retrieval-Systems dramatisch steigern, wenn die Leistung anhand der Präzision gemessen wird (der Prozentsatz der Dokumente in der Retrieval-Liste, die tatsächlich für das Suchthema relevant sind ).
In einigen Fällen kann kontrolliertes Vokabular auch das Wiedererinnern verbessern, da im Gegensatz zu natürlichen Sprachschemata, sobald der richtige autorisierte Begriff durchsucht wurde, keine Notwendigkeit besteht, nach anderen Begriffen zu suchen, die Synonyme dieses Begriffs sein könnten.
Probleme
Eine kontrollierte Wortschatzsuche kann zu einem unbefriedigenden Abruf führen , da einige Dokumente, die für die Suchfrage tatsächlich relevant sind, nicht gefunden werden.
Dies ist besonders problematisch, wenn die Suchfrage Begriffe enthält, die ausreichend tangential zum Themenbereich sind, so dass der Indexer möglicherweise beschlossen hat, ihn mit einem anderen Begriff zu markieren (der Suchende könnte jedoch denselben berücksichtigen). Dies kann im Wesentlichen nur von einem erfahrenen Benutzer von kontrolliertem Vokabular vermieden werden, dessen Verständnis des Vokabulars mit dem des Indexers übereinstimmt.
Eine andere Möglichkeit besteht darin, dass der Artikel vom Indexer einfach nicht getaggt wird, weil die Indexerschöpfung gering ist. Zum Beispiel könnte ein Artikel Fußball als sekundären Schwerpunkt erwähnen, und der Indexer könnte entscheiden, ihn nicht mit "Fußball" zu kennzeichnen, weil er im Vergleich zum Hauptfokus nicht wichtig genug ist. Es stellt sich jedoch heraus, dass dieser Artikel für den Suchenden relevant ist und daher der Rückruf fehlschlägt. Eine Freitextsuche würde diesen Artikel trotzdem automatisch aufgreifen.
Auf der anderen Seite hat die Freitextsuche eine hohe Erschöpfung (jedes Wort wird durchsucht), sodass sie, obwohl sie eine viel geringere Genauigkeit hat, ein hohes Wiedererkennungspotenzial hat, solange der Suchende das Problem der Synonyme durch Eingabe jeder Kombination überwindet.
Kontrollierte Vokabulare können in sich schnell entwickelnden Wissensgebieten schnell veraltet sein, es sei denn, die autorisierten Begriffe werden regelmäßig aktualisiert. Selbst im Idealfall ist ein kontrolliertes Vokabular oft weniger spezifisch als die Wörter des Textes selbst. Indexierer, die versuchen, die geeigneten Indexbegriffe auszuwählen, könnten den Autor falsch interpretieren, während dieses genaue Problem bei einem freien Text kein Faktor ist, da er die eigenen Worte des Autors verwendet.
Die Verwendung von kontrolliertem Vokabular kann im Vergleich zur Freitextsuche kostspielig sein, da menschliche Experten oder teure automatisierte Systeme erforderlich sind, um jeden Eintrag zu indizieren. Darüber hinaus muss der Benutzer mit dem kontrollierten Vokabularschema vertraut sein, um das System optimal nutzen zu können. Aber wie bereits erwähnt, kann die Kontrolle von Synonymen, Homographen helfen, die Präzision zu erhöhen.
Zahlreiche Methoden wurden entwickelt, um bei der Erstellung kontrollierter Vokabulare zu helfen, einschließlich der Facettenklassifikation , die es ermöglicht, einen bestimmten Datensatz oder ein Dokument auf vielfältige Weise zu beschreiben.
Anwendungen
Kontrollierte Vokabulare, wie die Schlagworte der Library of Congress , sind ein wesentlicher Bestandteil der Bibliographie , des Studiums und der Klassifikation von Büchern. Sie wurden zunächst in der Bibliotheks- und Informationswissenschaft entwickelt . In den 1950er Jahren begannen Regierungsbehörden, kontrollierte Vokabulare für die aufkeimende Zeitschriftenliteratur in Spezialgebieten zu entwickeln; ein Beispiel sind die Medical Subject Headings (MeSH), die von der US-amerikanischen National Library of Medicine entwickelt wurden . In der Folge entstanden gewinnorientierte Firmen (genannt Abstraktions- und Indexierungsdienste), um die schnell wachsende Literatur in allen Wissensgebieten zu indizieren. In den 1960er Jahren entwickelte sich eine Online-Branche für bibliografische Datenbanken, die auf einem X.25- Einwahlnetzwerk basiert . Diese Dienste wurden der Öffentlichkeit selten zur Verfügung gestellt, da sie schwer zu nutzen waren; Fachbibliothekare, sogenannte Suchvermittler, übernahmen die Suche. In den 1980er Jahren erschienen die ersten Volltextdatenbanken ; diese Datenbanken enthalten den Volltext der Indexartikel sowie die bibliographischen Angaben. Bibliografische Online-Datenbanken sind ins Internet übergegangen und jetzt öffentlich zugänglich; die meisten sind jedoch proprietär und können teuer in der Verwendung sein. Studenten, die an Hochschulen und Universitäten eingeschrieben sind, können möglicherweise auf einige dieser Dienste kostenlos zugreifen; Einige dieser Dienste können in einer öffentlichen Bibliothek kostenlos zugänglich sein.
Technische Kommunikation
In großen Organisationen können kontrollierte Vokabulare eingeführt werden, um die technische Kommunikation zu verbessern . Die Verwendung von kontrolliertem Vokabular stellt sicher, dass jeder dasselbe Wort verwendet, um dasselbe zu bedeuten. Diese Konsistenz von Begriffen ist eines der wichtigsten Konzepte in der technischen Redaktion und im Wissensmanagement , bei dem es darum geht, dasselbe Wort in einem Dokument oder einer Organisation zu verwenden, anstatt leicht unterschiedliche Wörter zu verwenden, um auf dasselbe zu verweisen.
Semantisches Web und strukturierte Daten
Die Websuche könnte durch die Entwicklung eines kontrollierten Vokabulars zum Beschreiben von Webseiten dramatisch verbessert werden; die Verwendung eines solchen Vokabulars könnte in einem Semantic Web gipfeln , in dem der Inhalt von Webseiten unter Verwendung eines maschinenlesbaren Metadatenschemas beschrieben wird . Einer der ersten Vorschläge für ein solches System ist die Dublin Core Initiative. Ein Beispiel für ein kontrolliertes Vokabular, das zum Indexieren von Webseiten verwendet werden kann, ist PSH .
Es ist unwahrscheinlich, dass ein einziges Metadatenschema jemals erfolgreich sein wird, den Inhalt des gesamten Webs zu beschreiben. [6] Um ein Semantic Web zu erstellen, kann es notwendig sein, aus zwei oder mehr Metadatensystemen zu schöpfen, um den Inhalt einer Webseite zu beschreiben. Die eXchangeable Faceted Metadata Language (XFML) wurde entwickelt, um kontrollierten Vokabular-Erstellern die Veröffentlichung und gemeinsame Nutzung von Metadatensystemen zu ermöglichen. XFML basiert auf facettierten Klassifizierungsprinzipien . [7] [ nicht primäre Quelle benötigt ]
Kontrollierte Vokabulare des Semantic Web definieren die Konzepte und Beziehungen (Begriffe), die verwendet werden, um ein Interessens- oder Interessengebiet zu beschreiben. Um beispielsweise eine Person in einem maschinenlesbaren Format zu deklarieren, wird ein Vokabular benötigt, das die formale Definition von "Person" hat, wie das Vokabular Friend of a Friend ( FOAF ), das eine Person-Klasse hat, die typische Eigenschaften von . definiert eine Person, einschließlich, aber nicht beschränkt auf Name, Ehrenpräfix, Zugehörigkeit, E-Mail-Adresse und Homepage oder das Personenvokabular von Schema.org . [8] In ähnlicher Weise kann ein Buch mit dem Buchvokabular von Schema.org [9] und allgemeinen Veröffentlichungsbegriffen aus dem Dublin Core- Vokabular beschrieben werden, [10] ein Ereignis mit dem Ereignis-Vokabular von Schema.org , [11] und so auf.
Um maschinenlesbare Begriffe aus jedem kontrollierten Vokabular zu verwenden, können Webdesigner aus einer Vielzahl von Annotationsformaten wählen, darunter RDFa, HTML5 Microdata oder JSON-LD im Markup oder RDF- Serialisierungen (RDF/XML, Turtle, N3, TriG, TriX) in externen Dateien.
Siehe auch
- Berechtigungskontrolle
- Kontrollierte natürliche Sprache
- Vokabeln definieren
- IMS-Vokabeldefinitionsaustausch
- Named-Entity-Erkennung
- Nomenklatur
- Ontologie (Informatik)
- Terminologie
- Universelles Datenelement-Framework
- Wortschatzbasierte Transformation
Verweise
- ^ Kontrollierte Vokabeln Links zu Beispielen für Thesauri und Klassifikationsschemata.
- ^ Kontrollierte Vokabeln Links zu Beispielen für Thesauri und Klassifikationsschemata, die in den Bereichen Landwirtschaft, Fischerei, Forstwirtschaft usw. verwendet werden.
- ^ Amy Warner, Eine Einführung in die Taxonomie // toter Link .
- ^ Karl Fast, Fred Leise und Mike Steckel, [1]
- ^ "Kontrollierte Vokabeln | Bibliothekare | Kongressbibliothek" . Die Kongressbibliothek . Abgerufen 2018-05-22 .
- ^ Cory Doctorow, Metacrap .
- ^ Mark Pilgrim, austauschbare facettierte Metadatensprache .
- ^ "Das Personenvokabular von Schema.org" . Abgerufen am 13. März 2015 .
- ^ "Das Buchvokabular von Schema.org" . Abgerufen am 13. März 2015 .
- ^ "Dublin-Kern-Metadaten-Elementsatz, Version 1.1" . Abgerufen am 13. März 2015 .
- ^ "Das Event-Vokabular von Schema.org" . Abgerufen am 13. März 2015 .
Externe Links
- Verzeichnis der verknüpften offenen Vokabeln (LOV)