Document Mining

Document Mining

Projektziel

Projektziel von Document Mining ist es, mit Methoden der künstlichen Intelligenz (KI) und Verfahren der natürlichen Sprachverarbeitung (NLP) Anomalien und Zusammenhänge innerhalb von Dateibeständen eines CMS zu verfassen und zu markieren. Darüber hinaus soll eine leicht zugängliche, einfach zu bedienende und mit generischen Filtern einschränkbare Visualisierung des gesamten Dokumentbestandes gefunden werden.

Projektbeschreibung

Das Pflegen von Dokumentinhalten und der damit verbundene Aufwand bei der Aktualisierung von Dateien mit verwandtem Bezug oder gleichem Thema führen oft zu Inkonsistenzen innerhalb eines Datenbestandes. Inhaltliche Änderungen müssen anhand der Referenzen eines Dokumentes durch den gesamten Datenbestand propagiert werden. Erschwerend kommt hinzu, dass oftmals nicht alle zusammenhängenden Dokumente miteinander referenziert sind und deren Abhängigkeit allein aus dem Inhalt eines Dokuments hervorgeht. Content-Management-Systeme (CMS) ermöglichen zwar ein Erfassen, Ordnen und Zugreifen von Dokumenten, heben jedoch keine Änderungen hervor, die sich auf den Inhalt eines Dokumentes beziehen. Somit lassen diese Systeme auch keine Rückschlüsse auf die Aktualität und Richtigkeit eines Dokumentes zu. So kann es vorkommen, dass ein Dokument in mehreren Sprachversionen verfügbar ist, aber bei einer Aktualisierung lediglich eine Sprachversion des Dokumentes aktualisiert wird. Dies führt zu einer Inkonsistenz, die von rein verwaltenden Systemen -wie einem CMS- nicht erfasst werden kann. Dies gilt vor allem dann, wenn durch fehlende Referenzen die Abhängigkeiten von Dokumenten nicht bekannt sind.

Projektdetails

  • Konsortium: Villeroy & Boch, Institut für Industrie Informatik und Betriebsorganisation (IBO), ODION GmbH
  • Gefördert vom: –
  • Konsortialsführer: ODION GmbH
  • Projektträger: Hochschule für Technik und Wirtschaft (HTW)
  • Laufzeit: 01/2019-01/2020
  • Ansprechpartner: team@odion.com

Daher ist Ziel des Projektes, zunächst eine Visualisierung zu ermöglichen, die es Benutzern erlaubt, die Zusammenhänge und Referenzen zwischen den im Content-Management System (CMS) enthaltenen Dateien einfach und übersichtlich zu begreifen. So bekommt ein Benutzer einen Überblick, wie es um den Datenbestand steht und wie sehr Dokumente untereinander verknüpft sind. Auch Anomalien innerhalb des Bestandes können durch abweichende Muster und Strukturen visuell schnell erkannt werden. Diese Aufgabe ist bereits schwierig, da es innerhalb eines CMS nicht nur viele Einträge geben kann, sondern auch ein und dieselbe Datei in verschiedenen Versionen und Sprachen vorliegen kann. Daher ist ein essentieller Teil des Projektes eine intelligente Darstellung der Dokumente und deren Beziehung zu finden, die mittels einer einfachen und schnell zu erlernenden Benutzeroberfläche (UI) auch unerfahrenen Benutzern ermöglicht, sich schnell und einfach innerhalb der Visualisierung zu bewegen.

In einem zweiten Schritt sollen klassische Verfahren der natürlichen Sprachverarbeitung (NLP), wie etwa die Term-Frequenzanalyse und Inverse-Dokumentfrequenzen genutzt werden, um einen ersten Einblick in die Thematik des Dokumentes zu gewähren und deren Wichtigkeit für die Gesamtheit der Dokumente zu erschließen. Ergänzt wird dies durch gut erforschte Algorithmen wie Latent-Drillichet Analyse (LDA) zur Bestimmung von Themen-Wahrscheinlichkeiten. Die durch die Algorithmen gefundenen Zusammenhänge werden innerhalb der Visualisierung der Dokumentenbasis dargestellt. Somit werden für den Benutzer mögliche Zusammenhänge ersichtlich, auch wenn diese nicht explizit innerhalb des CMS angegeben wurden. Dadurch können Anomalien in den sich bildenden Strukturen erkannt und hervorgehoben werden. Fehlerhafte Inhalte, fehlende Referenzen und Dokumente werden somit detektiert und visualisiert.

Das System bietet die optimalen Features, um Benutzer bei der Pflege von Dokumentenbeständen zu unterstützen oder Unregelmäßigkeiten innerhalb einer Datenbasis zu entdecken. Dies wird insbesondere durch das Finden potenziell unbekannter Zusammenhänge, das Erkennen von Anomalien innerhalb der Dokumentbasis und eine durch generische Filter auf die Situation anpassbare Visualisierung ermöglicht.

Projektpartner

Gefördert durch

Projektträger