Ein Gastbeitrag von Dr. Tim Delbrügger, Head of AI & IoT bei iits-consulting und Jonathan Eschbach, Senior AI Engineer bei iits-consulting
Dokumentenextraktion mittels KI und Open Telekom Cloud
In diesem Artikel lesen Sie,
- wie eine KI auf Basis von Open Source LLMs bei Ausschreibungen unterstützt,
- wie sie ihre Ergebnisse selbst kontrolliert
- und wie Sie selbst mit KI experimentieren können.
Künstliche Intelligenz (KI), insbesondere Generative KI und KI-basierte Chatbots wie ChatGPT, sind heute aus unserem Alltag kaum noch wegzudenken. Sie finden sich in Navigationsgeräten, übernehmen Recherche-Aufgaben oder erstellen Texte. Sie bieten eine beeindruckende Bandbreite an Anwendungsmöglichkeiten – von der Beantwortung allgemeiner Fragen bis hin zur Unterstützung in spezialisierteren Bereichen.
Besonders im Unternehmensumfeld ergeben sich jedoch spezifische Anforderungen und Herausforderungen, die eine einfache Nutzung solcher KI-Tools erschweren. Insbesondere stellen sich dabei die folgenden Fragen:
- Wie können KIs unternehmensspezifische Informationen nutzen, um gezielte Antworten auf unternehmensrelevante Fragen zu liefern?
- Wie kann ich sicherstellen, dass die Antworten der KI vertrauenswürdig sind?
- Wie kann ich sicherstellen, dass meine sensiblen Unternehmensdaten geschützt bleiben, datenschutzkonform verarbeitet werden und innerhalb Deutschlands verbleiben?
Ein Lösungsansatz hierfür ist der Einsatz sogenannter Retrieval-Augmented-Generation-Systeme (RAG). Diese Systeme ermöglichen es, Sprachmodelle mit fachspezifischen Daten anzureichern, um präzise und relevante Antworten auf spezifische Fragen zu generieren. Dabei bleibt die Vertraulichkeit der Unternehmensinformationen gewahrt, da die Daten in kontrollierten Umgebungen verarbeitet werden.
Ein gängiges Anwendungsbeispiel im Unternehmensumfeld wäre die Auswertung von Ausschreibungsdokumenten. Stellen wir uns vor, ein Landkreis veröffentlicht ein umfangreiches Dokument über die Vergabebedingungen für den Glasfaser-Ausbau, beispielsweise mit 22 Seiten Text und weiteren referenzierten Dokumenten. Eine solche Ausschreibung enthält zahlreiche wichtige Informationen, wie etwa Fristen, Anforderungen und Vertragsbedingungen. Die Teilnahme an Ausschreibungen generiert substanzielle Aufwände im Unternehmen. Ein wichtiger Entscheidungsfaktor über eine Teilnahme ist daher die Gewinnwahrscheinlichkeit. Hierzu kann die Extraktion von bestimmten Fakten aus dem Dokument sehr hilfreich sein, wie beispielsweise die genannten Fristen für Angebotsabgabe oder Realisierung.
Hier kommt das RAG-System ins Spiel. Mithilfe eines solchen Systems können große Sprachmodelle (LLMs) gezielt mit dem Dokument „gefüttert“ werden. Die relevanten Informationen aus der Datenquelle – in diesem Fall das Ausschreibungsdokument – werden mit an das Modell geschickt, sodass präzise Antworten auf spezielle Fragen möglich werden. Stellen wir beispielsweise die Frage „Wie lautet das Datum für die Angebotsfrist?“, so könnte das RAG-System daraufhin die Antwort liefern: „15.07.2022“. Zusätzlich verweist es darauf, dass diese Information auf Seite 9 des Dokuments zu finden ist.
Dieser Ansatz zeigt, wie RAG-Systeme spezifische, unternehmensrelevante Fragen beantworten können, indem sie direkt auf die bereitgestellten Datenquellen zugreifen. Ein solches System steigert die Effizienz erheblich, da es zeitaufwändige manuelle Durchsuchungen von Dokumenten überflüssig macht. Dennoch sollte ein Mitarbeiter die gefundenen Fakten prüfen, um “Halluzinationen” des LLMs auszuschließen. Dies ist der Ansatzpunkt für einen weiteren Effizienz-Boost, den wir in unseren Projekten üblicherweise zünden: die Selbstevaluation.
Ziel der Selbstevaluation ist es, dass die KI selbst eine Einschätzung gibt, wie zuverlässig eine ihrer Aussagen ist. Insbesondere sollen „alternative Fakten“ oder „Halluzinationen“ vermieden werden. Hierzu verwenden wir bei iits folgende Metriken:
Als Teil des RAG-Systems haben wir hierbei Frage, relevanten Kontext und die Antwort. Durch weitere Anfragen an das LLM-System erfragen wir paarweise, ob die einzelnen Bestandteile zueinander passen. Diese einzelnen Bewertungen sind Bestandteil einer Gesamtbewertung, die uns Hinweise über die Vertrauenswürdigkeit der eigentlichen Antwort auf die Ursprungsfrage liefern. Dadurch ermöglichen wir die automatisierte Selbstevaluation des KI-Systems und schließen faktisch Halluzination aus.
Die Frage, wie diese Lösung datenschutzkonform und sicher umgesetzt werden kann, ist von zentraler Bedeutung. Im unternehmerischen Umfeld stehen häufig sensible Daten im Mittelpunkt, deren Schutz höchste Priorität hat. Zudem verlangen die europäischen Datenschutzvorschriften, insbesondere die DSGVO, strenge Maßnahmen zum Schutz personenbezogener und unternehmensrelevanter Daten. Hier spielt die Open Telekom Cloud eine entscheidende Rolle.
Die Open Telekom Cloud bietet als Alleinstellungsmerkmal die Möglichkeit, LLMs und KI-basierte Lösungen in Deutschland von einem deutschen Cloud-Provider zu hosten.
Dies gewährleistet, dass die Daten innerhalb Deutschlands verbleiben. Somit können Unternehmen sicherstellen, dass sie die hohen Anforderungen an den Datenschutz erfüllen und ihre Daten nicht in unsicheren oder rechtlich problematischen Regionen verarbeitet werden.
Zusätzlich dazu bietet die Open Telekom Cloud die Skalierbarkeit und Flexibilität, die moderne Unternehmen für den Einsatz von KI benötigen. Durch den Einsatz leistungsstarker Cloud-Infrastruktur können auch große Datenmengen und komplexe Modelle effizient verarbeitet werden, ohne dass dabei die Datensicherheit gefährdet wird. Die Datenverarbeitung erfolgt dabei vollständig nach den strengen Anforderungen der DSGVO.
Der Einsatz von KI im Unternehmenskontext bietet enorme Vorteile, insbesondere wenn es darum geht, spezifische Informationen aus umfangreichen Dokumenten effizient zu extrahieren und in nutzbare Antworten zu verwandeln. Mit der Kombination von RAG-Systemen und einer sicheren, DSGVO-konformen Infrastruktur wie der Open Telekom Cloud können Unternehmen das volle Potenzial von KI ausschöpfen, ohne Kompromisse bei der Datensicherheit einzugehen.
Durch diese Integration wird sichergestellt, dass sensible Unternehmensdaten geschützt bleiben, während gleichzeitig KI-gestützte Prozesse die Effizienz steigern und wertvolle Zeit sparen. Die Open Telekom Cloud bietet hier einen entscheidenden Mehrwert durch die Möglichkeit, KI-basierte Lösungen sicher und datenschutzkonform in Deutschland zu betreiben.
Sie haben Lust, einmal selbst diese neuen Technologien auszuprobieren? Dann unterhalten Sie sich doch mal mit Cloudia, dem Chatbot der Open Telekom Cloud. Oder erstellen Sie sich einen Probezugang für IITS.AI, das den modernsten Stand der KI-Technik abdeckt und in der Open Telekom Cloud läuft.
Wenn sie alternativ daran interessiert sind, eigene KI-Applikationen mit LLMs zu programmieren, können sie hier den T-Systems LLM-Hub Playground nutzen, um erste Eindrücke von den Potenzialen der KI zu erhalten. Außerdem haben Sie die Möglichkeit, hier einen API-Key anzufragen.
So geht’s: In sieben Wochen zum KI-Chatbot
Erfahren Sie, wie Unternehmen mit der Open Telekom Cloud in Rekordzeit einen leistungsstarken, DSGVO-konformen KI-Chatbot entwickeln.
Verbessern Sie Ihre KI- und HPC-Anwendungen mit NVIDIA H100 GPUs
Die Open Telekom Cloud stellt die nächste Generation von Grafikprozessoren von NVIDIA vor. H100 bringt neue Leistung für Ihre Projekte im Bereich der Künstlichen Intelligenz und andere leistungsstarke Anwendungsfälle.
World Summit AI: Das Epizentrum der Künstlichen Intelligenz
Was Rang und Namen in der Künstlichen Intelligenz hat, trifft sich zum World Summit AI. Die Open Telekom Cloud bringt zwei neue Use Cases mit: einen Menschenzähler und einen Erdrutsch-Detektor.