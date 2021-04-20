Neuer Insiders LLM Benchmark für intelligente Dokumentenverarbeitung

Aktueller Report stützt Best-of-Breed-Ansatz und zeigt Licht und Schatten bei Reasoning-Modellen. Insiders Private LLM holt bei Performance auf und überzeugt bei Datenschutz und Regulatorik.

Kaiserslautern, 29. September 2025 – Insiders Technologies, technologisch führender Anbieter von Software für Intelligent Automation (IA), veröffentlicht eine neue Version des Insiders LLM Benchmarking Reports. Das Insiders LLM Benchmarking vergleicht die Leistungen gängiger Large Language Modelle (LLM) wie beispielsweise von OpenAI, Google, Anthropic und Mistral sowie eigener Modelle von Insiders.

Besonders praxisnah wird der Vergleich dabei durch die Leistungsbewertung der unterschiedlichen Modelle für Anwendungsfälle in der intelligenten Verarbeitung von Dokumenten (engl. Intelligent Document Processing, kurz IDP). Da als Testdaten ein standardisierter IDP-Datensatz mit realen Dokumenten aus der Versicherungs- und Finanzwelt verwendet wird, sind die quartalsweise veröffentlichten Benchmarks miteinander vergleichbar und die Ergebnisse direkt auf Kundenanforderungen in der Praxis übertragbar.

LLM überzeugen – Reasoning-Modelle mit Licht und Schatten

Die Auswertung zeigt: Globale Modelle setzen mit großem Datenvolumen und leistungsstarker Hardware den Standard. GPT-5 von OpenAI führt das Ranking in der Leistungsfähigkeit mit 90,7 Punkten an, gefolgt von Claude 4 Sonnet (90,0) und dem Sieger des zuletzt analysierten Quartals Claude 3.7 Sonnet (89,9). Zugleich zeigt sich jedoch, dass Reasoning-Modelle wie GPT-5, die speziell auf komplexes logisches Denken trainiert wurden, zwar knapp die besten Ergebnisse in Klassifikation und Extraktion erzielen, diese Vorteile jedoch mit spürbaren Nachteilen einhergehen und stark vom jeweiligen Modell abhängen. So liegen die Verarbeitungszeiten bei GPT-5 um den Faktor 4 höher und auch die Token-Kosten steigen dementsprechend um ein Vielfaches – ein Aspekt, der für den produktiven Einsatz nicht zu vernachlässigen ist. Reasoning-Modelle sollten daher in der Praxis mit Vorsicht und nur in sinnvollen Use Cases angewendet werden.

In Summe übernimmt deshalb Claude 4 Sonnet als schnelles und leistungsstarkes Modell gehostet in der EU die Führung im aktuellen Benchmarking. Auch Claude 3 Haiku glänzt als bewährtes Modell mit beeindruckenden Ergebnissen in der Geschwindigkeit und eignet sich daher bei überschaubaren Genauigkeitsverlusten ideal für Volumenverarbeitung.

Private LLM von Insiders rückt an die Spitzengruppe heran

Durch den Wechsel zu einem leistungsfähigeren Modell konnte das Insiders Private LLM – gehostet bei Insiders – seine Qualität bei gleichbleibender Bearbeitungszeit von 67,9 in Q2 auf nun 78,2 Punkte in Q3 steigern. Es nähert sich damit den Top-Modellen – ohne dabei an Datenschutz oder Geschwindigkeit einzubüßen. Auch der Prototyp des neuen Insiders OvAItion LLM, ebenfalls gehostet bei Insiders, rückt mit 80,1 Punkten weiter an die Spitzengruppe heran. Im Gegensatz zu globalen Modellen von OpenAI, Google, Anthropic und Co. sind die Insiders LLM auf höchsten Datenschutz und regulatorische Sicherheit ausgelegt. Durch den Betrieb in der ISO 27001-zertifizierten Insiders Cloud eignen sie sich besonders für sensible Dokumente wie Finanzunterlagen oder Gesundheitsdaten. Für Branchen wie das Finanz- und Versicherungswesen oder Health Care bietet dieser Ansatz einen klaren Vorteil.

„Unser kontinuierliches Benchmarking unterschiedlicher Modelle bildet nicht nur die Grundlage für unsere fundierte Beratung zur Auswahl von KI-Technologien, sondern treibt auch unsere eigene Modellentwicklung voran“, erklärt Dr. Alexander Lück, Team OvAItion/Data Management und Verantwortlicher für das LLM Benchmarking bei Insiders Technologies.

An Best of Breed führt kein Weg vorbei

Das regelmäßige LLM Benchmarking mit realen IDP-Szenarien macht deutlich, dass es nicht das eine „beste“ LLM gibt. Zum einen verändern sich die Leistungen mit Blick auf Performance und Speed durch immer neue Versionen der Modelle erheblich. Zum anderen sind für den konkreten Einsatz immer auch die individuellen regulatorischen Anforderungen zu berücksichtigen. Mit einer auf dem Best-of-Breed-Ansatz basierenden flexiblen KI-Infrastruktur, die die jeweils bestgeeigneten LLM flexibel und auch in Kombination untereinander oder mit anderen bewährten KI-Technologien einsetzen kann, sind Kunden für die sehr dynamischen Veränderungen und Technologiesprünge bestens gerüstet.

Die aktuelle Version des Insiders LLM Benchmarking Q3-2025 kann hier kostenlos bezogen werden. Zudem besteht die Möglichkeit, individuelle Use Cases benchmarken zu lassen: https://insiders-technologies.com/de/insiders-llm-benchmarking-september-2025

Weitere Informationen über den Hersteller intelligenter Software für Prozessautomatisierung auf Basis von KI: https://www.insiders-technologies.com

