Visual LLMs – Wenn KI sehen lernt | 25.06.2026

25.06.2026

Visual LLMs sind visuelle Sprachmodelle, die Bilder verstehen und beschreiben können. Diese Sprachmodelle können vielseitig eingesetzt werden, beispielsweise bei der Analyse von Röntgenbildern in der Medizin. Fachbereichsleiter Ilir Fetai erklärt im Interview, wie man mit Visual LLMs zum Mechaniker oder Kunstkenner werden kann, welche Schwachstellen diese Sprachmodelle noch haben und warum das letzte Wort immer noch der Mensch hat.

0 Bilder

«Visual LLMs sind am stärksten als intelligenter erster Filter, aber nicht als autonome Entscheider», sagt Ilir Fetai.

Ilir Fetai, mit Visual LLMs kann künstliche Intelligenz jetzt sehen?
Bisher konnte KI Bilder klassifizieren: Sie hat ein Foto angeschaut und gesagt: «Das ist eine Katze» oder «Das ist ein Defekt» – Punkt. Keine Erklärung, keine Rückfrage, kein Kontext. Visual LLMs können etwas fundamental anderes: Sie können Bilder verstehen und darüber sprechen. Du kannst ihnen ein Bild zeigen und fragen: «Was siehst du?» aber auch: «Ist das gefährlich?», «Was würdest du empfehlen?» oder «Vergleich das mit diesem zweiten Bild». Frühere KI-Systeme konnten Bilder erkennen. Visual LLMs können sie befragen. Das klingt subtil, ist aber in der Praxis alles andere als das. Denn «befragen» heisst: Der Nutzer bringt seinen Kontext mit, seine Fachsprache und seine Probleme. Und das Modell antwortet darauf.

Welche visuellen Sprachmodelle gibt es schon?
Zum Beispiel Gemini 2.5, Claud Opus oder auch Gpt-4o sind bereits, je nach Aufgabe, voll funktionsfähige Visual LLMs, etwa für alltägliche Fragen, Dokumentenanalyse, erste Einschätzungen und Erklärungen. Für sicherheitskritische Entscheidungen in Echtzeit gilt jedoch: noch nicht ohne menschliche Kontrolle. Diese Modelle sind mächtig, aber kein Ersatz für Fachleute. Sie liefern fundierte erste Einschätzungen und zeigen, wo man hinschauen soll. Das letzte Wort hat immer der Mensch.

In welchen Bereichen können Visual LLMs eingesetzt werden?
Überall dort, wo Menschen heute Bilder manuell anschauen und bewerten. Beispielsweise in der Medizin. Dort können die Sprachmodelle Röntgenbilder vorab einschätzen, auffällige Hautstellen kategorisieren oder Netzhautscans auf Anzeichen von Diabetes prüfen. Quasi als zweite Meinung, nicht als Ersatz. Oder in der Landwirtschaft können Visual LLMs Pflanzenkrankheiten früh erkennen, Ernteschäden durch Drohnenbilder abschätzen oder die Bodenqualität analysieren.

Welche Schwachstellen haben diese Modelle noch?
Sie halluzinieren. Das Modell kann Dinge beschreiben, die gar nicht im Bild sind, und zwar mit hoher Überzeugungskraft. Es «erfindet» Details, die plausibel klingen. Bei kritischen Entscheidungen sollte man das Ergebnis immer selbst prüfen. Bei der Frage: «Wie viele Schrauben sind auf diesem Bild?» versagen aktuelle Modelle oft. Auch räumliche Beziehungen wie oben/unten oder links/rechts werden manchmal falsch eingeschätzt. Das Modell kennt allgemeines Wissen, aber nicht betriebsinterne Standards, Normen oder Schwellenwerte. Was in einem Unternehmen als «kritisch» gilt, muss ihm erst beigebracht werden. Ohne diese Kalibrierung antwortet es wie ein guter Generalist, nicht wie ein Fachexperte. Heikel wird es auch in Sachen Datenschutz. Wenn man ein Bild beispielsweise an GPT-4o oder Claude schickt, verlässt es den eigenen Computer. Für sensible Bilder, zum Beispiel von Patienten oder Betriebsgeheimnisse, braucht es lokale Lösungen oder On-Premise-Deployment. Visual LLMs sind am stärksten als intelligenter erster Filter, aber nicht als autonome Entscheider.

Wie können Visual LLMs im Alltag helfen?
Man braucht kein Informatikstudium, sondern nur ein Smartphone. Geht etwas kaputt, kann man es fotografieren und das Sprachmodell fragen, was kaputt ist, wie man es reparieren kann oder wie viel ein Ersatz kosten würde. Ist eine Pflanze im Garten krank oder findet man im Wald einen Pilz: Foto hochladen, fragen und eine Antwort bekommen. Wenn die Antwort zu allgemein ist, sollte man mehr Kontext geben, wie etwa «Ich bin in der Schweiz, das Gerät ist 15 Jahre alt, ich habe kein Fachwissen.» Jede Runde wird die Antwort besser. Aber man sollte kritisch bleiben. Visual LLMs können sich irren. Bei wichtigen Entscheidungen müssen die Antworten geprüft werden. Aber für den Einstieg gilt: Vertraue, experimentiere und schau, was möglich ist. Der Lerneffekt ist beeindruckend schnell.

Visual LLMs – Wenn KI sehen lernt

Verwandte Studiengänge