By Matthias in KI — 26. März 2025

Der vielleicht bedeutsamste Fortschritt des Jahres: Abstract Reasoning Corpus (ARC)

Erfahre alles über den Abstract Reasoning Corpus (ARC) und wie er menschliche und KI-Intelligenz herausfordert.

"ARC ist ein Schlüssel zum Verständnis der menschlichen Denkweise durch Maschinen." - François Chollet, KI-Forscher

Die Abstraktion und Denkweise des ARC

Warum ARC so wichtig ist

Das Abstraction and Reasoning Corpus (ARC) ist wie ein Sprungbrett in der künstlichen Intelligenz-Forschung. Bild dir eine Sammlung aus Aufgaben vor, die darauf abzielen, wie Menschen zu denken: Muster erkennen, Verallgemeinerungen ziehen, man kennt's. Hier geht's darum, Ideen nicht nur vom Hören zu sagen, sondern wirklich zu schnallen. Der ARC-Test ist sowas wie ein IQ-Test, nur halt für uns Menschen und unsere digitalen Kumpels.

Diese Aufgaben sind schlau gemacht. Glücksspiel oder endloses Ausprobieren? Fehlanzeige! Hier muss clever mitgedacht werden. Ob 4x4 oder 30x30 Gitter - es wird getestet, wie gut die KI wirklich in abstrakten Überlegungen ist.

Wie Menschen im ARC abschneiden

Was geht bei uns Leuten ab, wenn's ans Lösen dieser Aufgaben geht? Na, überraschenderweise ganz gut! Die meisten von uns erkennen fix, wie der Hase läuft, und kriegen die neuen Testbeispiele hin. Im Durchschnitt macht der Mensch hier 80% korrekt! Da merkt man, was bei uns im Kopf abgeht.

Leistungslevel	Prozentsatz, den wir knacken
Normalsterblicher	80%
65% von uns	>80%

Verglichen mit den schlauesten KIs sieht es für die Maschinen noch richtig düster aus. Während wir auf 80% kommen, dümpeln die besten KI-Modelle irgendwo zwischen 3-40% herum. Auch die großen Jungs wie GPT-4 oder PaLM hängen rum bei 10-20%。 Das zeigt, dass Maschinen noch einiges zu lernen haben, wenn's um wirkliches Denken und Schließen geht (arXiv).

Ein guter Anreiz dafür ist der "ARC Prize" im Juni 2024, bei dem man 600.000 Mäuse abräumen kann, wenn ein Programm 85% richtig packt – das spricht doch schon Bände, wie heiß das Thema ist (AI: A Guide for Thinking Humans).

Selbst mehr erfahren? Schau dir unsere ganzen Artikel zu KI Benchmarks und dem Vergleich von Algorithmen an. Da gibt's noch ordentlich Futter für den Kopf.

ARC als Intelligenz-Benchmark

Der Abstract Reasoning Corpus (ARC) ist jetzt der ultimative Testplatz, auf dem Mensch und Maschine ihre grauen Zellen anstrengen.

Testaufgaben im ARC

Die Aufgaben im ARC sind knifflig, weil sie so gestaltet wurden, dass kein Computer durch reines Raten oder Ausprobieren zur Lösung kommt. Menschliche Denkleistung ist hier gefragt, und das macht ARC zu einem echt harten Knochen für Künstliche Intelligenz-Systeme.

In den Aufgaben geht's darum, ein verstecktes Programm zu entschlüsseln und blitzgescheit neue Eingaben zu bearbeiten. So eine Studie zeigt, dass Menschen im Durchschnitt bei 80% der Aufgaben den Durchblick haben – keine schlechte Quote, oder? Tatsächlich knacken 65% der Leute mehr als 80% aller gestellten Aufgaben (ARC Visualizations).

Erfolg bei ARC-Aufgaben	%
Durchschnittliche menschliche Leistung	80
Aufgaben gelöst von >80% der Teilnehmer	65

Eine Forscherin beim Intelligenztest — Mit Hilfe von Computer Intelligence generiert

Herausforderung für Künstliche Intelligenz

Während Menschen hier auftrumpfen, tun sich KI-Systeme schwer. Die besten KI-Modelle dümpeln bei 3-40% herum, und selbst die Schwergewichte wie GPT-4 und PaLM schaffen es gerade mal auf 10-20% Genauigkeit. Im Ernst, dagegen stehen unsere 80% im glorreichen Licht (arXiv).

Modelltyp	Genauigkeit (%)
Beste Modelle	3-40
Große Sprachmodelle (z.B. GPT-4, PaLM)	10-20
Menschliche Genauigkeit	80

Klar wird, dass die Maschinen noch einiges zu lernen haben, wenn's um kluges Denken geht. Und genau da tritt der ARC-Preis ins Spiel: Über eine Million Dollar winken demjenigen, der ein KI-System entwickelt, das den ARC-Test hinter sich lässt und seinen Quellcode für alle zugänglich macht.

Einige Neuankömmlinge auf der KI-Bühne probieren es mit test-time training (TTT). Das klingt schon nach Hightech, oder? Immerhin schaffen sie auf dem Prüfstand des ARC bis zu 53% Genauigkeit – ein Fortschritt, den man nicht übersehen sollte.

Falls Sie mehr über KI-Benchmarks und wie verschiedene Algorithmen im Vergleich aussehen, erfahren wollen, schauen Sie sich mal unsere Seiten zu KI Benchmarks und Vergleich von Algorithmen an.

Entdecken Sie, warum das ARC ein Durchbruch im abstrakten Denken von KI-Systemen ist

Jetzt Einblicke sammeln

Das ARC Testverfahren

ARC (Abstract Reasoning Corpus) klingt vielleicht erstmal wie ein Sci-Fi-Abenteuer, ist aber ein bewährtes Mittel, um die grauen Zellen und die künstliche Intelligenz ordentlich auf Trab zu bringen. Hier schauen wir uns mal an, nach welchen Maßstäben im ARC die Eier von den faulen Äpfeln getrennt werden.

Kriterien für den Erfolg

Im ARC-Mikrokosmos gibt's ein strenges Regelwerk, das dem Chaos Einhalt gebietet. Und zwar so:

Genauigkeit: Dein innerer Einstein wird gefragt, wenn es darum geht, den richtigen Output aus dem Hut zu zaubern.
Generalisation: Unvorhergesehene Inputs? Kein Problem – so zumindest die Theorie.
Robustheit: Weil Schwankungen was für Achterbahnen sind, nicht für Deine Punktzahl.

Kriterium	Beschreibung	Gewichtung (%)
Genauigkeit	Wenn Dein Output das glaubt, was es gesehen hat	50
Generalisation	Dein Können über den Tellerrand schauen zu lassen	30
Robustheit	Eigentlich nur ein schickes Wort für "standhaft"	20

Im ARC wird fleißig mit "Paaren" und "Gittern" jongliert. Ein Gitter? Stell Dir das wie 'ne Tabelle voller Zahlen vor, bloß mit nerdigerem Touch. In diesen Gitterkästchen kommen die Inputs rein, die Outputs raus – fertig ist die Laube.

Standardisierte Evaluierung

Die ARC-Bühne bietet ein Interface, das etwa so knackig ist wie 'ne frische Brezel. Was es kann:

Funktion	Beschreibung
Submit	Zeig, was Du kannst und bestätige Deinen Geistesblitz
Next test input	Mach das Eingabepaar Bingo und geh’s nächste an
Load task	Gibt’s Nachschub an kniffligen Spielsachen?

ARC fordert also das volle Programm an Abstraktion, damit nicht nur Dampfplauderer auf ihre Kosten kommen. Dass 2024 die OpenAI-Modelle die Latte ordentlich hochlegen, zeigt, dass KI-Köpfe nicht zum Kopf-ins-Sand-stecken gemacht sind. Wer sagt, der ARC-Jackpot sei ohne Gewinner? So spannend wie 'ne Tüte Popcorn!

Wenn Du noch mehr in die Hirnwindungen und Transistorköpfe reinwühlen willst: Hier gibt's Spannendes unter KI Benchmarks und Vergleich von Algorithmen.

Ressourcen und Tools

ARC Playground

Hey, der ARC Playground ist dein neuer bester Kumpel, wenn's darum geht, in die Welt des Abstract Reasoning Corpus (ARC) einzutauchen. Neugierig auf Herausforderungen oder bereit, dein Gehirn ein bisschen zu trainieren? Hier findest du alles, was du brauchst. Und das Beste: Du kannst dir den ganzen Schnickschnack runterladen und direkt loslegen (Lab42).

Schnapp dir	Was drin steckt
ARC-Download	Hol dir alles auf deinen Rechner und lass die Spielerei beginnen.
Dokumentation	Schritt-für-Schritt-Anleitungen, damit du nicht verloren gehst.
Beispielaufgaben	Übungsaufgaben, damit du weißt, worauf du dich einlässt.

Der ARC Playground ist quasi ein Fitnessstudio für dein Gehirn. Trainiere dein abstraktes Denken und check unsere Informationen zu Verständnis von geradliniger Bewegung und Reflexion aus, falls du noch mehr wissen willst.

Ein KI Tool am Laptop — Mit Hilfe von Computer Intelligence generiert

ARCathon und ARC Editor

Beim ARCathon geht's um die Wurst! Stell dich dem Wettkampf und zeig, was du drauf hast. Noch nicht angemeldet? Kein Problem, einfach auf der ARC-Website registrieren (Lab42).

Dann gibt's noch den ARC Editor. Das Ding ist superpraktisch, wenn's darum geht, eigene Aufgaben zu gestalten oder bestehende Daten durchzuwühlen.

Use It	Worum geht's?
ARCathon	Zeig, dass du den ARC rocken kannst! Tritt gegen andere an und zeig deine Skills.
ARC Editor	Werkzeuge für Tüftler, die eigene Aufgaben basteln oder analysieren wollen.

Falls dich Benchmarks bei KI interessieren, empfehle ich dir, mal bei KI Benchmarks vorbeizuschauen. Da gibt's zusätzliche Tipps, wie du deine Spielstrategie verbessern und im ARCathon brillieren kannst.

Diese Ressourcen und Tools sind deine besten Verbündeten, um volle Kanne in den Abstract Reasoning Corpus (ARC) einzutauchen. Schärf dein Hirn und die Kunst des Problemlösens. Und für den Algorithmusvergleich, vielleicht willst du dir auch unsere Seite zu Vergleich von Algorithmen ansehen – da gibt's noch mehr Futter für dich.

ARC für Mensch und KI

Das Abstract Reasoning Corpus (ARC) ist ein Top-Tool, um zu prüfen, wie clever Du und die Maschinen wirklich sind.

Kognitives Denken im ARC

Im Kern geht's bei ARC darum, Denkmuster zu schnallen und sie anzuwenden. Die Aufgaben, ein bisschen wie Gehirn-Jogging, sind so ausgetüftelt, dass sie Deinem Verstand nacheifern und KIs ins Schwitzen bringen, echte Denkarbeit zu leisten (Medium).

ARC-Aufgaben sind oft Gitterrätsel mit In- und Output-Beispielen. Das Besondere? Du musst die versteckte Logik ausfindig machen und die Gitter nach dieser Regel frisbee-artig neu gestalten. Es ist Dein Job, abzuchecken, ob die Maschine abstraktes Denken und logische Schlussfolgerungen hinbekommt.

Herausforderungen für LLMs

XR-Profi-Sprachmodelle (LLMs) sind beim ARC nicht automatisch auf der Überholspur unterwegs. Die Aufgaben sind tricky und lassen sich nicht mit reiner Mustererkennung oder Methode Holzhacken lösen. Echt denken ist hier gefragt!.

Ein harter Brocken für LLMs? Die erkennen oft die geheimen Regeln in den ARC-Aufgaben nicht sofort und wissen nicht, wie man sie auf neue Rätsel anwendet. Hier klopft die Challenge an die Tür und zeigt uns, wo die gegenwärtigen KI-Systeme ihre Macken haben.

Herausforderung	Was abgeht
Geheimregeln raffen	LLMs müssen versteckte Regeln im Rätsel kapieren.
Testfälle knacken	Regeln auch auf unbekannte Muster anwenden.
Ohne Statistik-Tricks	Keine billige Nummer mit Statistik oder roher Gewalt.

Diese systematische Gangart des ARC zeigt, was echte Intelligenz ausmacht. Wenn Du nach mehr Infos suchst, wie KI bewertet wird oder Algorithmen gegeneinander antreten, dann check unsere Artikel zu KI Benchmarks und Vergleich von Algorithmen aus.

Mehr über die Möglichkeiten von ARC erfahren

Verbesserung der Testleistung

Modelloptimierungen

Wenn Modelle im Abstract Reasoning Corpus (ARC) tüchtig arbeiten sollen, müssen sie etwas aufgerüstet werden. So hat das MIT ein paar coole Tricks aufgetan, die das Ganze ordentlich nach vorne bringen. Dafür feilen sie fein an den Schrauben der Einstellungen während der Inferenz, was die Leistung enorm boostet.

Einer der heißen Tipps ist Test-Time Training (TTT). Ein wahrer Game-Changer, denn das Ganze bringt die Abstraktionsfähigkeiten großer Sprachmodelle, wie die großen Jungs sie haben, nach vorne. Beim Testen bekam man ein Aha-Erlebnis: Die Genauigkeit der Modelle schnellte von Almosen auf satte 53% hoch, im Vergleich zu den 9% von Modellen, die in der Ecke stehen blieben.

Modell	Genauigkeit (%)
Basismodell ohne TTT	9
Modell mit TTT	53

In Kombination mit Ansätzen zur Programmsynthese legten die Modelle noch mal ne Schippe drauf und kamen auf 61,9%. Da konnten sogar Menschlein nur noch nicken, denn das entsprach ziemlich genau deren Durchschnittsleistung. Zeigt, dass bisschen Feintuning ordentliche Ergebnisse bringen kann.

Strategisches Trainingstechnik

Nicht nur das Aufrüsten ist gefragt, auch das Training will clever angegangen werden, um im ARC ordentlich abzuräumen. Ein planvoller Trainingsansatz nimmt die Herausforderungen direkt ins Visier.

Eine smarte Sache ist das Ensemble-Training. Einfach mehrere Modelle in den Mixer schmeißen und die ziehen die Genauigkeit nochmal in die Höhe. So kommen die Maschinenleistungen humanem Niveau gefährlich nah.

Methode	Genauigkeit (%)
Einzelnes Modell	53
Ensemble-Ansatz	61,9

Man sollte auch immer ein Auge auf den Trainingsprozess haben, damit die Modelle für die spezifischen Aufgaben im ARC gut gewappnet sind. Dafür lassen sich Werkzeuge wie der ARC Playground und der ARCathon und ARC Editor nutzen zum Austesten und Feintunen der Modelle.

Für mehr Infos und noch nützlichere Technologien, die dein Training boosten könnten, sind unsere Artikel zu KI Benchmarks und der Vergleich von Algorithmen genau das richtige Lesefutter.

Matthias Mut

Experte in KI und Automatisierung bei der Falktron GmbH.

Spaß an Entwicklung, Fortschritt & Rapid Prototyping.

m.mut@falktron.de

Kostenloses Kennenlernen buchen

Der vielleicht bedeutsamste Fortschritt des Jahres: Abstract Reasoning Corpus (ARC)

Die Abstraktion und Denkweise des ARC

Warum ARC so wichtig ist

Wie Menschen im ARC abschneiden

ARC als Intelligenz-Benchmark

Testaufgaben im ARC

Herausforderung für Künstliche Intelligenz

Das ARC Testverfahren

Kriterien für den Erfolg

Standardisierte Evaluierung

Ressourcen und Tools

ARC Playground

ARCathon und ARC Editor

ARC für Mensch und KI

Kognitives Denken im ARC

Herausforderungen für LLMs

Verbesserung der Testleistung

Modelloptimierungen

Strategisches Trainingstechnik

DER KI-Test - Verständnis von geradliniger Bewegung und Reflexion

Gut oder schlecht? So werden künstliche Intelligenzen getestet

Die Abstraktion und Denkweise des ARC

Warum ARC so wichtig ist

Wie Menschen im ARC abschneiden

ARC als Intelligenz-Benchmark

Testaufgaben im ARC

Herausforderung für Künstliche Intelligenz

Das ARC Testverfahren

Kriterien für den Erfolg

Standardisierte Evaluierung

Ressourcen und Tools

ARC Playground

ARCathon und ARC Editor

ARC für Mensch und KI

Kognitives Denken im ARC

Herausforderungen für LLMs

Verbesserung der Testleistung

Modelloptimierungen

Strategisches Trainingstechnik

DER KI-Test - Verständnis von geradliniger Bewegung und Reflexion

Gut oder schlecht? So werden künstliche Intelligenzen getestet

You might also like...