Produziert von: Science Popularization China Autor: Wang Chen (Doktorand am Institute of Computing Technology, Chinesische Akademie der Wissenschaften) Hersteller: China Science Expo Anmerkung des Herausgebers: Um die neuesten Trends in der intelligenten Technologie vorzustellen, hat das Spitzentechnologieprojekt von China Science Popularization eine Artikelserie zum Thema „Künstliche Intelligenz“ veröffentlicht, um einen Einblick in die neuesten Fortschritte der künstlichen Intelligenz zu geben und auf verschiedene Bedenken und Neugierde einzugehen. Lassen Sie uns gemeinsam das intelligente Zeitalter erkunden und begrüßen. In den letzten zwei Jahren hat OpenAIs ChatGPT weltweit einen explosionsartigen Aufschwung erlebt. Während alle gespannt auf die Veröffentlichung von GPT-5 warteten, veröffentlichte OpenAI am frühen Morgen des 13. September OpenAI o1, ein neues Argumentationsmodell zur Lösung komplexer Probleme. (Bildquelle: Offizielle OpenAI-Website) Wie leistungsstark ist OpenAI o1 aus den Wettbewerbsrankings Anfang des Monats veröffentlichte OpenAI-CEO Sam Altman ein Foto von Erdbeeren, die in seinem Garten wachsen. Anschließend wird OpenAI nach Angaben mit der Angelegenheit vertrauter Personen ein neues KI-Modell mit dem Codenamen Strawberry veröffentlichen. Der Vorgänger des Strawberry-Modells ist Q*, was bedeutet, dass es zwei bekannte Methoden der künstlichen Intelligenz kombiniert – Q-Learning und A*-Suche. Es heißt, dass die übermäßig leistungsstarken Fähigkeiten von Q* bei Forschern die Sorge geweckt haben, dass es eine potenzielle Bedrohung für die Menschheit darstellen könnte, was einer der Hauptgründe für die früheren internen Unruhen bei OpenAI war. Foto von Erdbeeren gepostet von Sam Altman (Bildquelle: Sam Altmans X(Twitter)-Konto) Das von OpenAI veröffentlichte OpenAI o1-Modell ist das Strawberry-Modell. Aufgrund seiner wichtigen Fortschritte bei komplexen Denkproblemen begann OpenAI erneut, bei 1 zu zählen, und nannte das neue Modell OpenAI o1. Laut von OpenAI veröffentlichten Informationen kann OpenAI o1, genau wie Menschen, mehr Zeit mit Nachdenken verbringen, bevor es Fragen beantwortet. Daher kann das O1-Modell durch logisches Denken schwierigere Probleme in den Naturwissenschaften, der Programmierung und der Mathematik lösen als zuvor. Im Vergleich zu OpenAIs neuestem Vorgängermodell GPT-4o hat OpenAI o1 bei Mathematikwettbewerben, Programmierwettbewerben und wissenschaftlichen Problemen von PhD-Benchmarks erhebliche Verbesserungen erzielt und damit seine starken Fähigkeiten bei komplexen Denkaufgaben unter Beweis gestellt. Bei Programmierwettbewerben (Codeforces) liegt es im 89. Perzentil, ist bei der American Mathematical Olympiad (AIME) unter den Top 500 in den USA und hat menschliche Doktoranden bei der Beantwortung von Benchmark-Fragen (GPQA) in Physik, Biologie und Chemie übertroffen. Vergleich zwischen OpenAI o1 und GPT-4o in Mathematik, Programmierung und wissenschaftlichen Problemen (Bildquelle: Offizielle OpenAI-Website) Die Geheimwaffe von OpenAI o1: Verstärkungslernen basierend auf Gedankenverkettung Der Grund, warum OpenAI o1 weitaus bessere Denkfähigkeiten als GPT-4o erreichen kann, liegt darin, dass es auf der Chain of Thought basierendes Verstärkungslernen verwendet. So wie ein Mensch lange nachdenken muss, bevor er eine schwierige Frage beantwortet, verwendet auch OpenAI o1 Gedankenketten, wenn es versucht, ein Problem zu lösen. Durch Gedankenverkettung zerlegt das Modell die Aufgabe in einfachere Schritte und löst diese nacheinander. Dies ist in der Regel genauer, als wenn man das Modell auffordert, die Antwort auf das Problem direkt auszugeben. Tatsächlich ist die Gedankenverkettung kein neues Konzept. Lange vor der Veröffentlichung von GPT-3 haben Forscher entdeckt, dass Gedankenketten große Sprachmodelle zum Denken führen können. Beispiel für die Verwendung von Gedankenketten in einem großen Sprachmodell (Bildquelle: Übersetzung aus Referenz 2) Das Beispiel in der obigen Abbildung verfügt über zwei Sätze von Eingaben und Ausgaben eines großen Sprachmodells. Als Eingabe erhält das Modell zunächst eine Frage und eine Antwort zum Zählen der Anzahl von Tennisbällen, anschließend wird dem Modell eine ähnliche Frage zum Zählen der Anzahl von Äpfeln gestellt. Unten links sind direkte Fragen und Antworten aufgeführt, bei denen das Modell falsche Antworten gegeben hat. Unten rechts finden Sie eine Frage und Antwort mithilfe einer Gedankenkette. Die Forscher ergänzten die Frage und Antwort zur Anzahl der in das Modell eingegebenen Tennisbälle, zeigten dem Modell den Denkprozess zur Ermittlung der Anzahl der Tennisbälle und baten das Modell dann, die Anzahl der Äpfel anzugeben. Dieses Mal hat das Modell die Anzahl der Äpfel durch logisches Denken richtig berechnet. Diese Methode, das Modell bei der Problemgenerierung durch eine Reihe von Zwischenschritten der Argumentation zu führen, wird als Gedankenverkettung bezeichnet. Durch die Gedankenkette kann das große Sprachmodell die Denkschritte bei der Problemlösung detailliert und intuitiv darstellen. Dies verbessert nicht nur die Genauigkeit des großen Sprachmodells bei der Lösung von Denkproblemen, sondern macht auch die Antworten des großen Sprachmodells erklärbar und es handelt sich nicht länger um eine vollständige Blackbox. Nach der Veröffentlichung von GPT-3 wurde den Leuten die Bedeutung dieser Eingabeaufforderung noch bewusster. Bei großen Sprachmodellen mit stärkeren Fähigkeiten müssen Sie beim Stellen von Fragen nicht einmal Beispiele wie das oben genannte zum Zählen von Tennisbällen angeben. Sie müssen dem Modell nur sagen: „Lass uns Schritt für Schritt denken“, um die Fähigkeit des Modells zu verbessern, mit komplexen Denkproblemen umzugehen. Die oben genannten Versuche bieten alle eine Orientierungshilfe beim Stellen von Fragen an das Modell. Wenn Gedankenketten so nützlich sind, ist es dann möglich, Gedankenketten während der Modellkonstruktion und des Modelltrainings innerhalb des Modells zu festigen? Dies ist, was OpenAI o1 versucht hat. Verstärkungslernen und neues Skalierungsgesetz von OpenAI o1 Beim Beantworten von Fragen führt das GPT-Modell im Wesentlichen eine „Textkette“ aus. Es schätzt, welche Art von Antwort auf der Grundlage der Eingaben des Modells am geeignetsten ist, und zwar auf Grundlage einer großen Menge statistischer Wahrscheinlichkeitsdaten während des Trainings. Damit das große Sprachmodell lernt, Gedankenketten zu verwenden, anstatt nur auf der Grundlage von Wahrscheinlichkeiten fortzufahren, verwendete OpenAI o1 eine maschinelle Lernmethode namens „Reinforcement Learning“. Reinforcement Learning bedeutet, dass das Modell durch eine „Versuch und Irrtum“-Methode lernt. Während des Trainingsprozesses wird dem Modell nicht mitgeteilt, was das Standardergebnis ist, sondern wie gut oder schlecht das Ergebnis ist. Wenn das Ergebnis des Modells richtig ist, wird das Modell dazu neigen, dieses Ergebnis in zukünftigen Ausgaben zu übernehmen. Wenn das Ergebnis des Modells falsch ist, wird es dazu neigen, dieses Ergebnis in zukünftigen Ausgaben zu vermeiden. Nach vielen Runden des Ausprobierens lernt das Modell auf der Grundlage seiner eigenen Erfahrung eine Reihe von Beurteilungskriterien. Reinforcement Learning, eine Lernmethode, die keine Standardantworten liefert, eignet sich für Entscheidungsprobleme in komplexen Umgebungen, wie etwa Robotersteuerung, Finanztransaktionen, Schachspiele und anderen Bereichen. In diesen Bereichen können wir oft keine richtige Antwort im herkömmlichen Sinne geben, sondern nur die Ergebnisse einer Handlung kennen. Beispielsweise, ob ein Roboter stürzt, ob eine Finanztransaktion profitabel ist oder ob ein Spiel gewonnen wird. Ein berühmtes Beispiel für bestärkendes Lernen ist AlphaGo, die Go-spielende KI, die 2016 von Deepmind entwickelt wurde. Im Bereich Go übersteigt die Gesamtzahl der möglichen Situationen sogar die Gesamtzahl der Atome im beobachtbaren Universum. Selbst die besten Go-Spieler können nicht in jeder Situation den besten Zug bestimmen. Da Go zu komplex ist, ist es unmöglich, durch erschöpfende Aufzählung die beste Spielweise zu ermitteln. Vor dem Aufkommen von AlphaGo glaubten die Menschen, dass es für künstliche Intelligenz unmöglich sei, Menschen in Go zu besiegen. AlphaGo wird mithilfe von bestärkendem Lernen trainiert, wobei es Schach gegen sich selbst spielt und aus jedem gewonnenen und verlorenen Spiel lernt. Es braucht keine Menschen, die ihm sagen, welcher Zug richtig ist, und es muss auch keine früheren menschlichen Schachrekorde lernen. Bereits nach wenigen Trainingstagen hat es ein Niveau erreicht, von dem menschliche Schachspieler nicht einmal träumen können. Im Entscheidungsprozess von AlphaGo nimmt das Spiel zunächst eine grobe Einschätzung der Situation vor und ermittelt, wo der Zug ausgeführt werden soll, der mit größerer Wahrscheinlichkeit zum Sieg führt. Dieses Gefühl oder diese Intuition wird vom Menschen üblicherweise als Schachsinn bezeichnet. Nachdem AlphaGo grob ermittelt hat, wo ein Zug wahrscheinlich vorteilhafter ist, berechnet es die weiteren Möglichkeiten dieser verschiedenen Züge und wählt den besten aus. Daher gibt es zwei Hauptfaktoren, die die Stärke von AlphaGo beeinflussen, darunter die Fähigkeit, die Situation einzuschätzen, und der Rechenaufwand, der zum Berechnen möglicher Züge erforderlich ist. Unter anderem kann der bestärkende Lernprozess des Modells dessen Fähigkeit verbessern, die Situation zu beurteilen. AlphaGos Selbstspiel (Bildquelle: Referenz 1) Während des Trainings von OpenAI o1 lernte OpenAI o1 durch bestärkendes Lernen, seine Denkkette zu verfeinern und die verwendeten Strategien zu verbessern. Es lernte, schwierige Probleme in einfachere Schritte zu zerlegen und Fehler während des Analyseprozesses zu erkennen und zu korrigieren. Dieser Prozess verbessert die Argumentationsfähigkeiten des Modells erheblich. Nachdem OpenAI o1 gelernt hat, Gedankenketten zu verwenden, ist für die Eingabe keine menschliche Anleitung mehr erforderlich, um Gedankenketten zu verwenden. Stattdessen empfiehlt OpenAI, die Eingabeaufforderungen bei der Verwendung von OpenAI o1 einfach und direkt zu halten und Eingabeaufforderungen in Form von Gedankenketten zu vermeiden. Bei ihren Tests von OpenAI o1 stellten die Forscher fest, dass eine Verlängerung der Trainingszeit für das bestärkende Lernen und eine längere Denkzeit während des Schlussfolgerungsprozesses die Leistung des Modells verbessern können. Dies steht im Einklang mit den oben genannten Faktoren, die die Stärke von AlphaGo beeinflussen. Das Skalierungsgesetz von OpenAI o1 (Bildquelle: OpenAI) Im Jahr 2020 entdeckten Forscher bei OpenAI das Skalierungsgesetz für große Sprachmodelle. Die Leistung großer Sprachmodelle steigt mit zunehmender Modellgröße, Trainingssatzgröße und Rechenaufwand während des Trainings. OpenAI o1 demonstriert ein neues Skalierungsgesetz. Im Hinblick auf die Verbesserung der Modellleistung kann auch die Inferenzzeit erhöht werden, um dem Modell eine stärkere Leistung zu verleihen, was neue Möglichkeiten für die zukünftige Weiterentwicklung großer Sprachmodelle bietet. Die OpenAI o1-Serie umfasst derzeit drei Modelle: o1, o1-preview und o1-mini. Ihre Modelle haben unterschiedliche Größen, o1 ist das größte und verfügt über die stärksten Denkfähigkeiten und o1-mini ist das kleinste, verbraucht bei der Verwendung aber weniger Kosten. Ihre Leistung bei Mathematikwettbewerben ist in der folgenden Abbildung dargestellt. Bei Mathematikwettbewerben schneidet o1-mini sogar besser ab als o1-preview, bei anderen Aufgaben, die Kenntnisse außerhalb des MINT-Bereichs (Mathematik, Informatik, Naturwissenschaften und Technik) erfordern, schneidet es jedoch schlechter ab. Gleichzeitig verbessert sich mit zunehmender Inferenzzeit die Leistung der drei Modelle. Leistung verschiedener Versionen von OpenAI o1-Modellen in Mathematikwettbewerben (Bildquelle: OpenAI) Wird OpenAI o1 weitere Sicherheitsprobleme mit sich bringen? Der Durchbruch des o1-Modells von OpenAI hat die Fähigkeiten großer Sprachmodelle zweifellos weiter verbessert. OpenAI hat einmal fünf Phasen zum Aufbau allgemeiner künstlicher Intelligenz (AGI) vorgeschlagen. Die erste Stufe besteht darin, eine künstliche Intelligenz zu erreichen, die mit Menschen kommunizieren kann, und die zweite Stufe besteht darin, eine künstliche Intelligenz mit Denkfähigkeiten zu erreichen. ChatGPT hat die Ziele der ersten Phase erreicht und das Aufkommen von OpenAI o1 bringt uns der zweiten Phase einen Schritt näher. Während OpenAI o1 leistungsstarke Denkfähigkeiten demonstriert, können die Leute nicht anders, als sich, ebenso wie die Forscher über Q* Sorgen machen, zu fragen, ob OpenAI o1 weitere Sicherheitsprobleme mit sich bringen wird. Der Bericht von OpenAI wies darauf hin, dass MindChain neue Möglichkeiten zur Verbesserung der Sicherheit von Modellen bietet. Während des Trainingsprozesses können menschliche Werte in die Denkkette des Modells integriert werden, sodass das Modell schädliches Verhalten ablehnen kann. Gleichzeitig ermöglichen uns Gedankenketten, das Denken des Modells klar zu beobachten und so die Sicherheit des Modells zu erhöhen. Die Zukunft könnte jenseits aller Vorstellungskraft liegen Derzeit stehen den Benutzern die Vorschauversion und die Miniversion von OpenAI o1 zur Verfügung. Später werden praktische Funktionen wie Durchsuchen sowie Hochladen von Dateien und Bildern hinzugefügt. Wie effektiv es in realen Szenarien ist, muss noch weiter erforscht und getestet werden. Alles in allem könnten die wichtigen Fortschritte von OpenAI o1 im Bereich der Denkfähigkeit bedeuten, dass wir der allgemeinen künstlichen Intelligenz einen Schritt näher gekommen sind. Wohin wird sich die künstliche Intelligenz in Zukunft entwickeln und kann sie größere Beiträge zum Wohle der menschlichen Gesellschaft leisten? Freuen wir uns weiterhin darauf. Quellen: 1.Silver, D., Schrittwieser, J., Simonyan, K. et al. Das Spiel Go ohne menschliches Wissen meistern. Nature 550, 354–359 (2017). https://doi.org/10.1038/nature24270 2.https://proceedings.neurips.cc/paper_files/paper/2022/hash/9d5609613524ecf4f15af0f7b31abca4-Abstract-Conference.html |
>>: Kann der Verzehr von Chilischoten das Leben verlängern? Scharfes Essen aufgepasst →
Was ist die Shengmeijia-Website? JM Smucker ist di...
Viele Menschen finden Litschis köstlich, kennen a...
Was ist die Website der Schweizerischen Vereinigun...
Zuckerschoten sind ein sehr verbreitetes und nahr...
Schnecken sind eine Art Weichtiere mit zartem Fle...
Chinakohl hat einen knackigen Geschmack, ist leic...
Vitamin C ist ein wasserlösliches Vitamin. Es ver...
Zitrone ist eine weit verbreitete Frucht, die sic...
Unvollständigen Statistiken zufolge hat in den le...
Wachteleier sind die Eier der Tierwachtel. Sie si...
Goldener Lotus wird auch „Saiwai Longjing“ genann...
jüngste, Herr Mo, 81 Jahre alt, aus Dongguan, Gua...
Purple Moon Bewässerungstipps Die Purpur-Mondblum...
Sorghumreis ist eine Reiszutat, die aus den gesch...
Was ist Tatarpetr? Tatneft (russisch: ОАО «Татнефт...