Großer Durchbruch! Schließt KI eine große Lücke im Proteindesign oder löst sie das Rätsel um Krebs und Demenz?

Großer Durchbruch! Schließt KI eine große Lücke im Proteindesign oder löst sie das Rätsel um Krebs und Demenz?

Vorwort

Neurologische Erkrankungen wie Schlaganfall und Demenz zählen zu den häufigsten Ursachen für Krankheiten und Behinderungen. Nach Angaben der Weltgesundheitsorganisation (WHO) leidet mehr als ein Drittel der Weltbevölkerung an solchen Krankheiten. Zu diesen neurodegenerativen Erkrankungen zählen chronische und weit verbreitete Krankheiten, die eine ernsthafte Bedrohung für die Gesundheit und Lebensqualität des Menschen darstellen.

Ein tieferes Verständnis der Struktur und Funktion von Proteinen wird wichtige Erkenntnisse zur Behandlung dieser Krankheiten liefern. Die Erforschung der Proteinfaltung begann bereits in den 1950er Jahren. Das Aufkommen von AlphaFold hat das Paradigma, nach dem Wissenschaftler die Proteinfaltung untersuchen, völlig verändert.

Heute hat die KI in den Proteinwissenschaften neue Durchbrüche erzielt——

Kürzlich stellte ein Forschungsteam der Universität Kopenhagen, des St. Jude Children's Research Hospital und des Illinois Institute of Technology einen allgemeinen Algorithmus für die Entwicklung von Proteinvarianten mit spezifischen Struktureigenschaften vor und erweiterte damit die Proteinforschung auf das Gebiet der intrinsisch ungeordneten Proteine ​​(IDPs).

IDPs sind Proteine, die sich nicht zu einer stabilen oder geordneten dreidimensionalen Struktur falten lassen und denen sowohl in gesunden Systemen als auch in der Pathophysiologie verschiedener Krankheiten eine wichtige biologische Bedeutung zugeschrieben wird. Im Gegensatz zu gefalteten Proteinen zeichnen sich IDPs durch hohe Unordnung, lokale Mobilität und hohe Dynamik aus, was sie für bestehende Vorhersagetools besonders herausfordernd macht.

Diese Studie hat nicht nur theoretisch eine neue Designmethode vorgeschlagen, sondern auch die entworfenen IDP-Varianten durch Experimente überprüft und maschinelle Lernmodelle verwendet, um die kollektiven Eigenschaften von IDPs vorherzusagen und so neue Werkzeuge für das computergestützte Proteindesign bereitzustellen. Dies könnte uns dabei helfen, die Pathogenese verschiedener neurodegenerativer Erkrankungen (wie Alzheimer, Parkinson und amyotrophe Lateralsklerose) und verschiedener Krebsarten zu verstehen und die Entdeckung neuer Medikamente sowie die Entwicklung von Biomaterialien zu fördern.

Die zugehörige Forschungsarbeit mit dem Titel „Design of intrinsically disordered protein variants with diverse structural properties“ wurde in der renommierten Fachzeitschrift Science Advances veröffentlicht.

Warum sollten wir uns um Binnenvertriebene kümmern?

Ein Origamistück ist nichts anderes als gepresster Holzbrei, bis es auf eine bestimmte Weise gefaltet wird. Sobald es gefaltet ist, wird es zu etwas Neuem. Nach ein paar präzisen Faltungen und Drehungen wird daraus ein Papierprodukt, das Ihre Zukunft vorhersagen kann – ein Glücksstab. Aus demselben Stück Papier kann durch einige veränderte Faltschritte ein Kranich werden, der seine Flügel ausbreitet und zum Abflug bereit ist und so die Ankunft des Glücks symbolisiert.

Ebenso hat eine lange Kette von Aminosäuremolekülen keine Funktion, bis sie sich spontan in ihre spezifische Form faltet. Zellen stellen Proteine ​​her, indem sie kleine Aminosäuremoleküle zu langen Polypeptidketten aneinanderreihen. Welche Aminosäure ausgewählt wird, hängt von den Anweisungen der DNA ab. Wenige Augenblicke nach ihrer Entstehung biegen und falten sich Polypeptidketten präzise in die endgültige 3D-Form des Proteins.

Wenn Proteine ​​diesen Faltungsprozess nicht mit äußerster Effizienz durchführen können, kommt es im menschlichen Körper zu einer Reihe von Katastrophen. Falsch gefaltete oder ungefaltete Proteine ​​können toxisch werden und zum Zelltod führen. Viele Krankheiten und Störungen, wie beispielsweise Sichelzellenanämie, werden durch fehlgefaltete Proteine ​​verursacht. Falsch gefaltete Proteine ​​können sich auch zu Klumpen zusammenballen, ein Kennzeichen neurodegenerativer Erkrankungen wie Alzheimer und Parkinson.

Daher ist die Vorhersage der 3D-Form von Proteinmolekülen für unser Verständnis oder unsere Behandlung neurodegenerativer Erkrankungen sehr wichtig.

Allerdings konzentrierte sich das Gebiet der Strukturbiologie in der Vergangenheit auf die Untersuchung von Proteinen und Nukleinsäuren, die sich zu stabilen 3D-Strukturen falten, und ein Großteil des heutigen Verständnisses der Funktion von Proteinen in Zellen basiert auf dem Konzept der „Sequenz-Struktur-Funktion“-Beziehungen.

Ungefähr 30 % der Proteine ​​in Eukaryoten falten sich nicht in stabile 3D-Strukturen. Diese sich dynamisch verformenden Proteine ​​werden als IDPs bezeichnet. Wenn sie im Kontext anderer strukturierter Proteindomänen auftreten, werden sie als „intrinsisch ungeordnete Regionen“ (IDRs) bezeichnet. IDPs und IDRs spielen verschiedene wichtige Rollen in molekularen und zellulären Funktionen und stellen das Sequenz-Struktur-Funktions-Paradigma in Frage.

Eine gestörte Zellfunktion der IDPs wird mit mehreren neurodegenerativen Erkrankungen (Alzheimer-Krankheit, Parkinson-Krankheit, amyotrophe Lateralsklerose) und vielen Krebsarten in Zusammenhang gebracht. Ihre Fähigkeit zur Selbstassoziation zur Bildung biomolekularer Kondensate und zur Erzeugung einer Vielzahl membranloser Organellen in der Zellumgebung wird zunehmend als von großer Bedeutung für die Zellbiologie und das Krankheitsgeschehen anerkannt.

Um die Biologie und menschliche Krankheiten besser zu verstehen, betonte Paul Robustelli, Assistenzprofessor am Dartmouth College, in einem verwandten Artikel: „Die Strukturbiologie muss über die Untersuchung von Proteinen mit stabilen 3D-Strukturen hinausgehen und Regeln entwickeln, die erklären, wie die Sequenz der IDRs die Verteilung der Formen bestimmt, die sie in Lösung annehmen, und wie diese Verteilung ihre Funktion in Zellen und ihre Fehlfunktion bei Krankheiten bestimmt.“

Ausweitung des computergestützten Proteindesigns auf IDPs

IDPs weisen eine extreme, aber im Allgemeinen nicht zufällige strukturelle Heterogenität auf und können keine stabilen gefalteten Strukturen bilden. Daher ist die Strukturvorhersage von IDPs anspruchsvoller als die von gefalteten Proteinen und ihr rechnergestütztes Design bleibt begrenzt.

Francesco Pesce und Kollegen haben sich dieser Herausforderung gestellt. Aufbauend auf einem zuvor veröffentlichten Computermodell namens CALVADOS entwarfen sie einen allgemeinen Algorithmus zur Generierung von IDPs mit vordefinierten globalen Eigenschaften und verwendeten ihn, um vier IDPs mit unterschiedlichen Merkmalen zu erstellen. Sie konzentrierten sich außerdem auf einen IDP-Typ namens A1-LCD und validierten experimentell die Herleitung der Sequenz-Ensemble-Beziehungen des Modells für mehrere Varianten von A1-LCD.

Sie entwarfen einen allgemeinen Algorithmus für Proteinvarianten mit spezifischen strukturellen Eigenschaften. Der Algorithmus verwendet eine grobkörnige Simulation und Berechnung der freien Energie, kombiniert mit Monte-Carlo-Sampling-Methoden, um im Sequenzraum zu suchen und Proteinsequenzen mit Zielstrukturmerkmalen zu generieren. Mithilfe des Algorithmus entwarfen die Forscher verschiedene Proteinvarianten und überprüften diese experimentell. Die Ergebnisse zeigten, dass der Algorithmus effektiv Proteinvarianten mit unterschiedlicher Kompaktheit, weitreichenden Wechselwirkungen und Phasentrennungstendenzen entwerfen kann.

Der Algorithmus durchsucht den Sequenzraum und setzt jede Sequenz mithilfe effizienter grobkörniger Simulationen in Beziehung zu ihren Konformationseigenschaften. Mithilfe des CALVADOS-Modells wurden grobkörnige molekulardynamische (MD) Simulationen durchgeführt und Konformationsensembles von IDPs generiert. Der Algorithmus tastet den Sequenzraum mithilfe einer Monte-Carlo-Methode (MCMC) ab und sagt seine Konformationseigenschaften voraus (über MD-Simulationen und Berechnungen der freien Energie). Durch den Optimierungsprozess werden spezifische Aminosäureanordnungen gesucht, um Zielstrukturmerkmale zu identifizieren.

Abbildung | Übersicht über den Algorithmus des Forschungsteams zum Entwerfen von IDP-Sequenzen mit Zielkonformationseigenschaften.

Der Algorithmus kann IDP-Sequenzen mit spezifischen strukturellen Eigenschaften entwerfen, wie etwa Kompaktheit, Fernkontakte und Neigung zur Phasentrennung. Darüber hinaus kann es den Sequenzraum erkunden und IDP-Sequenzen mit neuen Konformationsmerkmalen finden. Das Forschungsteam nutzte außerdem Modelle des maschinellen Lernens, um den Algorithmus zu beschleunigen und effizienter zu machen.

Für die Zukunft empfiehlt das Forschungsteam, einen größeren Bereich von Sequenzräumen abzutasten und die Kombination von MCMC-Sampling mit anderen Methoden (wie etwa bestärkendem Lernen und Bayesscher Optimierung) zu prüfen, um den Sequenzraum effektiver zu untersuchen. Darüber hinaus weisen die Autoren darauf hin, dass die Kombination aus maschinellem Lernen und Simulation besonders wichtig sein wird, wenn Sequenzen mit komplexeren strukturellen Observablen entworfen werden, bei denen Simulationen teurer und chemische Berechnungen weniger effizient sein können. Darüber hinaus kann der Algorithmus auf den Entwurf von Sequenzen mit anderen Strukturmerkmalen angewendet werden und demonstriert die Möglichkeit, Sequenzen mit gezielten Kontaktkarten zu entwerfen.

KI für Proteine ​​wird immer besser

Wissenschaftler untersuchen Proteine ​​seit den 1960er Jahren und verlassen sich dabei hauptsächlich auf traditionelle Techniken wie Röntgenstrahlen und Kernspinresonanz (NMR), um ihre Struktur zu bestimmen. Mit dem zunehmenden Verständnis der biochemischen Mechanismen von Proteinen und der rasanten Weiterentwicklung der Computertechnologie haben Forscher begonnen, sich computergestützten Methoden zur Vorhersage von Proteinstrukturen zuzuwenden.

Im Jahr 2016 leistete das Team von Xu Jinbo Pionierarbeit bei der Anwendung tiefer Residualnetzwerke (ResNet) in der Strukturvorhersage und verbesserte so die Genauigkeit der Vorhersage von Proteinrückstandskontakten erheblich. Auf Grundlage dieser Errungenschaft sind eine Reihe von Studien entstanden, die Koevolutions- und Deep-Learning-Algorithmen kombinieren, wie etwa AlphaFold (mit Schwerpunkt auf der Vorhersage von Restdistanzen) und trRosetta, entwickelt vom Team von Yang Jianyi und David Baker (mit Schwerpunkt auf der Einführung von Informationen zum Flächenwinkel usw.), die beide die ResNet-Architektur übernommen haben.

Im Jahr 2020 sorgte AlphaFold2 beim CASP14-Wettbewerb für Aufsehen und erreichte eine Vorhersagegenauigkeit von 98,5 %. Im Jahr 2021 veröffentlichte das Team von David Baker das Open-Source-Proteinvorhersagetool RoseTTAFold im Science-Magazin. Dieses Tool verwendet die Technologie der natürlichen Sprachverarbeitung (NLP), um Koevolutionsinformationen direkt aus multiplen Sequenzalignments (MSA) zu extrahieren. Seine Vorhersagegenauigkeit ist vergleichbar mit AlphaFold2 in CASP14. Seitdem werden vorab trainierte Modelle auf der Grundlage von Proteinsequenzen, auch als Proteinsprachenmodelle (PLMs) bezeichnet, häufig zur Vorhersage von Proteinstrukturen verwendet.

Ende 2022 brachte Meta ESM-2 und ESMFold auf den Markt, die zu einem der größten und komplexesten Proteinsprachenmodelle wurden, die zu dieser Zeit veröffentlicht wurden. Im Jahr 2024 brachte das Team von David Baker RoseTTAFold All-Atom (RFAA) auf den Markt, eine neue Methode zur Strukturvorhersage, die die 3D-Koordinaten aller Atome in biologischen Einheiten, einschließlich Proteinen, Nukleinsäuren, kleinen Molekülen, Metallen und chemischen Modifikationen, genau beschreiben kann.

Neben erheblichen Fortschritten im Bereich der Proteinstrukturvorhersage macht künstliche Intelligenz (KI) auch in vielen anderen Bereichen der Proteinforschung weiterhin Fortschritte, beispielsweise bei der Vorhersage der Wechselwirkung zwischen Proteinen und anderen biologischen Molekülen, beim Proteindesign, in der Proteomik usw. Mit Blick auf die Zukunft wird KI ihren Einfluss weiter ausbauen und viele Lücken in der Proteinforschung schließen.

<<:  Werden Sie zu einer Trendsuche! Quan Hongchan: Das Verbinden vor dem Tauchen dauert eine halbe Stunde! Wozu dient ein Verband?

>>:  Was genau ist das „Lungenadenokarzinom“, an dem der berühmte Zauberer leidet? Präventionsbroschüre hier →

Artikel empfehlen

Wie lang ist der Wachstumszyklus einer Lotusblume?

Einführung in Lotus Growth Lotus wächst in ruhige...

Die Wirksamkeit und Funktion von Fenchel

Fenchel ist ein alltägliches Gericht in unserem L...

Wann und wie man Linsen pflanzt

Pflanzzeit für Linsen Die Linse bevorzugt eine wa...

Anbaumethoden und Vorsichtsmaßnahmen für den neunschwänzigen Fuchs-Sukkulenten

Die Sukkulente Neunschwänziger Fuchs wird von vie...

So macht man Chili-Nudeln: Zutaten und Schritte

Chilipulver wird aus gemahlenen Chilischoten herg...

Die Vor- und Nachteile des Verzehrs von Litschis

Litschi ist eine in Südchina weit verbreitete Fru...

Können Glyzinien im Garten gepflanzt werden?

Kann ich in meinem Garten Glyzinien anbauen? Blau...

Wie man eine Bananenmaske macht

Leckere Bananen sind unser Lieblingsobst im Allta...