Neue Möglichkeiten für die Krebsbehandlung! Das weltweit erste digitale Pathologiemodell wird veröffentlicht

Neue Möglichkeiten für die Krebsbehandlung! Das weltweit erste digitale Pathologiemodell wird veröffentlicht

Mitwirkender Autor: Xu Hanwen (Doktorand im zweiten Jahr an der University of Washington)

In den letzten Jahren hat die dynamische Entwicklung der digitalen Pathologie einen wichtigen Beitrag zur Beschleunigung von Durchbrüchen in der Präzisionsmedizin geleistet. Die Ganzkörperbildgebung, bei der Tumorgewebeproben in hochauflösende digitale Bilder umgewandelt werden, ist in der Krebsbehandlung zur Routine geworden. Pathologische Bilder mit bis zu einer Milliarde Pixeln enthalten vielfältige Informationen zur Tumormikroumgebung und bieten beispiellose Möglichkeiten für die Diagnose von Krebsklassifizierungen, die Analyse der Überlebensrate und eine präzise Immuntherapie.

In jüngster Zeit hat die Revolution der generativen künstlichen Intelligenz leistungsstarke Lösungen für die genaue Wahrnehmung und Analyse der enormen Informationsmengen in pathologischen Bildern hervorgebracht. Gleichzeitig werden Durchbrüche in der multimodalen generativen künstlichen Intelligenztechnologie dazu beitragen, digitale Pathologiebilder aus mehreren Zeit- und Raumskalen zu verstehen und sie mit anderen biomedizinischen Modalitäten zu integrieren, um die Evolution und Entwicklung von Patientenkrankheiten besser darzustellen und Ärzte bei der klinischen Diagnose und Behandlung zu unterstützen.

Aufgrund des großen Maßstabs, der hohen Pixelanzahl und der komplexen Merkmale digitaler Pathologiebilder ist es jedoch eine große Herausforderung, die darin enthaltenen komplexen Muster aus rechnerischer Sicht effizient zu verarbeiten und zu verstehen . Nach der digitalen Transformation enthält jeder vollständige Ausschnitt Milliarden von Pixeln und hat eine Fläche, die hunderttausendmal so groß ist wie die eines natürlichen Bildes. Dies erschwert die Anwendung vorhandener Computervision-Modelle. Die Rechenkomplexität herkömmlicher Bildverarbeitungsmodelle wie Vision Transformer steigt mit zunehmender Größe des Eingabebilds rapide an. Gleichzeitig weisen klinisch-medizinische Daten die Merkmale auf, dass sie maßstabsübergreifend und multimodal sind und ein hohes Rauschen aufweisen. Zudem basieren die meisten vorhandenen Pathologiemodelle auf standardmäßigen öffentlichen Datensätzen, die noch weit von realen Anwendungen entfernt sind.

Zu diesem Zweck haben Forscher von Microsoft Research, Providence Medical Network und der University of Washington gemeinsam das erste vollflächige digitale Pathologiemodell namens GigaPath vorgeschlagen .

Es wird berichtet, dass das GigaPath-Modell eine zweistufige Kaskadenstruktur und die kürzlich von Microsoft Research entwickelte LongNet-Architektur verwendet, die das Problem der Verarbeitung und des Verständnisses von Bildern mit Milliarden Pixeln effizient löst . Die Forscher trainierten GigaPath im großen Maßstab anhand realer Daten und sammelten 170.000 digitale Pathologiebilder im Vollbildformat von 30.000 Patienten in 28 Providence-Krankenhäusern in den USA, insgesamt 1,3 Milliarden Pathologiekacheln.

Experimentelle Ergebnisse zeigen, dass GigaPath bei 25 von 26 Aufgaben, darunter 9 Krebsklassifizierungen und 17 Pathologieaufgaben, führende Ergebnisse erzielt und bei 18 Aufgaben bestehenden Methoden deutlich überlegen ist.

Die Forscher sagten, dass diese Studie die Bedeutung der vollflächigen Modellierung und des Vortrainings mit umfangreichen realen Daten demonstriert habe. Gleichzeitig wird GigaPath auch neue Möglichkeiten für eine fortschrittlichere Krebsbehandlung und klinische Entdeckungen bieten. Es ist erwähnenswert, dass das Modell und der Code von GigaPath Open Source sind.

Verfahren

GigaPath verwendet ein zweistufiges Lehrplanlernen, einschließlich Vortraining auf Kachelebene mit DINOv2 und Vortraining auf Vollscheibenebene mit Masken-Autoencoder mit LongNet, wie in der folgenden Abbildung dargestellt.

Abbildung |GigaPath-Modelldiagramm

DINOv2 ist eine standardmäßige selbstüberwachte Methode, die den Kontrastverlust und den Verlust der Maskenrekonstruktion beim Training des Vision Transformer für Lehrer und Schüler kombiniert. Aufgrund der rechnerischen Herausforderungen, die die Selbstaufmerksamkeit selbst mit sich bringt, ist ihre Anwendung jedoch auf kleine Bilder, beispielsweise 256 × 256 Kacheln, beschränkt. Für die Modellierung auf Vollschichtebene hat das Forschungsteam Dilated Attention von LongNet auf die digitale Pathologie angewendet, wie in der folgenden Abbildung dargestellt.

Abbildung | LongNet-Modelldiagramm

Um lange Sequenzen von Bildkacheln über ganze Scheiben hinweg verarbeiten zu können, führten sie eine Reihe zunehmender Größen ein, die die Kachelsequenz in Segmente einer bestimmten Größe unterteilen. Bei größeren Segmenten führt LongNet eine spärliche Aufmerksamkeit ein, bei der die Spärlichkeit proportional zur Segmentlänge ist und so dem quadratischen Wachstum entgegenwirkt. Das größte Fragment deckt die gesamte Scheibe ab. Dies ermöglicht die systematische Erfassung von Abhängigkeiten über große Entfernungen, während die Berechnung gleichzeitig überschaubar bleibt (linear in der Kontextlänge).

Wichtigste experimentelle Ergebnisse

Im Hinblick auf die Krebsklassifizierungsdiagnose besteht das Aufgabenziel darin, anhand pathologischer Abschnitte feinkörnige Subtypen zu klassifizieren. Beim Eierstockkrebs beispielsweise muss das Modell zwischen sechs Untertypen unterscheiden: klarzelliger Eierstockkrebs, endometrioider Eierstockkrebs, hochgradiger seröser Eierstockkrebs, niedriggradiger seröser Eierstockkrebs, muzinöser Eierstockkrebs und Eierstockkarzinosarkom. **GigaPath erzielte bei allen neun Krebsklassifizierungsaufgaben führende Ergebnisse, mit erheblichen Genauigkeitsverbesserungen bei sechs der Krebsklassifizierungsaufgaben. **Bei sechs Krebsarten (Brust-, Nieren-, Leber-, Gehirn-, Eierstock- und Zentralnervensystemkrebs) erreichte GigaPath eine AUROC von 90 % oder mehr. Dies ist ein guter Ausgangspunkt für nachgelagerte Anwendungen im Bereich der Präzisionsmedizin, beispielsweise der Krebsdiagnose und -prognose.

Bei pathomischen Aufgaben besteht das Ziel darin, ausschließlich auf der Grundlage von Vollschnittbildern vorherzusagen, ob ein Tumor bestimmte klinisch relevante Genmutationen aufweist. Diese Vorhersageaufgabe hilft dabei, reichhaltige Verbindungen zwischen Gewebemorphologie und genetischen Pfaden aufzudecken, die für den Menschen schwer wahrnehmbar sind. Abgesehen von einigen bekannten spezifischen Krebsarten und Genmutationspaaren bleibt die Frage, wie viele Genmutationssignale in Ganzglasbildern vorhanden sind, eine unbeantwortete Frage. Darüber hinaus betrachteten die Forscher in einigen Experimenten ein Pan-Krebs-Szenario und identifizierten universelle Signale genetischer Mutationen bei allen Krebsarten und sehr unterschiedlichen Tumormorphologien. In solch anspruchsvollen Szenarien erzielte GigaPath bei 17 von 18 Aufgaben erneut eine Spitzenleistung und übertraf den Zweitplatzierten bei 12 von 18 Aufgaben deutlich . Gigapath kann genetisch relevante Pankrebs- und Subtyp-spezifische morphologische Merkmale auf der Ebene ganzer Objektträger extrahieren und so die Tür zu komplexen zukünftigen Forschungsrichtungen in realen Szenarien öffnen.

Darüber hinaus demonstrierten die Forscher das Potenzial von GigaPath bei multimodalen visuell-sprachlichen Aufgaben durch die Einführung pathologischer Berichte. Frühere Arbeiten zum Vortraining pathologischer visueller Sprache konzentrierten sich häufig auf kleine Bilder auf Kachelebene. Im Gegensatz dazu untersucht GigaPath das Vortraining der Bildsprache auf der Vollschichtebene. Durch fortgesetztes Vortraining anhand von Pathologieberichtspaaren wird die Berichtssemantik genutzt, um die latenten Raumdarstellungen von Pathologiebildern auszurichten.

Dies ist anspruchsvoller als das herkömmliche Vortraining der Bildsprache, und ohne die Nutzung feinkörniger Ausrichtungsinformationen zwischen einzelnen Bildausschnitten und Textausschnitten übertrifft GigaPath drei hochmoderne pathologische Bildsprachemodelle bei standardmäßigen Bildspracheaufgaben erheblich .

Zusammenfassen

Durch umfangreiche und umfassende Experimente haben die Forscher gezeigt, dass die entsprechende Forschungsarbeit von GigaPath eine gute Praxis im Vortraining auf Vollschichtebene und in der multimodalen visuellen Sprachmodellierung ist. Es ist erwähnenswert, dass GigaPath zwar bei mehreren Aufgaben führende Ergebnisse erzielt hat, bei bestimmten spezifischen Aufgaben jedoch noch viel Raum für Verbesserungen besteht. Obwohl Forscher visuell-linguistische multimodale Aufgaben untersucht haben, müssen auf dem Weg zur Entwicklung eines multimodalen Konversationsassistenten auf pathologischer Ebene noch viele spezifische Probleme untersucht werden .

GigaPath ist eine Zusammenarbeit zwischen Microsoft Research, Providence Health System und der Paul G. Allen School of Computer Science an der University of Washington. Unter ihnen sind Xu Hanwen, ein Doktorand im zweiten Jahr von Microsoft Research und der University of Washington, und Naoto Usuyama, ein leitender Forscher von Microsoft Research, die Co-Erstautoren des Artikels. Dr. Hoifung Poon, General Manager des Health Futures-Teams bei Microsoft Research, Professor Wang Sheng von der University of Washington und Dr. Carlo Bifulco aus Providence sind die Co-Korrespondenzautoren des Artikels.

Xu Hanwen ist Doktorand im zweiten Jahr an der University of Washington. Sein Forschungsschwerpunkt liegt an der Schnittstelle zwischen KI und Medizin. Die Forschungsergebnisse wurden in Nature, Nature Communications, Nature Machine Intelligence und AAAI usw. veröffentlicht. Er war als Gutachter für Nature Communications, Nature Computational Science und andere Zeitschriften tätig.

Wang Sheng: Assistenzprofessor für Informatik an der University of Washington. Sein Forschungsschwerpunkt liegt an der Schnittstelle zwischen KI und Medizin. Die Forschungsergebnisse wurden in Nature, Science, Nature Biotechnology, Nature Machine Intelligence und The Lancet Oncology veröffentlicht und die Ergebnisse der Forschungstransformation wurden von mehreren medizinischen Einrichtungen wie der Mayo Clinic, Chan Zuckerberg Biohub, UW Medicine und Providence verwendet.

Pan Haifeng: General Manager von Health Futures bei Microsoft Research. Zu seinen Forschungsinteressen zählen die Grundlagenforschung zu generativer KI und Anwendungen der Präzisionsmedizin. Es hat bei mehreren führenden KI-Konferenzen Preise für die besten Beiträge gewonnen und die auf HuggingFace veröffentlichten Open-Source-Biomedizinmodelle wurden zig Millionen Mal heruntergeladen. Einige der Forschungsergebnisse werden bereits in kooperierenden medizinischen Einrichtungen und Pharmaunternehmen in die Praxis umgesetzt.

<<:  Die Wissenschaft des Beckenbodens: Die stillen Geheimnisse der Beckenbodenfunktionsstörung aufdecken

>>:  Die Spitze der weltweit fortschrittlichsten „medizinischen Fähigkeiten“ steckt in Ihrem Körper?

Artikel empfehlen

Wie viele Jahre dauert es, bis ein Mangostanbaum Früchte trägt?

Einführung in das Pflanzen von Mangostanbäumen Ma...

Schützen Sie die Speiseröhre, beginnen Sie mit mir

Als gebürtiger Chinese Wir sind seit unserer Kind...

Wie macht man leckeren Chinakohl?

Chinakohl ist der Sämling des Chinakohls, der mei...

Zutaten und Schritte für Schönheits- und Gesundheitsporridge

Lilien sind ein geeigneteres Nahrungsmittel für d...

Wie man Lithops schnell Wurzeln schlagen lässt

So wurzeln Sie Lithops schnell Wurzelschnitt: Auc...

Pflanzzeit und -methode für Minze Welche Jahreszeit eignet sich zum Pflanzen?

Pflanzzeit für Minze Minze eignet sich zum Pflanz...

So isst man Passionsfrucht Die richtige Art, Passionsfrucht zu essen

Es gibt eine magische Frucht auf der Welt, die an...