Den Code des Lebens knacken: Neues KI-Modell entschlüsselt die versteckte Sprache der DNA (2024)

DNA enthält die grundlegenden Informationen für das Leben. Zu verstehen, wie diese Informationen gespeichert und organisiert sind, war und ist eine der größten wissenschaftlichen Herausforderungen des letzten Jahrhunderts. Mit GROVER, einem neuen Large Language Model (großen Sprachmodell), das mit menschlicher DNA trainiert wurde, können Forschende nun versuchen, die in unserem Genom verborgenen komplexen Informationen zu entschlüsseln. Entwickelt von einem Team am Biotechnologischen Zentrum (BIOTEC) der Technischen Universität Dresden, behandelt GROVER menschliche DNA wie Sprache und lernt seine Regeln und Zusammenhänge, um funktionale Informationen über die DNA-Sequenzen abzuleiten. Dieses neue Werkzeug, veröffentlicht in „Nature Machine Intelligence“, hat das Potenzial, die Genomik zu revolutionieren und die personalisierte Medizin voranzutreiben.

Seit der Entdeckung der Doppelhelix suchen Forschende nach dem in der DNA verschlüsselten Wissen. 70 Jahre später ist klar, dass die in der DNA verborgenen Informationen vielschichtig sind. Nur 1-2 Prozent des Genoms bestehen aus Genen, den Sequenzen, die für Proteine codieren.

„DNA hat viele Funktionen, die über die Proteincodierung hinausgehen. Einige Sequenzen regulieren Gene, andere dienen strukturellen Zwecken, die meisten Sequenzen erfüllen mehrere Funktionen gleichzeitig. Derzeit verstehen wir die Bedeutung des größten Teils der DNA nicht. Für die Bereiche außerhalb von Genen scheinen wir erst an der Oberfläche gekratzt zu haben. Hier können KI und Large Language Models helfen“, sagt Dr. Anna Poetsch, Forschungsgruppenleiterin am BIOTEC.

DNA als Sprache

Large Language Models wie GPT haben unser Verständnis von Sprache verändert. Ausschließlich mit Text trainiert, entwickelten die Sprachmodelle die Fähigkeit, die Sprache in vielen Kontexten zu nutzen.

„DNA ist der Code des Lebens. Warum sollte man sie nicht wie eine Sprache behandeln?“, fragt Dr. Poetsch. Das Poetsch-Team trainierte ein Large Language Model auf einem Referenz-Humangenom. Das resultierende Werkzeug namens GROVER, oder „Genome Rules Obtained via Extracted Representations“, kann verwendet werden, um biologische Bedeutung aus der DNA zu extrahieren.

„GROVER hat die Regeln der DNA gelernt. In Bezug auf Sprache sprechen wir über Grammatik, Syntax und Semantik. Für die DNA bedeutet dies, die Regeln der Sequenzen zu lernen, die Reihenfolge der Nukleotide und Sequenzen sowie deren Bedeutung. Ähnlich wie GPT-Modelle menschliche Sprachen lernen, hat GROVER im Grunde gelernt, ‚DNA zu sprechen‘“, erklärt Dr. Melissa Sanabria, die Forscherin hinter dem Projekt.

Das Team zeigte, dass GROVER nicht nur die folgenden DNA-Sequenzen präzise vorhersagen kann, sondern auch verwendet werden kann, um Informationen biologischer Bedeutung aus Kontext zu extrahieren. So kann man z.B. den Start von Genen identifizieren oder Proteinbindungsstellen auf der DNA. GROVER lernt auch Prozesse, die allgemein als „epigenetisch“ gelten, also solche, die auf der DNA stattfinden und bisher nicht als „kodiert“ betrachtet werden.

„Es ist faszinierend, dass wir durch das Training von GROVER allein mit der DNA-Sequenz, ohne zusätzliche funktionelle Daten, tatsächlich Informationen über die biologische Funktion extrahieren können. Für uns zeigt dies, dass die Funktion, einschließlich einiger epigenetischer Informationen, auch in der Sequenz codiert ist“, sagt Dr. Sanabria.

Das DNA-Wörterbuch

„DNA ähnelt Sprache. Sie besteht aus vier Buchstaben, die Sequenzen bilden, und die Sequenzen tragen eine Bedeutung. Im Gegensatz zu einer Sprache gibt es jedoch kein Konzept für Wörter“, sagt Dr. Poetsch. DNA besteht aus vier Buchstaben (A, T, G und C) und Genen, aber es gibt keine vordefinierten Sequenzen unterschiedlicher Länge, die sich zu Genen oder anderen bedeutungsvollen Sequenzen zusammensetzen.

Um GROVER zu trainieren, musste das Team zunächst ein DNA-Wörterbuch erstellen. Sie verwendeten einen Trick aus Kompressionsalgorithmen. „Dieser Schritt ist entscheidend und unterscheidet unser DNA-Sprachmodell von früheren Versuchen“, sagt Dr. Poetsch.

„Wir haben das gesamte Genom analysiert und nach Buchstabenkombinationen gesucht, die am häufigsten vorkommen. Wir begannen mit zwei Buchstaben und durchsuchten die DNA immer wieder, um sie zu den häufigsten mehrbuchstabigen Kombinationen aufzubauen. Auf diese Weise haben wir in etwa 600 Zyklen die DNA in ‚Wörter‘ fragmentiert, die es GROVER ermöglichen, die nächste Sequenz am besten vorherzusagen“, erklärt Dr. Sanabria.

Das Versprechen der KI in der Genomik

GROVER verspricht, die verschiedenen Ebenen des genetischen Codes freizuschalten. DNA enthält wichtige Informationen darüber, was uns als Mensch ausmacht, unsere Krankheitsanfälligkeiten und unsere Reaktionen auf Behandlungen.

„Wir glauben, dass das Verständnis der Regeln der DNA durch ein Sprachmodell uns helfen wird, die Tiefen der biologischen Bedeutung aufzudecken, die in der DNA verborgen ist. Das sollte sowohl die Genomik als auch die personalisierte Medizin voranbringen“, sagt Dr. Poetsch.

Originalveröffentlichung

Melissa Sanabria, Jonas Hirsch, Pierre M. Joubert, and Anna R. Poetsch: DNA language model GROVER learns sequence context in the human genome. Nature Machine Intelligence (July 2024)
Link: https://doi.org/10.1038/s42256-024-00872-0

Über das Biotechnologisches Zentrum (BIOTEC)

Das Biotechnologische Zentrum (BIOTEC) wurde 2000 als zentrale wissenschaftliche Einrichtung der TU Dresden mit dem Ziel gegründet, modernste Forschungsansätze in der Molekular- und Zellbiologie mit den in Dresden traditionell starken Ingenieurwissenschaften zu verbinden. Seit 2016 ist das BIOTEC eines von drei Instituten der zentralen wissenschaftlichen Einrichtung Center for Molecular and Cellular Bioengineering (CMCB) der TU Dresden. Das BIOTEC nimmt eine zentrale Position in Forschung und Lehre im Forschungsschwerpunkt Molecular Bioengineering ein und verbindet zellbiologische, biophysikalische und bioinformatische Ansätze miteinander. Es trägt damit entscheidend zur Profilierung der TU Dresden im Bereich Gesundheitswissenschaften, Biomedizin und Bioengineering bei.
www.tud.de/cmcb
www.tud.de/biotec

Zusätzliche Materialien:

Bildmaterial: https://tud.link/wbq88d

Medienkontakt:

Dr. Magdalena Gonciarz
Public Relations Officer
Tel.: +49 (0) 351 458 82065
E-mail:

Wissenschaftliche Ansprechpartnerin:

Dr. Anna Poetsch
E-mail:

Den Code des Lebens knacken: Neues KI-Modell entschlüsselt die versteckte Sprache der DNA (2024)
Top Articles
Where To Find Mikayla Campinos Leaks: An In-Depth Guide
Mikayla Campinos: Success and Scandal at Just 17 - GlassSpeaks
Spasa Parish
Rentals for rent in Maastricht
159R Bus Schedule Pdf
Sallisaw Bin Store
Black Adam Showtimes Near Maya Cinemas Delano
Espn Transfer Portal Basketball
Pollen Levels Richmond
11 Best Sites Like The Chive For Funny Pictures and Memes
Things to do in Wichita Falls on weekends 12-15 September
Craigslist Pets Huntsville Alabama
Paulette Goddard | American Actress, Modern Times, Charlie Chaplin
Red Dead Redemption 2 Legendary Fish Locations Guide (“A Fisher of Fish”)
What's the Difference Between Halal and Haram Meat & Food?
R/Skinwalker
Rugged Gentleman Barber Shop Martinsburg Wv
Jennifer Lenzini Leaving Ktiv
Justified - Streams, Episodenguide und News zur Serie
Epay. Medstarhealth.org
Olde Kegg Bar & Grill Portage Menu
Cubilabras
Half Inning In Which The Home Team Bats Crossword
Amazing Lash Bay Colony
Juego Friv Poki
Dirt Devil Ud70181 Parts Diagram
Truist Bank Open Saturday
Water Leaks in Your Car When It Rains? Common Causes & Fixes
What’s Closing at Disney World? A Complete Guide
New from Simply So Good - Cherry Apricot Slab Pie
Drys Pharmacy
Ohio State Football Wiki
Find Words Containing Specific Letters | WordFinder®
FirstLight Power to Acquire Leading Canadian Renewable Operator and Developer Hydromega Services Inc. - FirstLight
Webmail.unt.edu
2024-25 ITH Season Preview: USC Trojans
Metro By T Mobile Sign In
Trade Chart Dave Richard
Lincoln Financial Field Section 110
Free Stuff Craigslist Roanoke Va
Wi Dept Of Regulation & Licensing
Pick N Pull Near Me [Locator Map + Guide + FAQ]
Crystal Westbrooks Nipple
Ice Hockey Dboard
Über 60 Prozent Rabatt auf E-Bikes: Aldi reduziert sämtliche Pedelecs stark im Preis - nur noch für kurze Zeit
Wie blocke ich einen Bot aus Boardman/USA - sellerforum.de
Infinity Pool Showtimes Near Maya Cinemas Bakersfield
Dermpathdiagnostics Com Pay Invoice
How To Use Price Chopper Points At Quiktrip
Maria Butina Bikini
Busted Newspaper Zapata Tx
Latest Posts
Article information

Author: Frankie Dare

Last Updated:

Views: 5839

Rating: 4.2 / 5 (53 voted)

Reviews: 84% of readers found this page helpful

Author information

Name: Frankie Dare

Birthday: 2000-01-27

Address: Suite 313 45115 Caridad Freeway, Port Barabaraville, MS 66713

Phone: +3769542039359

Job: Sales Manager

Hobby: Baton twirling, Stand-up comedy, Leather crafting, Rugby, tabletop games, Jigsaw puzzles, Air sports

Introduction: My name is Frankie Dare, I am a funny, beautiful, proud, fair, pleasant, cheerful, enthusiastic person who loves writing and wants to share my knowledge and understanding with you.