COVID-19 Maschinelles Lernwerkzeug assimiliert Forschungspapiere

Zu meinen Favoriten hinzufügen

Automatische Übersetzung anzeigen

#Neues aus der Industrie

{{{sourceTextContent.title}}}

{{{sourceTextContent.subTitle}}}

{{{sourceTextContent.description}}}

Eine Gruppe von Materialwissenschaftlern am Lawrence Berkeley National Laboratory (Berkeley Lab), die normalerweise ihre Zeit mit der Erforschung von Hochleistungsmaterialien für Thermoelektrik oder Batteriekathoden verbringen, baute das Text-Mining-Tool. Ihr Bestreben, Text- und Data-Mining-Techniken zu entwickeln, die zur Beantwortung von Fragen von hoher Priorität im Zusammenhang mit COVID-19 beitragen können, geht auf den Aufruf des Weißen Hauses vom 16. März zum Handeln zurück.

Damals verfügte der Offene Forschungsdatensatz COVID-19 (CORD-19) mit wissenschaftlicher Literatur über COVID-19, SARS-CoV-2 und die Coronavirus-Gruppe mit mehr als 29.000 Artikeln über die umfangreichste maschinenlesbare Coronavirus-Literatursammlung, die für Data- und Text-Mining zur Verfügung stand.

Nachdem das Team des Berkeley-Labors seine Arbeit aufgenommen hatte, war sein Prototyp innerhalb einer Woche einsatzbereit; nach einem Monat hatte das Tool mehr als 61.000 Forschungsarbeiten gesammelt. Etwa 8.000 befassten sich speziell mit COVID-19 und die restlichen betrafen verwandte Themen, wie andere Viren und Pandemien im Allgemeinen. Sie schätzen, dass täglich 200 neue Artikel über das Coronavirus veröffentlicht werden. "Innerhalb von 15 Minuten, nachdem das Papier online erscheint, wird es auf unserer Website zu finden sein", sagte Amalie Trewartha, eine Postdoc-Stipendiatin, die zu den leitenden Entwicklern gehört.

Das Tool wurde diese Woche in Betrieb genommen, als das Team des Berkeley-Labors eine aktualisierte Version veröffentlichte, die es dem Benutzer ermöglicht, nach "verwandten Arbeiten" zu suchen und Artikel mittels maschinengestützter Relevanzabstimmung zu sortieren. COVIDScholar empfiehlt auch ähnliche Abstracts und sortiert die Artikel automatisch in Unterkategorien, wie z.B. Tests oder Übertragungsdynamik, und ermöglicht den Benutzern so eine spezialisierte Suche.

Die Entwickler bauten automatisierte Skripte, um neue Papiere (einschließlich Vordrucke) zu erfassen, zu bereinigen und durchsuchbar zu machen. Auf der einfachsten Ebene fungiert COVIDScholar als einfache, wenn auch hoch spezialisierte Suchmaschine, die den Entwicklern zufolge die größte Einzelthemen-Literatursammlung zu COVID-19 darstellt.

Das Expertenteam für künstliche Intelligenz wird nun seine Algorithmen trainieren, um nach unbemerkten Verbindungen zwischen Konzepten zu suchen. "Sie können die generierten Darstellungen für Konzepte aus den Modellen des maschinellen Lernens verwenden, um Ähnlichkeiten zwischen Dingen zu finden, die in der Literatur eigentlich nicht zusammen vorkommen, so dass Sie Dinge finden können, die miteinander verbunden sein sollten, es aber noch nicht waren", sagte John Dagdelen, ein Absolvent der UC Berkeley und Forscher des Berkeley Lab, der einer der leitenden Entwickler ist.

Darüber hinaus plant das Team eine Zusammenarbeit mit Forschern der Environmental Genomics and Systems Biology Division von Berkeley Lab und dem Innovative Genomics Institute der UC Berkeley, um die Algorithmen von COVIDScholar zu verbessern. Die Idee ist, Systeme so zu synthetisieren, dass die Forscher neue Verbindungen innerhalb ihrer Daten entdecken können, sagte Dagdelen.

Man beachte die Schnelligkeit, mit der das Team in der Lage war, Ideen zu iterieren und zu erleben. Die Gruppe beschäftigte sich drei Jahre lang mit der Verarbeitung natürlicher Sprache für die Materialwissenschaft und baute ein ähnliches Werkzeug namens MatScholar, ein vom Toyota-Forschungsinstitut und Shell unterstütztes Projekt.