Automatische Übersetzung anzeigen
Dies ist eine automatisch generierte Übersetzung. Wenn Sie auf den englischen Originaltext zugreifen möchten, klicken Sie hier
#Neues aus der Industrie
{{{sourceTextContent.title}}}
Sensor-verpackter Handschuh lernt Unterschriften des menschlichen Greifens
{{{sourceTextContent.subTitle}}}
MIT-Forscher haben einen massiven Datensatz zusammengestellt, der es einem KI-System ermöglicht, Objekte allein durch Berührung zu erkennen. Die Informationen können genutzt werden, um Robotern zu helfen, Objekte zu identifizieren und zu manipulieren, und sie können bei der Konstruktion von Prothesen helfen.
{{{sourceTextContent.description}}}
Die Forscher entwickelten einen preiswerten Strickhandschuh namens "scalable tactile hands" (STAG), der mit rund 550 winzigen Sensoren über fast die gesamte Hand verteilt ist. Jeder Sensor erfasst Drucksignale, wenn Menschen auf unterschiedliche Weise mit Objekten interagieren. Ein neuronales Netzwerk verarbeitet die Signale, um einen Datensatz von Druck-Signalmustern zu "lernen", die sich auf bestimmte Objekte beziehen. Dann verwendet das System diesen Datensatz, um die Objekte zu klassifizieren und ihre Gewichte vorherzusagen, indem es sich allein fühlt, ohne dass eine visuelle Eingabe erforderlich ist.
In einem in Nature veröffentlichten Beitrag beschreiben die Forscher einen Datensatz, den sie mit STAG für 26 gängige Objekte zusammengestellt haben - darunter eine Coladose, Schere, Tennisball, Löffel, Stift und Tasse. Anhand des Datensatzes prognostizierte das System die Identitäten der Objekte mit einer Genauigkeit von bis zu 76 Prozent. Das System kann auch die korrekten Gewichte der meisten Objekte innerhalb von etwa 60 Gramm vorhersagen.
Ähnliche sensorbasierte Handschuhe, die heute verwendet werden, kosten Tausende von Dollar und enthalten oft nur etwa 50 Sensoren, die weniger Informationen erfassen. Obwohl STAG sehr hochauflösende Daten produziert, besteht sie aus handelsüblichen Materialien im Wert von rund 10 US-Dollar.
Das taktile Abtastsystem könnte in Kombination mit herkömmlichem Computer Vision und bildbasierten Datensätzen verwendet werden, um Robotern ein menschenähnlicheres Verständnis der Interaktion mit Objekten zu vermitteln.
"Menschen können Objekte gut identifizieren und handhaben, weil wir taktiles Feedback haben. Wenn wir Objekte berühren, fühlen wir uns umher und erkennen, was sie sind. Roboter haben kein so reichhaltiges Feedback", sagt Subramanian Sundaram, ein ehemaliger Doktorand im Computer Science and Artificial Intelligence Laboratory (CSAIL). "Wir wollten schon immer, dass Roboter das tun, was Menschen können, wie Abwasch oder andere Arbeiten. Wenn du willst, dass Roboter diese Dinge tun, müssen sie in der Lage sein, Objekte wirklich gut zu manipulieren."
Mit dem Datensatz messen die Forscher auch die Zusammenarbeit zwischen den Handregionen bei Objektinteraktionen. Zum Beispiel, wenn jemand das Mittelgelenk seines Zeigefingers benutzt, benutzt er selten seinen Daumen. Aber die Spitzen von Zeige- und Mittelfinger entsprechen immer der Daumenbelegung.
"Wir zeigen zum ersten Mal quantifizierbar, dass, wenn ich einen Teil meiner Hand benutze, wie wahrscheinlich es ist, dass ich einen anderen Teil meiner Hand benutze", sagte er.
Prothetikhersteller können potenziell Informationen nutzen, um beispielsweise optimale Stellen für die Platzierung von Drucksensoren auszuwählen und die Prothetik an die Aufgaben und Objekte anzupassen, mit denen Menschen regelmäßig interagieren.
Zusammen mit Sundaram auf dem Papier sind: CSAIL-Postdocs Petr Kellnhofer und Jun-Yan Zhu; CSAIL-Absolvent Yunzhu Li; Antonio Torralba, Professor am EECS und Direktor des MIT-IBM Watson AI Lab; und Wojciech Matusik, außerordentlicher Professor für Elektrotechnik und Informatik und Leiter der Gruppe Computational Fabrication.
STAG ist mit einem elektrisch leitfähigen Polymer laminiert, das die Widerstandsfähigkeit gegenüber dem aufgebrachten Druck ändert. Die Forscher nähten leitfähige Fäden durch Löcher in der leitfähigen Polymerfolie, von den Fingerspitzen bis zur Handflächenbasis. Die Fäden überlappen sich so, dass sie zu Drucksensoren werden. Wenn jemand, der den Handschuh trägt, einen Gegenstand fühlt, anhebt, hält und fallen lässt, erfassen die Sensoren den Druck an jedem Punkt.
Die Gewinde verbinden sich vom Handschuh aus mit einem externen Schaltkreis, der die Druckdaten in "taktile Karten" übersetzt, die im Wesentlichen kurze Videos von Punkten sind, die über eine Handabbildung wachsen und schrumpfen. Die Punkte stellen die Position der Druckpunkte dar, und ihre Größe stellt die Kraft dar - je größer der Punkt, desto größer der Druck.
Aus diesen Karten haben die Forscher einen Datensatz von etwa 135.000 Videobildern aus Interaktionen mit 26 Objekten zusammengestellt. Diese Rahmen können von einem neuronalen Netzwerk verwendet werden, um die Identität und das Gewicht von Objekten vorherzusagen und Erkenntnisse über das menschliche Verständnis zu gewinnen.
Um Objekte zu identifizieren, entwickelten die Forscher ein Faltungsneuronales Netzwerk (CNN), das üblicherweise zur Klassifizierung von Bildern verwendet wird, um spezifische Druckmuster mit bestimmten Objekten zu verknüpfen. Aber der Trick war, Frames aus verschiedenen Arten von Greifern auszuwählen, um ein vollständiges Bild des Objekts zu erhalten.
Die Idee war, die Art und Weise nachzuahmen, wie Menschen ein Objekt auf verschiedene Weise halten können, um es zu erkennen, ohne ihr Augenlicht zu benutzen. Ähnlich wählt das CNN der Forscher bis zu acht halbzufällige Bilder aus dem Video aus, die die ungleichen Griffe darstellen - sagen Sie, indem Sie eine Tasse von unten, oben und Griff halten.
Aber der CNN kann nicht einfach zufällige Bilder aus den Tausenden in jedem Video auswählen, oder er wird wahrscheinlich keine unterschiedlichen Griffe wählen. Stattdessen gruppiert es ähnliche Frames zusammen, was zu unterschiedlichen Clustern führt, die eindeutigen Greifern entsprechen. Dann zieht es einen Rahmen aus jedem dieser Cluster heraus und stellt sicher, dass es eine repräsentative Probe hat. Anschließend verwendet das CNN die im Training erlernten Kontaktmuster, um aus den gewählten Frames eine Objektklassifizierung vorherzusagen.
"Wir wollen die Variation zwischen den Frames maximieren, um unserem Netzwerk den bestmöglichen Input zu geben", sagte Kellnhofer. "Alle Frames innerhalb eines einzelnen Clusters sollten eine ähnliche Signatur aufweisen, die die gleichen Möglichkeiten zum Erfassen des Objekts darstellt. Das Sampling aus mehreren Clustern simuliert einen Menschen, der interaktiv versucht, verschiedene Griffe zu finden, während er ein Objekt untersucht."
Für die Gewichtsschätzung bauten die Forscher einen separaten Datensatz von rund 11.600 Bildern aus taktilen Karten von Objekten, die von Finger und Daumen aufgenommen, gehalten und fallen gelassen wurden. Insbesondere wurde der CNN nicht auf Frames trainiert, auf denen er getestet wurde, was bedeutet, dass er nicht lernen konnte, Gewicht einfach mit einem Objekt zu assoziieren. Beim Testen wurde ein einzelnes Frame in das CNN eingegeben. Im Wesentlichen erfasst der CNN den Druck um die Hand herum, der durch das Gewicht des Objekts verursacht wird, und ignoriert den Druck, der durch andere Faktoren verursacht wird, wie z.B. die Positionierung der Hand, um ein Verrutschen des Objekts zu verhindern. Dann berechnet es das Gewicht basierend auf den entsprechenden Drücken.
Das System könnte mit den Sensoren kombiniert werden, die bereits an Robotergelenken angebracht sind und die Drehmoment und Kraft messen, um das Objektgewicht besser vorherzusagen.
"Gelenke sind wichtig für die Vorhersage von Gewicht, aber es gibt auch wichtige Gewichtskomponenten von Fingerspitzen und der Handfläche, die wir einfangen", sagte Sundaram.