TechCrunch Minute: Ein Google-Roboter zeigt, was Gemini kann

Google hat einen neuen Weg gefunden, um zu demonstrieren, was sein Gemini-KI-Modell kann, mit Hilfe eines Roboters. Dies war ein Roboter aus der Everybody Robots Division von Google, die letztes Jahr geschlossen wurde. Aber anscheinend sind die Roboter immer noch da, also hat Google einem von ihnen eine gelbe Fliege angelegt und dann Gemini verwendet, um dem Roboter beizubringen, auf Befehle zu reagieren und sich im Bürobereich von DeepMind zu bewegen. Um dies zu erreichen, verwendet Google Vision-Sprachmodelle (VLMs), die auf Bildern und Videos sowie Text trainiert sind, was es ihnen ermöglicht, Fragen zu beantworten und Aufgaben auszuführen, die Wahrnehmung erfordern. Zum Beispiel in einem Video bittet ein Google-Mitarbeiter den Roboter, ihn an einen Ort zu bringen, um Dinge zu zeichnen. Der Roboter sagt, dass er eine Minute zum Nachdenken braucht, bringt dann den Mitarbeiter an eine Tafel. In einem anderen Video wird dem Roboter gesagt, den Anweisungen auf der Tafel zu folgen, wo eine Karte die Richtungen zum sogenannten Blauen Bereich zeigt. Der Roboter folgt den Anweisungen zu einem Robotiktestbereich und verkündet: „Ich habe erfolgreich den Anweisungen auf der Tafel gefolgt.“ Klicken Sie auf Play, um den Roboter in Aktion zu sehen, und lassen Sie uns in den Kommentaren wissen, was Sie davon halten!