Diese Fähigkeiten hat das neue KI-Modell von Google |
---|
Nachricht |
Gebaut für Alltagshelfer: Mit sogenannten KI-Agenten will Google vielen Menschen das Leben erleichtern. Die jüngste Version des eigenen Sprachmodells legt dafür nun die Grundlage. ![]() Düsseldorf. Google hat am Mittwoch sein neues Sprachmodell Gemini 2.0 vorgestellt. Die neueste Version von Googles generativer Künstlicher Intelligenz (KI) kann zukünftig nicht nur in Textform antworten, sondern auch in Bildern und mit individualisierbarer KI-Stimme. Gemini könne zudem selbstständig auf Anwendungen von Google zugreifen und beherrsche mehrere Sprachen. Gemini 2.0 ist laut Google „gebaut für KI-Agenten“: digitale Helfer für den Alltag. Ab sofort kann eine erste Version der Gemini-2.0-Familie, „Gemini 2.0 Flash Experimental“, in Googles Internetbrowser und in der Desktopversion ausprobiert werden. Bald soll auch eine App-Version folgen. Die erste Version von Gemini ist vergangene Woche ein Jahr alt geworden. Zum damaligen Zeitpunkt überraschte die generative KI mit ihrer Leistungsfähigkeit und Multimodalität. Generative KI wie Gemini und ChatGPT wurde trainiert, Sprache zu verstehen und menschenähnliche Antworten oder Texte zu erzeugen. Gemini konnte sowohl auf Text- als auch auf Audiobefehle antworten und Bilder und Videos analysieren – 2023 war dies ein wichtiger Entwicklungsschritt. In vielen Leistungstests konnte Gemini den Konkurrenten GPT4 von OpenAI übertreffen. Gemini 2.0 soll die Fähigkeiten des Vorgängers Gemini 1.5 nun in Leistungskategorien wie Programmieren und logischem Denken weiter verbessern und nun auch Bilder direkt generieren und Aufgaben ausführen können. Das sind Googles KI-Agenten – und das können sie Momentan sei „Gemini 2.0 Flash Experimental“ noch eine frühe Version zum Experimentieren und noch nicht mit allen Gemini-Funktionen kompatibel, könne aber jetzt schon die Google-Suche selbst bedienen und Programmiercode selbstständig ausführen, hieß es bei der Alphabet-Tochter. Weitere Modelle sollen im Januar 2025 folgen. „Im vergangenen Jahr haben wir in die Entwicklung von agentenbasierten Modellen investiert“, führte Google-CEO Sundar Pichai aus. Diese Modelle könnten die Welt um sie herum verstehen, mehrere Schritte vorausdenken und – unter Aufsicht – Aufträge im Namen von Nutzern ausführen, darunter Käufe tätigen. Was genau Google mit agentenbasierten Modellen meint, demonstrierte das Unternehmen mit der Vorstellung von vier verschiedenen KI-Agenten-Projekten, die sich aktuell noch in der Testphase befinden sollen. Sie alle bauten auf Gemini 2.0 auf und seien spezialisiert auf unterschiedliche Umgebungen, so Google. „Astra“ assistiert Nutzern mithilfe einer Smartphone-Kamera und eines -Mikrofons in der echten Welt. Ein Demo-Video zeigt, wie ein junger Mann mit dem Smartphone durch London läuft und sich mit ihm unterhält. Die KI merkt sich den Schlüsselcode für die Tür, erzählt beim Stadtrundgang etwas zu den Sehenswürdigkeiten und wechselt mittendrin auf Französisch, um sich mit jemand anderem zu unterhalten. „Astra“ könne auf die Google-Suche, Maps und visuelle Suche mit Google Lens zugreifen und sich mit der Zeit an den Nutzer anpassen. „Mariner“ soll Nutzer dagegen im Browser unterstützen. Mariner verhalte sich im Internet „so, wie Sie es als Nutzer auch tun würden“, sagte Jaclyn Konzelmann, Projektmanagerin bei Google Deep Mind. Mariner könne im Internet recherchieren und so beispielsweise Flugdaten zusammenstellen oder nach passenden Produkten und Kontaktdaten suchen. Was es nicht können soll: ohne Zustimmung Einkäufe tätigen. „Jules“ ist ein KI-Programmier-Agent und kann unter Anweisung von Entwicklern selbstständig Fehler in Codezeilen finden und Lösungen vorschlagen oder vom Entwickler vordefinierte Änderungen und Aufgaben erfüllen. Außerdem stellte Google einen noch namenlosen KI-Gaming-Assistenten vor, der Tipps in Video- und Computerspielen gibt. Laut Analysehaus Gartner sind solche KI-Agenten der wichtigste Technologietrend 2025. Die Analysten gehen davon aus, dass bis 2028 15 Prozent der täglichen Arbeitsentscheidungen von KI-Agenten autonom getroffen werden. Warum Google allerdings eine frühe Experimentierversion von Gemini 2.0 und nur Agentenprojekte in der Testphase vorstellt, wurde auf dem Pressetermin nicht näher erläutert. Die vorgestellten Agenten seien zunächst nur für eine kleine, ausgewählte Testgruppe verfügbar. Details zu deren kommerzieller Veröffentlichung wurden nicht preisgegeben. Einen fertigen KI-Assistenten namens „Deep Research“ soll es dennoch geben. Der Recherche-Assistent erstellt nach Eingabe einer Frage einen mehrschrittigen Rechercheplan, den Nutzer absegnen oder anpassen können. Das Tool sucht selbstständig nach relevanten Informationen. Die Anwendung wird sofort als Desktop- und Browser-Version für Nutzer von Gemini Advanced zur Verfügung stehen. Googles Internetbrowser Chrome wurde bisher genutzt, um die Gemini-KI an Nutzer des Browsers heranzuführen. Eine Erweiterung durch personalisierte KI-Agenten könnte viele Nutzer über den Browser erreichen. Google hat bei Internetbrowsern einen Marktanteil von 61 Prozent. Aufgrund von personalisierter Internetwerbung, die über den Browser ausgespielt wird, sind diese Bereiche ein zentraler Bestandteil von Googles Kerngeschäft. Jedoch wollen Beamte des US-Justizministeriums den Konzern nun zwingen, den Browser Chrome zu verkaufen, da Google damit ein illegales Monopol betreibe. Eine Trennung von Chrome würde Google eine wichtige Grundlage zur Verbreitung der KI nehmen. Das Urteil wird jedoch erst 2025 erwartet. Mehr: Bayer-KI statt Bauernregeln – Deutsche Konzerne heben ihre Datenschätze H+ Erstpublikation: 11.12.2024, 17:10 Uhr. « zurück |
Kommentare für Diese Fähigkeiten hat das neue KI-Modell von Google |
Keine Kommentare vorhanden
« zurück |