Ferret: l’AI su cui sta lavorando Apple

Finora, nell’industria dell’Intelligenza Artificiale, mancava un grande player: Apple. Si mormorava da tempo che nei laboratori di Cupertino si stesse sviluppando un proprio modello GPT proprietario, ma fino a poco tempo fa non si avevano altre informazioni. Ora, Apple ha silenziosamente rilasciato Ferret, un innovativo Large Language Model (LLM) multimodale e open-source, capace di utilizzare regioni di immagini per le query. Il lancio di Ferret su Github è avvenuto senza grandi annunci o celebrazioni, con il codice rilasciato insieme a Ferret-Bench il 30 ottobre, seguito da ulteriori aggiornamenti il 14 dicembre. In questo articolo, esploreremo le caratteristiche distintive di Ferret, il suo confronto con Chat GPT-4, e le implicazioni per il futuro dell’AI in Apple.

“Open Source” non commerciale

La decisione di Apple di rendere Ferret un progetto open-source sotto licenza non commerciale implica che attualmente non può essere usato per progetti natura commerciale. Questo rilascio su Github è significativo per i ricercatori, poiché mostra la volontà di Apple di aprire il proprio lavoro nell’AI, deviando dalla sua abituale riservatezza.

Differenze rispetto agli altri LLM

A differenza di altri modelli come GPT-4, Ferret si specializza nella referenziazione precisa di oggetti nelle immagini. È in grado di identificare e descrivere aree specifiche e piccoli dettagli, superando GPT-4 in compiti di visione computazionale. Nei test comparativi, Ferret ha superato GPT-4 in diversi benchmark, specialmente nella comprensione multimodale e nell’identificazione di oggetti in immagini complesse.

Specializzazione vs generalizzazione

Mentre GPT-4 eccelle in compiti linguistici generali, Ferret si distingue per la sua capacità di comprendere e analizzare dettagli fini nelle immagini, colmando una lacuna importante nelle capacità AI attuali.

ferret 01

Come Funziona il Nuovo Modello Ferret di Apple?

Il sistema Ferret sfrutta componenti multipli per analizzare sia input visivi che testuali:
– Analisi Visiva con CLIP ViT: Utilizza il modello CLIP ViT per analizzare le immagini e convertire le informazioni visive in un formato comprensibile dall’AI, identificando oggetti, forme e altri dettagli.
– Comprensione del Linguaggio: Analizza i prompt di testo per convertirli in un formato elaborabile dal sistema, comprendendo riferimenti a oggetti specifici o regioni nell’immagine accompagnatoria.
– Comprensione delle Espressioni di Riferimento: Combina le informazioni visive e testuali, localizza con precisione gli oggetti menzionati nei prompt di testo all’interno dell’immagine e fornisce descrizioni dettagliate degli oggetti o delle regioni identificate.

Precisione del riferimento

– Ferret identifica e descrive con maggiore accuratezza regioni piccole e precise delle immagini basandosi sui prompt testuali.
– GPT-4, sebbene gestisca bene la comprensione di scene a livello alto, fatica con i dettagli più piccoli.

Nei benchmark di riferimento delineati nel documento di Apple, Ferret ha superato modelli specializzati come GPT-4 ROI e Google’s Cosmos. Ha anche fatto molto bene rispetto a GPT-4 Vision nei test comparativi sulle espressioni di riferimento.

ferret 02

Applicazioni in diversi settori

– Ferret potrebbe migliorare significativamente i sistemi di visione computerizzata per veicoli autonomi, riconoscendo meglio gli oggetti in scenari di guida complessi.
– È utile per annotazioni dettagliate di immagini, VR/AR, chatbot visivi e altro.
Ci si può aspettare un focus sull’eccellenza nelle capacità di comprensione visiva AI, in particolare per il settore AR/VR e nel potenziamento delle capacità di Siri.

Sfide e Strategie di Apple

Apple si trova di fronte alla sfida di espandere la propria infrastruttura AI. Sebbene stia lavorando per aumentare il numero dei suoi server AI, potrebbe non avere attualmente la capacità di competere alla pari con sistemi come ChatGPT. Una possibile soluzione potrebbe essere la collaborazione con altre aziende per ampliare le sue capacità, o proseguire nella strategia intrapresa con Ferret, ossia il rilascio di un modello open-source.
Secondo il New York Times, Apple è in trattativa con editori di notizie per stipulare accordi che le consentirebbero di utilizzare i loro contenuti per addestrare i suoi modelli AI, potenzialmente in competizione con ChatGPT. La strategia di Apple comporta un investimento di almeno 50 milioni di dollari per assicurarsi accordi con le case editrici, proteggendola da eventuali contestazioni. Questi accordi darebbero ad Apple le licenze per usare articoli e archivi di questi editori, fornendo un ricco set di dati per addestrare i suoi modelli di AI generativa. Editori di alto profilo come Condé Nast e IAC, noti per Vogue, The New Yorker, People e The Daily Beast, sono tra quelli menzionati nelle discussioni.

Conclusioni

L’introduzione di Ferret segna un momento significativo nella corsa all’AI tra i giganti tecnologici. Superando GPT-4 in benchmark chiave, Apple si afferma come leader nelle capacità AI specializzate nella comprensione visiva dettagliata. Mentre Google, Microsoft e altri rispondono con le loro trasformazioni della visione computerizzata, Apple sembra determinata a competere nella ricerca e sviluppo AI all’avanguardia. Ferret non è solo un modello AI rivoluzionario; è un simbolo dell’ambizione e della visione di Apple nel mondo dell’AI, promettendo innovazioni emozionanti e avanzamenti significativi nell’intelligenza artificiale.

In Ex Machina siamo sempre alla ricerca di nuove soluzioni da poter utilizzare nei nostri progetti per realizzare soluzioni personalizzare per aziende ed enti pubblici. Se vuoi scoprire di più sulle nostre soluzioni AI visita il nostro sito > https://exmachina.ch

https://github.com/apple/ml-ferret