KOSMOS-2 – wielomodalny LLM (MLLM) od Microsoft
„Grounding” pomaga modelom uczenia maszynowego odnosić się do przykładów z rzeczywistego świata. Włączenie „groundingu” sprawia, że modele są bardziej wydajne pod względem dokładności i odporności podczas wnioskowania. Pomaga to także zmniejszyć tzw. „halucynacje” w modelach językowych.
online demo hosted by HuggingFace
https://huggingface.co/spaces/ydshieh/Kosmos-2
Repozytorium
https://github.com/microsoft/unilm/tree/master/kosmos-2
#MLLM #Kosmos #Microsoft
GPT-4: KOSMOS-2 to Wielomodalny Duży Model Językowy (MLLM) opracowany przez Microsoft. Model ten wprowadza nowe możliwości percepcji opisów obiektów (np. ramki zaznaczające obiekty) i łączenia tekstu ze światem wizualnym.
Konkretnie, wyrażenia odnoszące się do obiektów są reprezentowane jako linki w Markdown, np. ” (ramki zaznaczające obiekty)”, gdzie opisy obiektów są sekwencjami tokenów lokalizacyjnych. Wspólnie z korpusami multimodalnymi, tworzymy duże zbiory sparowanych par obraz-tekst (nazwane GrIT) do treningu modelu.
Oprócz istniejących możliwości MLLM (np. percepcja ogólnych modalności, wykonywanie instrukcji i uczenie się w kontekście), KOSMOS-2 integruje zdolność do łączenia z aplikacjami poniżej. Model ten jest oceniany na szerokim zakresie zadań, w tym (i) multimodalne łączenie, takie jak zrozumienie wyrażeń odnoszących się do obiektów i łączenie fraz, (ii) multimodalne odniesienia, takie jak generowanie wyrażeń odnoszących się do obiektów, (iii) zadania związane z percepcją-językiem, oraz (iv) zrozumienie języka i generowanie.
Praca nad KOSMOS-2 stanowi podstawę dla rozwoju AI opartej na doświadczeniu i rzuca światło na dużą konwergencję języka, multimodalnej percepcji, działania i modelowania świata, co jest kluczowym krokiem w kierunku sztucznej inteligencji ogólnej.
Źródło: Konwersacja za pomocą usługi Bing
- (1) Kosmos-2: Grounding Multimodal Large Language Models to the World. https://www.microsoft.com/en-us/research/publication/kosmos-2-grounding-multimodal-large-language-models-to-the-world/
- (2) Kosmos-2: Grounding Multimodal Large Language Models to the World. https://arxiv.org/abs/2306.14824
- (3) Kosmos-1 – multimodalny duży model językowy od Microsoftu … – PurePC. https://www.purepc.pl/kosmos-1-multimodalny-duzy-model-jezykowy-od-microsoftu-jest-duzo-bardziej-zaawansowany-od-gpt-3
- (4) What is KOSMOS-2? – YouTube. https://www.youtube.com/watch?v=K3K5BoN2b5k
- (5) undefined. https://doi.org/10.48550/arXiv.2306.14824