Large Language Model
Ein Large Language Model, kurz LLM, ist ein Sprachmodell, das sich durch seine Fähigkeit zur unspezifischen Erzeugung von Texten auszeichnet. Es handelt sich um ein computerlingutistisches Wahrscheinlichkeitsmodell, das statistische Wort- und Satzfolge-Beziehungen aus einer Vielzahl von Textdokumenten durch einen rechenintensiven Trainingsprozesses erworben hat.
Große Sprachmodelle erlangen diese Fähigkeiten durch die Verwendung riesiger Datenmengen, um während des Trainings riesige Mengen von Parametern zu lernen. Dabei verbrauchen sie extrem viele Rechenressourcen.[1] Große Sprachmodelle sind im weiteren Sinne künstliche neuronale Netze (im Grunde genommen sogenannte Transformer[2]) und werden (a priori) entweder durch selbst überwachtes Lernen oder halb überwachte Lernmethoden trainiert.
Große Sprachmodelle arbeiten als selbst anpassende Sprachmodelle, die verschiedene Aufgaben in natürlicher Sprache ausführen können, z. B. das Zusammenfassen, Übersetzen, Vorhersagen und Erstellen von Texten, indem sie einen Eingabetext nehmen und wiederholt das nächste Token oder Wort vorhersagen.[3] Bis 2020 bestand die einzige Möglichkeit, ein Modell an bestimmte Aufgaben anzupassen, in der Feinabstimmung. Größere Modelle, wie z. B. das inzwischen populäre GPT-3, wurden jedoch so konzipiert, dass sie mit Hilfe von Prompt Engineering ähnliche Ergebnisse erzielen können.[4] Zusätzlich zu der Fähigkeit, Kenntnisse über Syntax, Semantik und „Ontologie“ in menschlichen Sprachkorpora zu erwerben, wird angenommen, dass Große Sprachmodelle auch in der Lage sind, Ungenauigkeiten und Verzerrungen in den Korpora zu erfassen.[5]
LLMs werden beispielsweise bei Open Assistant, ChatGPT, Ernie Bot und Grok eingesetzt. Einige große Sprachmodelle sind die GPT-Modellreihe von OpenAI (z. B. GPT-3.5 und GPT-4, die in ChatGPT und Microsoft Copilot verwendet werden), Googles PaLM und Gemini (verwendet in Bard), Metas LLaMA-Familie von Open-Source-Modellen und Anthropics Claude-AI-Modelle.
Geschichte
Auf der „Conference on Neural Information Processing Systems“ (NeurIPS) 2017 stellten Google-Forscher unter Ashish Vaswani die Transformer-Architektur in ihrem Papier Attention Is All You Need vor.[6][7] Ziel dieses Papiers war es, die Seq2seq-Technologie aus dem Jahr 2014 zu verbessern, und es basierte hauptsächlich auf dem von Bahdanau et al. 2014 entwickelten Aufmerksamkeitsmechanismus.[8] Im darauffolgenden Jahr, 2018, wurde BERT eingeführt und wurde schnell „allgegenwärtig“. Obwohl der ursprüngliche Transformator sowohl Encoder- als auch Decoderblöcke hat, ist BERT ein reines Encoder-Modell.
Obwohl GPT-1 im Jahr 2018 als reines Decoder-Modell eingeführt wurde, erregte GPT-2 im Jahr 2019 große Aufmerksamkeit, da OpenAI es zunächst als zu leistungsfähig erachtete, um es aus Angst vor böswilliger Nutzung zu veröffentlichen.[11] GPT-3 im Jahr 2020 ging noch einen Schritt weiter und ist ab 2024 nur noch über eine API verfügbar, ohne die Möglichkeit, das Modell zur lokalen Ausführung herunterzuladen. Es war das browserbasierte ChatGPT aus dem Jahr 2022, das „die Welt komplett veränderte“.[9] 2023 wurde GPT-4 für seine erhöhte Genauigkeit und als „heiliger Gral“ für seine multimodalen Fähigkeiten gepriesen.[10] OpenAI gab die High-Level-Architektur und die Anzahl der Parameter des GPT-4 nicht bekannt.
In der Zwischenzeit haben konkurrierende Sprachmodelle größtenteils mit der GPT-Serie gleichgezogen, zumindest was die Anzahl der Parameter betrifft.[11] Zu den bemerkenswerten Ausnahmen in Bezug auf die Anzahl der Parameter gehören Googles T5-11B von 2019 und PaLM-E von 2022. Am 26. Januar 2024 übertraf Googles Gemini Pro GPT-4,[12] was die Elo-Bewertung betrifft.
Seit 2022 erfreuen sich quell verfügbare Modelle zunehmender Beliebtheit, zunächst vor allem BLOOM und LLaMA, die allerdings beide Einschränkungen im Einsatzbereich aufweisen. Im Januar 2024 ist Mixtral 8x7b von Mistral AI laut dem LMSYS Chatbot Arena Leaderboard das leistungsfähigste offene LLM, leistungsfähiger als GPT-3.5, aber nicht so leistungsfähig wie GPT-4.[13]
Hardware
Seit einigen Jahren gibt es Chiparchitekturen, die für das Training und Inferencing von großen Sprachmodellen optimiert sind. 2016 wurde beispielsweise von Google die erste Version ihrer TPU vorgestellt. Seit den 2020er Jahren gibt es aber eine ganze Reihe von Herstellern mit Spezial-Hardware für die Bearbeitung von LLMs. So haben beispielsweise Cerebras den CS-1 und CS-2, AMD die Instinct Serie, Intel die Gaudi-Plattform und Nvidia Hopper bzw. dessen Nachfolger Blackwell eingeführt bzw. angekündigt.
Trivia
Um Misinformation durch mit Webinhalten trainierte LLM vorzubeugen, schlugen Forschende der Stanford-Universität 2024 WikiChat vor, ein vorrangig Wikipedia als Wissensbasis nutzendes Sprachmodell.[14] Eine GPT-4-Implementierung habe demnach höhere inhaltliche Richtigkeit aufgewiesen als GPT-4 allein.[15]
Siehe auch
- Generativer vortrainierter Transformer (GPT)
- ChatGPT
- Microsoft Copilot
- Language Model for Dialogue Applications (LaMDA)
Weblinks
Einzelnachweise
- ↑ Better language models and their implications. Abgerufen am 15. Januar 2024 (englisch).
- ↑ Rick Merritt: What Is a Transformer Model? 25. März 2022, abgerufen am 15. Januar 2024 (englisch).
- ↑ Guandong Feng, Guoliang Zhu, Shengze Shi, Yue Sun, Zhongyi Fan, Sulin Gao, and Jun Hu: Robust NL-to-Cypher Translation for KBQA: Harnessing Large Language Model with Chain of Prompts. In: Haofen Wang, Xianpei Han, Ming Liu, Gong Cheng, Yongbin Liu, Ningyu Zhang: Knowledge Graph and Semantic Computing: Knowledge Graph Empowers Artificial General Intelligence. 8th China Conference, CCKS 2023, Shenyang, China, August 24–27, 2023, Revised Selected Papers Springer, 2023, ISBN 978-981-9972-23-4, S. 317 ff. (hier S. 319) ("LLMs can perform various natural language tasks, such as understanding, summarizing, translating, predicting, and creating texts, by taking an input text and repeatedly predicting the next token or word"); vgl. Eight Things to Know about Large Language Models
- ↑ Language Models are Few-Shot Learners. (PDF) Abgerufen am 15. Januar 2024.
- ↑ Human Language Understanding & Reasoning. 13. April 2022, abgerufen am 15. Januar 2024 (englisch).
- ↑ Ashish Vaswani et al: Attention is all you need. (PDF) Google, abgerufen am 5. Februar 2024 (englisch).
- ↑ Rob Toews: Transformers Revolutionized AI. What Will Replace Them? Abgerufen am 5. Februar 2024 (englisch).
- ↑ Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio: Neural Machine Translation by Jointly Learning to Align and Translate. In: Arxiv. 1. September 2024, abgerufen am 5. Februar 2024 (englisch).
- ↑ ChatGPT turns 1: How the AI chatbot has completely changed the world. 30. November 2023, abgerufen am 5. Februar 2024 (englisch).
- ↑ GPT-4 is bigger and better than ChatGPT—but OpenAI won’t say why. Abgerufen am 5. Februar 2024 (englisch).
- ↑ Parameters in notable artificial intelligence systems. Abgerufen am 5. Februar 2024.
- ↑ Siddharth Jindal: Google's Gemini Pro Beats GPT-4. 27. Januar 2024, abgerufen am 5. Februar 2024 (amerikanisches Englisch).
- ↑ LMSys Chatbot Arena Leaderboard - a Hugging Face Space by lmsys. Abgerufen am 5. Februar 2024.
- ↑ Sina J. Semnani, Violet Z. Yao, Heidi C. Zhang, Monica S. Lam: WikiChat: Stopping the Hallucination of Large Language Model Chatbots by Few-Shot Grounding on Wikipedia. 2023, doi:10.48550/ARXIV.2305.14292, arxiv:2305.14292.
- ↑ WikiChat. In: Open Virtual Assistant Lab. Stanford University, abgerufen am 6. Februar 2024 (englisch).