76% van de bedrijven gebruikt opren source bij het implementeren van large language models (LLM’s). AI is de testfase voorbij en wordt nu in productie genomen om data breder toegankelijk te maken. In 2023 werden elf keer zoveel AI-modellen in productie genomen als het jaar ervoor, met een gemiddelde efficiëntieverbetering 300%. Natuurlijke taalverwerking (NLP) bleek de meest gebruikte en snelst groeiende machine learning-toepassing te zijn.
Dit blijkt uit het State of Data & AI 2024-rapport van Databricks. Het rapport laat zien dat 70% van de bedrijven die generatieve AI gebruiken, tools en vector databases inzetten om basismodellen aan te vullen. Bedrijven richten zich sterk op het aanpassen van LLM’s met hun eigen data via retrieval augmented generation (RAG), waarvoor het gebruik van vector databases met 377% steeg op jaarbasis.
Bovendien kiest 76% van de bedrijven die LLM’s gebruiken voor open source, vaak naast bedrijfseigen modellen. Meta Llama 3 is een voorbeeld hiervan, met 39% van het open source modelgebruik vier weken na de lancering. Sterk gereguleerde sectoren, zoals financiële dienstverleners, zijn early adopters van generatieve AI, met een stijging van 88% in GPU-gebruik in zes maanden.
Daarnaast noemt het rapport de top 10 data- en AI-oplossingen, waarvan negen open source zijn. Organisaties kiezen vaak voor deze oplossingen vanwege hun flexibiliteit en om propriëtaire beperkingen te vermijden. Drie producten vallen op in de top 10. Plotly Dash is een low-code platform waarmee datawetenschappers data-applicaties kunnen bouwen, opschalen en implementeren.
Hugging Face Transformers is het op één na populairste product en wordt door bedrijven gebruikt om foundation models te bouwen en te verfijnen met hun zakelijke data. LangChain is een open source-toolchain voor de ontwikkeling en het gebruik van propriëtaire LLM’s, die bedrijven helpt bij het ontwikkelen van prompt interfaces of integraties met andere systemen.