talk-data.com
People (23 results)
See all 23 →Activities & events
| Title & Speakers | Event |
|---|---|
|
Outclassing Frontier LLMs at Extracting Information
2025-12-22 · 11:55
Etienne Bernard
– Co-founder & CEO
@ NuMind
Accurately extracting information from documents has been a decades-old dream. Important workflows — from automated back-office processing to enterprise RAG — depend on it. LLMs promise to fulfill this dream but currently fall short: they hallucinate information, struggle with long documents, and break down on complex layouts. The solution: LLMs specialized in information extraction. In this talk, I will present: NuExtract — the first LLM specialized in extracting structured information (JSON output); NuMarkdown — the first reasoning OCR LLM (RAG-ready Markdown output). These low-hallucination open-source models outclass frontier LLMs like GPT-5 and Gemini 2.5 while being orders of magnitude smaller, enabling private usage. I will demonstrate the abilities of these LLMs, show how to use them at scale, and discuss what’s coming next in information extraction. |
Outclassing Frontier LLMs at Extracting Information
|
|
Outclassing Frontier LLMs at Extracting Information
2025-12-22 · 11:55
Etienne Bernard
– Co-founder & CEO
@ NuMind
In this talk, the speaker presents NuExtract, the first LLM specialized in extracting structured information (JSON output), and NuMarkdown, the first reasoning OCR LLM (RAG-ready Markdown output). The talk demonstrates low-hallucination open-source models that outclass frontier LLMs like GPT-5 and Gemini 2.5 while being orders of magnitude smaller, enabling private usage. It will demonstrate the abilities of these LLMs, show how to use them at scale, and discuss what’s coming next in information extraction. |
Outclassing Frontier LLMs at Extracting Information
|
|
NuExtract : un LLM open-source pour l'extraction d’informations
2025-04-16 · 17:00
Les LLMs de pointe transforment le domaine de l’extraction d’informations. Pourtant, leur utilisation reste limitée par des risques de fuite de données, un coût d’inférence élevé, et des difficultés de personnalisation. Dans cette présentation, Etienne Bernard, cofondateur de NuMind nous présentera NuExtract 2.0, un modèle open-source d’extraction d’informations qui surpasse GPT-4o tout en étant des ordres de grandeur plus léger, ce qui permet sa personnalisation et son utilisation en toute confidentialité. Etienne nous expliquera comment lui et son équipe ont créé NuExtract 2.0, avec une démonstration à l’appui, et partagera les enseignements tirés de cette expérience. En introduction de soirée, Pierre Biousse, Senior Manager chez Ekimetrics en charge des sujets d'IA Générative nous présentera comment l'IA Générative et l'Agentic permettent d'accélérer les cycles de développement produit. ⏰ Planning
🎙 Speakers Etienne Bernard est un entrepreneur, expert en IA et machine learning. Après un doctorat en physique statistique à l’ENS, puis un post-doctorat au MIT, Etienne a rejoint Wolfram Research, où il a dirigé le groupe Machine Learning pendant 8 ans. Il a ensuite écrit le livre “Introduction to Machine Learning” puis co-fondé NuMind, une startup IA spécialisée dans l’extraction d’information. Pierre Biousse est Senior Manager chez Ekimetrics en charge des sujets d'IA Générative. Il développe des produits d'IA depuis plus de 7 ans dans divers secteurs : transports, finance, retail. 🙌 Sponsors et entreprises participantes NuMind développe des modèles d’intelligence artificielle, comme NuExtract, capables de transformer des documents non structurés (texte brut, PDF, HTML, etc.) en données exploitables. Leur approche se distingue par des modèles qui surpassent les performances de ceux, plus gros, d’OpenAI et d’Anthropic, tout en étant beaucoup plus compacts. NuMind a été fondée en 2022 et toute l’équipe est basée en France. Ekimetrics, fondée en 2006, est un leader européen de la « data science au service du business ». Sa mission est d’aider ses clients à auditer leurs opportunités liées aux données, enrichir leur capital analytique et déployer des solutions concrètes pour maximiser leur performance marketing et opérationnelle, tout en dynamisant leurs modèles économiques. Avec plus de 320 data scientists, Ekimetrics dispose de l’une des plus grandes équipes indépendantes en Europe. Ekimetrics s’attache à délivrer des gains à court terme tout en assurant le développement à long terme des actifs data de ses clients. 🤩 Audience Cet évènement est destiné aux professionels de la data et de l'algorithmique et qui souhaitent pousser plus loin les efforts d'industrialisation dans leurs organisations : data scientists, data engineers, software et devops engineers, data project/product managers, product designers, etc. 👋 Contact Pour toute question ou information, merci de contacter [email protected] |
NuExtract : un LLM open-source pour l'extraction d’informations
|
|
Paris NLP saison 7 Meetup #3
2023-06-28 · 17:00
Perceval Wajsburt - APHPMultilingual normalization and structured entity composition in medical documents Hospital clinical documents are a true treasure trove of information for various applications, from clinical research to epidemiological surveillance, medical coding, and decision support. However, their use for large-scale computer processing is hampered by the fact that they are predominantly written in natural language, requiring prior structuring. In this seminar, we will primarily focus on two tasks to structure these documents: entity normalization and structured entity extraction. We propose a large-scale multilingual approach to normalize named entities in multiple languages. Then, we explain how to compose simple entities into structured entities, using a novel method based on mention cliques and scope relations. Our evaluation is based on a new annotated corpus of clinical breast radiography reports. We will also discuss the challenges associated with applying deep learning in conditions of limited data, for languages other than English and in the clinical field. Etienne Bernard - NuMindCreating NLP Models in the Age of LLMs Large Language Models (LLMs) have the potential to radically transform the way we tackle NLP applications, but it is still unclear how to use them best. We recently developed NuMind, a tool that leverages LLMs to efficiently create NLP models (e.g. classifiers and entity detectors) through a paradigm inspired by how humans teach each other, which we call Interactive AI Development. In this talk, I will present this paradigm, demonstrate the tool that we developed around it, and talk about the scientific & technological solutions used under the hood. |
Paris NLP saison 7 Meetup #3
|