LLM & Financial Markets - Stage

Date: 9 déc. 2025

Lieu: Paris, 75, FR

Entreprise: Capital Fund Management

 

À PROPOS DE CFM

 

Fondés en 1991, nous sommes une société mondiale de gestion d’actifs quantitative et systématique appliquant une approche scientifique à la finance pour développer des stratégies d’investissement alternatives pour nos clients.

Nous valorisons l’innovation, l’engagement, l’aboutissement et l’intelligence collective en créant ensemble un environnement d’experts passionnés et talentueux dans les domaines de la recherche, des technologies et du business pour explorer de nouvelles idées et toujours remettre en question les hypothèses.

 

LLMs & Financial Markets: Measuring What the Market Didn’t Know Yet

 

Objectif


Il est essentiel de qualifier la nouveauté dans les actualités et les informations textuelles pour élaborer des stratégies de trading quantitatives performantes et robustes. Si les LLM largement connus affichent d'excellentes performances dans les benchmarks généralistes, ils échouent dans des configurations extrêmement spécifiques, notamment en finance quantitative, et présentent un biais dû aux informations futures. Dans ce contexte, le stage se concentrera sur la préformation et la postformation de plusieurs LLM financiers ponctuels sur les documents déposés auprès de la SEC (10-K / 8-K) afin de mesurer la nouveauté des informations contenues dans chaque document et d'explorer leur lien avec les rendements boursiers futurs [1].


Le projet se concentre sur :


(i) la construction de modèles linguistiques ponctuels (PIT) sur les documents déposés auprès de la SEC (10-K / 8-K) ou d'autres ensembles de données financières,
(ii) la quantification de la nouveauté ou de la surprise des nouvelles informations contenues dans ces documents, et
(iii) l'évaluation de l'approche par rapport à des benchmarks basés sur des prévisions, la génération de données synthétiques et la mise en correspondance avec les commentaires d'experts commerciaux.

 

Étendue des travaux


1. Traitement des données
a. Explorer les documents 10-K / 8-K déposés par les entreprises auprès de la SEC via l'ensemble de données BeanCounter [2]
b. Étudier et comparer ces données avec nos ensembles de données internes


2. Formation LLM
a. Effectuer un pré-entraînement et un post-entraînement du score du modèle autorégressif d'architectures open source (DeepSeek, Qwen, LLaMA...) à différentes échelles à l'aide de méthodes d'ingénierie ML de pointe (DeepSpeed, PEFT [3]
b. Explorer la taille des modèles à l'échelle et établir éventuellement des lois d'échelle spécifiques au domaine (de millions à milliards de paramètres) [5]
c. Explorer la préformation continue, l'apprentissage en ligne et la post-formation (RLHF, DPO, SFT) afin de déterminer les meilleures approches pour la mise à l'échelle.

 

3. Score de nouveauté
a. Utiliser les LLM pour noter les phrases et isoler les nouvelles informations dans chaque document.
b. Reproduire et étendre l'exploration dans les 10 K proposés dans la littérature [1].


4. Évaluer la solution basée sur les LLM
a. Comparer les LLM avec des modèles statistiques standard (par exemple, l'estimateur de vraisemblance maximale NLTK).
b. Comparer avec d'autres approches génériques utilisant des intégrations et d'autres méthodes de pointe (NovaScore par exemple [4]).


5. Évaluation de la qualité de l'extraction (composante principale du stage)
a. Génération d'un ensemble de données synthétiques.
b. Comparer les événements nouvellement détectés avec les commentaires associés des experts commerciaux.
c. Évaluer la capacité de prévision des modèles qui utilisent uniquement les informations étiquetées comme « nouvelles ».

 

References


1. Costello, Anna M., Bradford Levy, and Valeri V. Nikolaev. "Representations of Investor Beliefs." Available at SSRN 5717862 (2023).
2. Wang, Siyan, and Bradford Levy. "BeanCounter: A low-toxicity, large-scale, and open dataset of business-oriented text." Advances in Neural Information Processing Systems 37 (2024): 91653-91690.
3. DeepSeek-AI, DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models (2025)
4. Ai, Lin, et al. "Novascore: A new automated metric for evaluating document level novelty." Proceedings of the 31st International Conference on Computational Linguistics. 2025.
5. Hoffmann, Jordan et al. “Training Compute-Optimal Large Language Models”, 36th Conference on Neural Information Processing Systems (NeurIPS 2022).

 

Compétences et qualifications requises


• Étudiant inscrit dans un programme menant à un diplôme en TALN, science des données, informatique ou dans un domaine connexe.
• Expérience et intérêt marqué pour l'apprentissage automatique et les modèles et concepts de pointe en TALN.


Le candidat idéal posséderait :


• Une expérience avec AWS et le cloud computing.
• Une expérience dans la formation et le réglage de modèles d'apprentissage profond à grande échelle.
• Une expérience dans l'écriture de code PyTorch efficace.

 

DÉCLARATION SUR L’ÉGALITÉ DES CHANCES

 

Nous nous efforçons continuellement d’être un employeur offrant l’égalité des chances et nous interdisons toute forme de discrimination fondée sur le sexe, le handicap, l’origine, l’orientation sexuelle, l’identité de genre, l’âge, la race ou la religion. Nous croyons que notre diversité, nos apports diversifiés d’expérience et nos multiples points de vue sont les principaux facteurs de notre succès.

CFM est signataire des Women Empowerment Principles.

 

SUIVEZ-NOUS

Suivez-nous sur Twitter et LinkedIn ou visitez notre site Web pour en apprendre davantage sur CFM.