"Préserver la langue, cultiver le futur." — Un outil haute performance pour générer des datasets de traduction Français-Fon de qualité industrielle grâce à l'IA.
Le dataset est disponible sous deux formats pour s'adapter à vos besoins :
- 🌐 Visualisation : Consulter sur Google Sheets (Idéal pour la relecture humaine).
- 📂 Format Brut (JSONL) : Accéder au fichier
data/dataset_fr_fon.jsonl(Prêt pour l'entraînement d'IA / Fine-tuning).
La langue Fon (Fongbe) est l'une des langues les plus parlées au Bénin. Pour construire des modèles d'IA (LLM) performants pour notre culture, nous avons besoin de données massives et de qualité.
Fon-Dataset-Generator permet de :
- 🧠 Générer des phrases naturelles couvrant tous les aspects de la vie quotidienne (santé, commerce, émotions, proverbes).
- 🔄 Automatiser la traduction via des APIs modernes.
- 📂 Exporter en JSONL, prêt pour le fine-tuning (format OpenAI/DeepSeek).
Le projet offre deux approches selon vos besoins :
Idéal pour la génération massive à haute vitesse.
- Localisation :
core/generator.py - Avantages : Asynchrone, multithreadé, gestion des doublons en mémoire.
Idéal pour ceux qui préfèrent une interface visuelle via Google Sheets.
- Localisation :
cloud/GoogleAppsScript.gs - Avantages : Pas d'installation, sauvegarde directe dans Google Drive, notifications Gmail.
- Accès direct au Dataset : Consulter la version Google Sheets
- Clonez le dépôt :
git clone https://github.com/Bsh54/Fon-Dataset-Generator.git cd Fon-Dataset-Generator - Installez les dépendances :
pip install -r requirements.txt
- Configurez vos clés API :
- Renommez
.env.exampleen.env. - Ajoutez votre
LLM_API_KEY(OpenAI, DeepSeek ou autre compatible).
- Renommez
- Créez un nouveau Google Sheet.
- Allez dans
Extensions > Apps Script. - Copiez le contenu de
cloud/GoogleAppsScript.gs. - Ajoutez vos clés API dans
Paramètres du projet > Propriétés du script.
fon-dataset-generator/
├── core/
│ └── generator.py # 🧠 Le moteur principal (Python Async)
├── cloud/
│ └── GoogleAppsScript.gs # ☁️ Alternative Cloud pour Google Sheets
├── data/
│ └── dataset_fr_fon.jsonl # 📊 Le dataset généré (Format final)
├── .env.example # 🔑 Modèle de configuration
├── requirements.txt # 📦 Dépendances Python
└── README.md # 📖 Vous êtes ici
- Architecture modulaire : Support multi-APIs.
- Multi-Catégories : 12 thématiques couvrant 100% des besoins.
- Validation par la communauté : Interface web pour corriger les tons.
- Support Audio : Intégration future pour le Text-to-Speech (TTS).
Ce projet est Open Source. La langue est un patrimoine commun.
"Le code ne doit pas être une barrière, mais un pont entre les cultures."
Note importante : Les traductions IA sont une base de travail. Une validation humaine par des locuteurs natifs est toujours recommandée pour garantir l'exactitude des tons.
Généré avec ❤️ pour la culture Béninoise.