🌍 Fon-Dataset-Generator 🚀

"Préserver la langue, cultiver le futur." — Un outil haute performance pour générer des datasets de traduction Français-Fon de qualité industrielle grâce à l'IA.

📊 Accès Rapide aux Données

Le dataset est disponible sous deux formats pour s'adapter à vos besoins :

🌐 Visualisation : Consulter sur Google Sheets (Idéal pour la relecture humaine).
📂 Format Brut (JSONL) : Accéder au fichier data/dataset_fr_fon.jsonl (Prêt pour l'entraînement d'IA / Fine-tuning).

🌟 Pourquoi ce projet ?

La langue Fon (Fongbe) est l'une des langues les plus parlées au Bénin. Pour construire des modèles d'IA (LLM) performants pour notre culture, nous avons besoin de données massives et de qualité.

Fon-Dataset-Generator permet de :

🧠 Générer des phrases naturelles couvrant tous les aspects de la vie quotidienne (santé, commerce, émotions, proverbes).
🔄 Automatiser la traduction via des APIs modernes.
📂 Exporter en JSONL, prêt pour le fine-tuning (format OpenAI/DeepSeek).

🛠️ Deux manières de contribuer

Le projet offre deux approches selon vos besoins :

1. Mode Expert (Python Async) ⚡

Idéal pour la génération massive à haute vitesse.

Localisation : core/generator.py
Avantages : Asynchrone, multithreadé, gestion des doublons en mémoire.

2. Mode Cloud (Google Apps Script) ☁️

Idéal pour ceux qui préfèrent une interface visuelle via Google Sheets.

Localisation : cloud/GoogleAppsScript.gs
Avantages : Pas d'installation, sauvegarde directe dans Google Drive, notifications Gmail.
Accès direct au Dataset : Consulter la version Google Sheets

🚀 Installation & Configuration

Prérequis (Version Python)

Clonez le dépôt :

git clone https://github.com/Bsh54/Fon-Dataset-Generator.git
cd Fon-Dataset-Generator

Installez les dépendances :
```
pip install -r requirements.txt
```
Configurez vos clés API :
- Renommez .env.example en .env.
- Ajoutez votre LLM_API_KEY (OpenAI, DeepSeek ou autre compatible).

Configuration (Version Google Sheets)

Créez un nouveau Google Sheet.
Allez dans Extensions > Apps Script.
Copiez le contenu de cloud/GoogleAppsScript.gs.
Ajoutez vos clés API dans Paramètres du projet > Propriétés du script.

📂 Structure du projet

fon-dataset-generator/
├── core/
│   └── generator.py       # 🧠 Le moteur principal (Python Async)
├── cloud/
│   └── GoogleAppsScript.gs # ☁️ Alternative Cloud pour Google Sheets
├── data/
│   └── dataset_fr_fon.jsonl # 📊 Le dataset généré (Format final)
├── .env.example            # 🔑 Modèle de configuration
├── requirements.txt        # 📦 Dépendances Python
└── README.md               # 📖 Vous êtes ici

📊 Roadmap & Vision 🗺️

Architecture modulaire : Support multi-APIs.
Multi-Catégories : 12 thématiques couvrant 100% des besoins.
Validation par la communauté : Interface web pour corriger les tons.
Support Audio : Intégration future pour le Text-to-Speech (TTS).

❤️ Contribution & Éthique

Ce projet est Open Source. La langue est un patrimoine commun.

"Le code ne doit pas être une barrière, mais un pont entre les cultures."

Note importante : Les traductions IA sont une base de travail. Une validation humaine par des locuteurs natifs est toujours recommandée pour garantir l'exactitude des tons.

Généré avec ❤️ pour la culture Béninoise.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

🌍 Fon-Dataset-Generator 🚀

📊 Accès Rapide aux Données

🌟 Pourquoi ce projet ?

🛠️ Deux manières de contribuer

1. Mode Expert (Python Async) ⚡

2. Mode Cloud (Google Apps Script) ☁️

🚀 Installation & Configuration

Prérequis (Version Python)

Configuration (Version Google Sheets)

📂 Structure du projet

📊 Roadmap & Vision 🗺️

❤️ Contribution & Éthique

About

Uh oh!

Releases

Packages

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 94 Commits
cloud		cloud
core		core
data		data
.env.example		.env.example
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
requirements.txt		requirements.txt

Folders and files

Latest commit

History

Repository files navigation

🌍 Fon-Dataset-Generator 🚀

📊 Accès Rapide aux Données

🌟 Pourquoi ce projet ?

🛠️ Deux manières de contribuer

1. Mode Expert (Python Async) ⚡

2. Mode Cloud (Google Apps Script) ☁️

🚀 Installation & Configuration

Prérequis (Version Python)

Configuration (Version Google Sheets)

📂 Structure du projet

📊 Roadmap & Vision 🗺️

❤️ Contribution & Éthique

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Packages