DPO réduit les erreurs OCR de 59,4%
DharmaOCR, un modèle OCR spécialisé, a réduit les taux de dégénérescence textuelle de 59,4% en moyenne grâce à l'optimisation directe des préférences (DPO). Cette méthode utilise les échecs du modèle comme signal d'entraînement, contrairement aux approches traditionnelles.