Openjisho - le Japonais pour vous, par vous

**Azel** · 25/07/2012, 17h15

Et puis un jour quelqu'un m'a mis sous le nez le fait que cette licence était inexploitable pour la simple raison qu'elle était incompatible, notamment, avec la GPL, la politique de Debian, etc. Autrement dit, inexploitable pour n'importe quel projet libre. La raison? La clause non-commerciale interdirait par exemple à Debian de vendre des CDs de leur distro à prix coûtant si les données y étaient inclues. Du coup nous sommes rapidement passés à une CC 3.0 Share Alike, qui propose virtuellement la même guarantie : les produits dérivés doivent être livrés sous une licence compatible, guarantissant que personne ne peut fermer les données et se les approprier, tout en laissant l'opportunité de faire des logiciels commerciaux pourvu qu'ils restent ouverts dans leurs contributions.

En grattant un peu plus, c'est effectivement ce que j'ai cru comprendre. Voilà un point de régler! Merci.

C'est pour cela que j'insiste sur le fait que le moteur du dictionnaire est une préoccupation totalement orthogonale à la contruction de la base de données qu'il utilisera. Attention à ne pas courir deux lièvres à la fois ; c'est très difficile de faire un bon logiciel de dictionnaire, c'est très difficile de réunir des données de qualité. Faire les deux en même temps relève du miracle.

Là encore l'exemple du JMdict est révélateur : le dictionnaire officiel est pourri, par contre les sites alternatifs utilisant ces même données rencontrent un meilleur succès.

On est d'accord sur ce point. J'étais plus ou moins balancé suite à vos différentes remarques et dernier post m'a convaincu

Techniquement, le boulot n'est pas monstrueux pour effectuer cette "légère" réorientation. Il va juste falloir venir plugger les données JMDict à mon modèle de données (ie: le site tourne sous Drupal et une entrée étant un node).

Après, il y aura sans doute quelques modifications pour internationaliser JMDict pour coller aux spécificités du français (et autres langues). Par exemple une chose que j'ai oublié sur Openjisho c'est de gérer le cas des adjectifs et noms ayant une forme masculine et féminine. Par exemple 白い →　blanc, blanche. La plupart des dictionnaires ne propose que blanc. Pour un français cela ne pose pas réellement de problème mais pour un japonais il peut être intéressant d'avoir les 2 traductions. L'idéal est même de ne pas avoir 2 traductions mais qu'une traduction puisse avoir une forme masculine et féminine. Je ne pense pas que JMDict supporte ce genre de chose?

Ta dernière proposition est à mon avis exactement ce qu'il faut faire. Tu as des entrées du JMdict, identifiées par un numéro unique. A côté tu as les phrases d'exemple de Tatoeba, identifiées par un numéro unique. Il suffit juste de connecter les deux. Pour l'API, tu n'en as même pas besoin vu que tu peux importer les données de Tatoeba dans ton projet. Ne pas aller dans cette direction, ce serait un peu comme faire reconstruire ta maison à côté de l'ancienne sous prétexte que tu as perdu les clés, parce qu'il ne t'es pas venu à l'esprit qu'il suffirait de changer la serrure.

C'est avantage mais également un inconvénient car tu te retrouves avec un temps de latence pour récupérer les nouvelles données. (On est d'accord que ce n'est pas non plus bloquant

)
Comment opères-tu pour mettre à jour tes données sur Tagaini? Le soft récupères tous les x jours la base JMDict et l'importe?

Jim était déjà ouvert pour intégrer les contribs de Transifex dans son JMdict - si ton projet va dans la même direction, je suis prêt à l'appuyer pour qu'il en prenne la place et t'aider dans la limite (très limitée

) de mon temps disponible. Et il semble également que d'autres membres du site soient prêts à contribuer.

Il serait également envisageable d'utiliser ces données dans Openjisho?

**Azel** · 25/07/2012, 21h30

Aparté - Il manque définitivement une vraie doc. pour JMDict

**Renaud** · 25/07/2012, 22h31

(Non, pas "définitivement" mais assurément. Grrr. À part ça, bon courage pour l'entreprise

)

**Azel** · 25/07/2012, 22h56

Envoyé par Renaud

(Non, pas "définitivement" mais assurément. Grrr. À part ça, bon courage pour l'entreprise

)

C'est peut être l'occasion de proposer/réaliser quelque chose

Rien qu'une version propre et claire du DTD

**Azel** · 26/07/2012, 10h37

Par ailleurs, les entrées japonaises du JMdict fourniraient un squelette complet et cohérent, avec tous les indices sémantiques nécessaires (un dictionnaire ne se limite pas à la traduction d'une langue à une autre, il faut également connaître le genre d'un mot, de type d'un verbe, etc.), et la traduction anglaise fournirait un "guide" pour la définition française. De plus en respectant le format du JMdict (voire en y contribuant les entrées traduites), le projet assurerait que les efforts des contributeurs sont utilisés dans un maximum de sites et de logiciels. Si je veux chercher une définition, j'irai sur jisho.org plutôt qu'ailleurs - autant faire en sorte qu'une traduction française y soit également visible.

Par contre les indices sémantiques se limitent uniquement à la version anglaise, c'est un peu dommage, il faudrait également ces informations sur les gloss... par exemple 自転車→vélo (nm) , bicyclette(nf)

**Gnurou** · 26/07/2012, 10h53

Envoyé par Azel

On est d'accord sur ce point. J'étais plus ou moins balancé suite à vos différentes remarques et dernier post m'a convaincu

Techniquement, le boulot n'est pas monstrueux pour effectuer cette "légère" réorientation. Il va juste falloir venir plugger les données JMDict à mon modèle de données (ie: le site tourne sous Drupal et une entrée étant un node).

Et aussi t'assurer que tu puisses mettre à jour ton modèle à partir des nouvelles versions du JMdict, en prenant en compte certaines subtilités comme le fait que les sens d'une entrée sont réordonnés. C'est loin d'être trivial, mais pas impossible non plus.

Envoyé par Azel

Après, il y aura sans doute quelques modifications pour internationaliser JMDict pour coller aux spécificités du français (et autres langues). Par exemple une chose que j'ai oublié sur Openjisho c'est de gérer le cas des adjectifs et noms ayant une forme masculine et féminine. Par exemple 白い →　blanc, blanche. La plupart des dictionnaires ne propose que blanc. Pour un français cela ne pose pas réellement de problème mais pour un japonais il peut être intéressant d'avoir les 2 traductions. L'idéal est même de ne pas avoir 2 traductions mais qu'une traduction puisse avoir une forme masculine et féminine. Je ne pense pas que JMDict supporte ce genre de chose?

Non, mais en ayant deux gloss sur le même sens, tu auras l'effet désiré. Ce moyen est déjà employé dans le JMdict actuel.

Envoyé par Azel

C'est avantage mais également un inconvénient car tu te retrouves avec un temps de latence pour récupérer les nouvelles données. (On est d'accord que ce n'est pas non plus bloquant

)
Comment opères-tu pour mettre à jour tes données sur Tagaini? Le soft récupères tous les x jours la base JMDict et l'importe?

Non, les données sont téléchargées à la compilation et restent donc fixes pour une version donnée. Ceci pour éviter les problèmes liés à d'éventuelles évolutions du format de ces dernières. Et me forcer à sortir une nouvelle version de temps en temps.

Envoyé par Azel

Il serait également envisageable d'utiliser ces données dans Openjisho?

Bien entendu - soit elles seront déjà fusionnées dans le JMdict et ce sera automatique, soit ce ne sera pas le cas et je te refile le tout.

Envoyé par Azel

Par contre les indices sémantiques se limitent uniquement à la version anglaise, c'est un peu dommage, il faudrait également ces informations sur les gloss... par exemple 自転車→vélo (nm) , bicyclette(nf)

Je suppose que tu voulais dire qu'ils se limitent à la version japonaise. C'est normal, vu que JMdict est un dictionnaire de japonais - les traductions n'ont pas à avoir d'indices sémantiques.

**Azel** · 26/07/2012, 11h09

Envoyé par Gnurou

Non, mais en ayant deux gloss sur le même sens, tu auras l'effet désiré. Ce moyen est déjà employé dans le JMdict actuel.

Il faudra faire avec

Envoyé par Gnurou

Je suppose que tu voulais dire qu'ils se limitent à la version japonaise. C'est normal, vu que JMdict est un dictionnaire de japonais - les traductions n'ont pas à avoir d'indices sémantiques.

Oui pardon. Effectivement, JMDict est un dictionnaire de japonais ça semble logique. Par contre dans ma vision d'Openjisho je voyais plutôt quelque chose qui va dans les 2 sens ; langue(s) étrangère(s)/japonais et japonais/langue(s) étrangère(s). Je me place dans la peau d'un utilisateur japonais, il est intéressant (et utile) d'avoir des indices sémantiques sur la traduction d'un mot japonais. Principalement avec le français sur le genre.

Bon voilà une bonne base de départ. Je vais pouvoir attaquer le boulot

J'espère pouvoir mettre en ligne une nouvelle version d'Openjisho prochainement. Si des personnes sont intéressées je peux vous rajouter au projet. Le projet est versionné sous GIT (via bitbucket).

J'ai mis en place une petite lib PHP également qui permet de travailler avec la langue japonaise. Elle propose rien de révolutionnaire mais elle centralise des fonctionnalités utiles: https://github.com/mbilbille/jpnforphp
Ainsi que le module permettant la lib dans Drupal : http://drupal.org/sandbox/mbilbille/1613510

**Gnurou** · 26/07/2012, 11h35

Envoyé par Azel

Oui pardon. Effectivement, JMDict est un dictionnaire de japonais ça semble logique. Par contre dans ma vision d'Openjisho je voyais plutôt quelque chose qui va dans les 2 sens ; langue(s) étrangère(s)/japonais et japonais/langue(s) étrangère(s). Je me place dans la peau d'un utilisateur japonais, il est intéressant (et utile) d'avoir des indices sémantiques sur la traduction d'un mot japonais. Principalement avec le français sur le genre.

Un dictionnaire bidirectionnel (ou dans ce cas, multi-directionnel) est quelque chose de très difficile (impossible?) à réaliser correctement. La raison est que la couverture sémantique des mots n'est pas équivalente dans les différentes langues. Un exemple avec 許す: c'est un mot en japonais, mais en français il prendra deux concepts: autoriser et pardonner. De la même manière un mot français peut couvrir (complètement ou partiellement) plusieurs concepts en japonais. C'est pour cela que les dictionnaires sont uni-directionnels et que l'utilisateur du JMdict n'est pas un japonais qui cherche à apprendre l'anglais ou le français, mais bien l'étudiant ou l'académique non-japonisant. Se mettre dans la peau d'un utilisateur japonais est ici hors-sujet.

Envoyé par Azel

Bon voilà une bonne base de départ. Je vais pouvoir attaquer le boulot

J'espère pouvoir mettre en ligne une nouvelle version d'Openjisho prochainement. Si des personnes sont intéressées je peux vous rajouter au projet. Le projet est versionné sous GIT (via bitbucket).

Git, cool!

Tu comptes tout gérer en PHP ou passer par des languages plus adaptés au traitement de données (genre Python) pour la partie non-web?

**Azel** · 26/07/2012, 11h46

Envoyé par Gnurou

Un dictionnaire bidirectionnel (ou dans ce cas, multi-directionnel) est quelque chose de très difficile (impossible?) à réaliser correctement. La raison est que la couverture sémantique des mots n'est pas équivalente dans les différentes langues. Un exemple avec 許す: c'est un mot en japonais, mais en français il prendra deux concepts: autoriser et pardonner. De la même manière un mot français peut couvrir (complètement ou partiellement) plusieurs concepts en japonais. C'est pour cela que les dictionnaires sont uni-directionnels et que l'utilisateur du JMdict n'est pas un japonais qui cherche à apprendre l'anglais ou le français, mais bien l'étudiant ou l'académique non-japonisant. Se mettre dans la peau d'un utilisateur japonais est ici hors-sujet.

Peut-être pas pousser le multi-directionnel à 100% mais au minimum proposer le même niveau de détails que sur la version actuelle d'Openjisho: http://www.openjisho.com/en/jidensha/7 (pour rester dans le vélo

)

Envoyé par Gnurou

Git, cool!

Tu comptes tout gérer en PHP ou passer par des languages plus adaptés au traitement de données (genre Python) pour la partie non-web?

Le PHP n'est surement pas le language le plus adapté pour ce genre de traitement mais le site (front et back) repose sur Drupal, donc il me paraît plus simple de partir sur du 100% PHP pour profiter de toutes l'API Drupal.
Le traitement des données n'est pas non plus monstrueux. Il faut juste attaquer le fichier proprement car il est assez lourd

**Parker** · 28/07/2012, 22h25

Envoyé par Gnurou

Un dictionnaire bidirectionnel (ou dans ce cas, multi-directionnel) est quelque chose de très difficile (impossible?) à réaliser correctement. La raison est que la couverture sémantique des mots n'est pas équivalente dans les différentes langues. Un exemple avec 許す: c'est un mot en japonais, mais en français il prendra deux concepts: autoriser et pardonner. De la même manière un mot français peut couvrir (complètement ou partiellement) plusieurs concepts en japonais. C'est pour cela que les dictionnaires sont uni-directionnels et que l'utilisateur du JMdict n'est pas un japonais qui cherche à apprendre l'anglais ou le français, mais bien l'étudiant ou l'académique non-japonisant. Se mettre dans la peau d'un utilisateur japonais est ici hors-sujet.

+1000 !

L'écueil le plus important de ce type de projet est l'excès d'ambition (on l'a tous). Un (bon) dictionnaire multi-directionnel est très difficile à réaliser et probablement impossible si on mixe plus de deux langues.

@Azel
je n'ai pas consulté le blog pendant qq jours mais je note que Gnurou t'a apporté les bons conseils, notamment pour la licence (je suis toujours surpris par cette obsession pour le non-commercial. Que serait devenu Linux si Torvald avait eu la même approche ?...).

@Gnurou
Je n'ai pas ton expérience concernant JMDict et tu as raison, mon aversion (un peu malsaine, hein, parce que je continue à l'utiliser) au JMDict vient probablement de la mauvaise utilisation qu'en font les différents logiciels qui y ont recours (tous ?).
Mon reproche principal vient de la volonté sous-jacente des contributeurs à en faire un outil exhaustif alors que beaucoup d'entrées ne trouvent leur sens qu'à la lecture d'un exemple. Et pour la nuance entre différents termes, il faut repasser.
Le moyen que j'ai trouvé de rendre cet outil utilisable est le recours à des listes (mais encore faut-il les constituer). Car, ce n'est pas simplement un problème de mots/écritures obsolètes que celui de mots réellement utilisés par des natifs. Faites le test auprès de vos amis japonais. Je ne fréquente pas que des linguistes !
Repartir du JMDict présente l'avantage de pouvoir construire beaucoup plus rapidement une base conséquente en français car on peut alors s'appuyer sur des japonisants débutants qui parlent anglais (voire même pas japonisant du tout !). Cela dit, Transifex reste un peu rigide (obligation d'avoir des parenthèses en français quand elles existent dans la version anglaise, interdiction d'en créer sinon) alors que la plupart des mots ne peuvent se contenter d'une traduction directe. mais je te suis reconnaissant de l'initiative.

Enfin, même si cela dépasse le cadre de ce post (car on est quand même partis sur l'idée d'un dictionnaire), je reste convaincu que le recours à des phrases exemples reste le meilleur moyen d'acquérir une langue. C'est pourquoi je suis beaucoup plus impressionné par un projet comme Tatoeba que par le JMDict et les 15 années de contribution d'universitaires. Je reconnais toutefois que c'est un peu cracher dans la soupe

.

Sujet : Openjisho - le Japonais pour vous, par vous

Outils du sujet

Affichage

sujet d'information

Utilisateur(s) parcourant ce sujet

Sujets similaires

Téléphone Vous allez vivre au Japon, et vous avez un iphone ?

Divers un endroit ou vous vous sentez comme chez vous

Divers Et vous, vous préparez quoi pour le dîner du 31 décembre ?

Conseil Pourriez vous m'aider messieurs s'il vous plait ? :oops:

Livres Quel livre pour apprendre le japonais selon vous ?

Règles des messages