Et la mienne aujourd'hui c'est la voisine de l'immeuble d'en face qui a décidé que sa musique est plus importante que ce que je peux avoir envie d'écouter. Alors que j'entends la douce voix de Maaya Sakamoto du petit haut-parleur du G5, un gros boum-boum tchon-tchonk parvient à anihiler toute la partie instrumentale. Ma seule liberté est de fermer la fenêtre, mais j'ai quand même droit à l'aération de l'appartement ! Bref... dans une demi-heure, en route pour la relecture athée de l'Iliade par Wolfgang Petersen : Troie. À ce propos, voir la synthèse des différences par Julie Anterrieu sur FilmDeCulte (c'est après la critique, dans la partie "En savoir plus").(Tout venant, 2004/05/25 20:06)
lien permanent
Pour le Google Whoring d'aujourd'hui, un excellent morceau du YMO : "La Femme Chinoise". Morceau qu'on peut trouver entre autre sur "Yellow Magic Orchestra" et "After Service". Dans la version "After Service", logiquement beaucoup plus moderne, seule la partie en anglais est chantée. Pour toi chercheur, les paroles apparaissant dans le livret de "Yellow Magic Orchestra" :
LA FEMME CHINOISE/中国女
Words by Chris Mosdell Music by Yukihiro Takahashi
Des notes sans fin Des visages identiques
C'est un bras brillant De petits pieds laces
Des notes sans fin Des visages identiques
La demarche saccadee Avec des voix pincees
La discretion noiraude Arriere-pencees,qui sait
C'est un bras brillant De petits pieds laces
Des notes sans fin Des visages identiques
La demarche saccadee Avec des voix pincees
Fu Manchu and Susie Que
And the firls of the floating world
Junk sails on a yellow sea
For Susie Wong and Shanghai dolls
Susie can soothe Away all your blues
She's the mistress The scent of the orient
Notes sans fin visages identiques
Comme tous les vieux insectes
Demarche saccadee,affiche criarde,voix pincees
Discretion noiraude bible rouge
Arriere-pencees,qui sait Un monde finit
À l'écoute on se rend que les paroles chantées ont plus l'air d'être ceci :
Demarche saccadee,affiche criarde,voix pincees,detritus en monceaux
Discretion noiraude confucius et livre rouge
Difficile de distinguer entre "bible" et "livre" à l'oreille, mais "confucius et livre rouge" a plus de significations que "confucius et bible rouge". Non pas que les paroles dans leur ensemble aient beaucoup de sens, mais c'est toujours ça de rattrapé.(Google Whoring, 2004/05/25 20:04)
lien permanent
Dans ma quête du fichier aggrégé avec les résultats des régionales, je me suis dit, "pourquoi ne pas le récupérer directement sur le site du ministère de l'intérieur" ? Aussitôt dit, aussitôt pas fait évidemment, télécharger 20 pages et copier-coller les données dans Excel est une tâche insurmontable pour moi. D'où l'idée (pas originale, on fait ce qu'on peut) de les extraire des pages. Excel à partir d'une certaine version le fait très bien, on lui donne l'URL, il l'affiche, on sélectionne les tables à importer dans sa feuille de calcul, clic clic et c'est fini. Mais toujours 20 pages à faire, ça reste trop.
Etape suivante, le faire en PHP. 4 lignes plus loin, ça m'ennuie, la procrastination attaque. Bon, un langage que je ne connais pas alors ? Ruby, Python, Haskell, Perl, OCaml, Lisp, Logo, ... ? Bouof. En Java alors, ça me changera du boulot (mouais), au moins ce ne sera pas avec cette bouse de WebLogic. Première étape, trouver un parser HTML, celui de Swing étant éliminé d'office... j'avais déjà repéré celui de Quiotix, mais l'API ne me plaisait pas pour ce que je voulais en faire, pas assez souple. Le plus connu est sans doute JTidy (encore un site bien pourri, merci Maven, joli mais pas navigable pour un sou), mais faire de la validation ne m'intéresse pas. Ensuite je suis tombé sur Jericho HTML Parser, qui ne crée pas d'arbre... flûte, par contre ils listent des alternatives sur la page, dont CyberNeko HTML Parser qui repose sur le noyau de Xerces. Je veux faire quelque chose de léger et ne pas avoir 2 niveaux de dépendances ! Au suivant. Et je tombe sur HTMLParser, il construit un arbre, en permet la modification, permet les visiteurs, l'extraction de noeuds, la récupération facilitée de noeuds texte... et pas de dépendances externes. Retiendu.
172ko, un peu gros mais bon. Le travail commence, l'exploration du HTML du ministère est... ardue... la page rend bien, mais c'est limite du HTML 3.2, faites sauter la feuille de style et tadaaaa, aucune différence. Après avoir codé la récupération des liens vers les régions, la récupération des pages et celle de deux ou trois infos dans ces pages... ça m'exaspère. Il me faut un outil pour spécifier facilement l'endroit où pointer dans le HTML. Le pseudo-XPath à la OpenSTA me plaisait bien, mais je ne trouve pas trop d'outil pour, à part OpenSTA en lui-même, mais ça ne serait pas drôle. Et puis une chose me gêne dans leurs expressions : HTML(0)/BODY(5)/P(0) représente le premier paragraphe trouvé dans le 6ème noeud de l'élément HTML, qui se trouve être un BODY. Mais on n'en a rien à faire que BODY soit le 6ème où le 15ème fils ! Par contre savoir si j'ai la première ou la deuxième table dans le body, indépendamment des sauts de lignes entre, ça m'aide plus. La sémantique est changée, je ne peux plus utiliser OpenSTA 
Donc je le code tant qu'à faire... au final, c'est un peu décevant, un peu moins de 5ko de code source, et encore parce qu'il y a le copyright et tous les imports détaillés. Pour la personne qui sera tentée de l'utiliser un jour, le fonctionnement et le suivant :
- télécharger HTMLParser 1.4.
- Extraire le jar htmlparser.jar
- télécharger Instrumenteur.java
- compiler Instrumenteur.java (je doute que quelqu'un essaye un jour, mais faisons preuve de bonté :
javac -classpath htmlparser.jar Instrumenteur.java, de toute façon avant il faut un SDK installé, développé en 1.4).
- l'instrumenteur est prêt !
Ensuite, il faut instrumenter le fichier : java -classpath htmlparser.jar;. net.cynicalturtle.divers.html.Instrumenteur mon_fichier.html. Il en ressort mon_fichier.html.instr.htm, testé dans Mozilla et Internet Exploder 6, qui vous affiche en permanence votre position dans le fichier, et sur un control-click ouvrira une fenêtre avec le chemin prêt à copier. Pourquoi personne ne devrait faire ça ? Parce que c'est certainement réalisable avec une bookmarklet je pense (moins une petite différence, l'arbre DOM présenté par les navigateurs est valide, même si le HTML source ne l'est pas, et nous ce qu'on veut c'est la position dans le HTML, pas dans le DOM). D'ailleurs, le code javascript est issu de la bookmarklet "ancestors" disponible sur la page mentionnée dans le lien précédent. Merveilleuse soirée de dimanche tout ça.(Cyberpunk, 2004/05/25 19:55)
lien permanent
C'est officiel, la croissance est revenue au Japon, c'est ce qu'ils disaient sur France-Info ce matin. Enfin une bonne nouvelle ! Parce que le matin en ce moment, Jean-Pierre Gaillard est toujours malheureux alors que d'habitude c'est lui qui nous apporte le bonheur. Mais voilà déjà plusieurs semaines qu'il ne peut plus se masturber sur le prix du baril de pétrole à Nouille-Orque, alors le moral est en baisse. Heureusement, la croissance au Japon ça va être le retour par centaines des touristes aux caméscopes rutilants et peut-être aussi le retour de l'embauche de non-japonais chez Sony... On peut toujours rêver non ?(Regional news, 2004/05/25 10:04)
lien permanent
Bon, elles sont où les photos ?
Posté par Laurent, le mardi 25 mai 2004 à 10:36 #
?????????????
Posté par raaqfd, le jeudi 27 mai 2004 à 11:07 #
j'ai peur
Posté par raaqfp, le jeudi 27 mai 2004 à 11:12 #