Twitter passe à Lucène

Filed under: Recherche d'informations — Daniel Lemire @ 8:25

Twitter, un des services de réseautage social les plus populaires, passe à Lucène. Le moteur de recherche open source Lucène permet à Twitter de répondre à un milliard de requêtes par jour.

Source: Twitter revamps search engine (ComputerWorld, 7 octobre 2010)

Le génome humain en 50 Mo

Filed under: Recherche d'informations — Daniel Lemire @ 9:53

Le génome humain requiert environ 800 millions d’octets de stockage. Cependant, il est possible de le compresser pour qu’il puisse être stocké en seulement 50 millions d’octets, soit 50 Mo.

Source: Kurzweil

Validation des adresses de courriel avec regex

Filed under: Recherche d'informations — Daniel Lemire @ 7:36

Ian Dunn voulait créer une expression régulière permettant de distinguer les adresses de courriel valables. Le résultat n’est pas aussi simple qu’on pourrait l’espérer :

/^([\w\!\#$\%\&\'\*\+\-\/\=\?\^\`{\|\}\~]+\.)*[\w\!\#$\%\&\'\*\+\-\/\=\?\^\`{\|\}\~]+@((((([a-z0-9]{1}[a-z0-9\-]{0,62}[a-z0-9]{1})|[a-z])\.)+[a-z]{2,6})|(\d{1,3}\.){3}\d{1,3}(\:\d{1,5})?)$/i

Des compteurs en CSS

Filed under: XML — Daniel Lemire @ 10:59

Alors que le W3C décrit les Cascading Style Sheets (CSS) comme étant un mécanisme pour ajouter du style (par exemple de la couleur) aux documents web, il s’agit aussi d’un véritable langage de programmation. En fait, il s’agit de l’un des langages déclaratifs les plus répandus.

Bien sûr, CSS n’est pas Turing complet: on ne peut donc pas espérer programmer de véritables applications en n’utilisant que le CSS. Cependant, on peut faire plus avec CSS que l’application bête de quelques couleurs.

Supposons que vous disposiez d’un tableau en HTML qu’il faille mettre en page:

<table>
<tr><th>City</th><th>Color</th></tr>
<tr><td>Montreal</td><td>Red</td></tr>
<tr><td>Toronto</td><td>Blue</td></tr>
<tr><td>Vancouver</td><td>Yellow</td></tr>
</table>

Vous souhaitez obtenir le résultat suivant en n’utilisant que CSS (sans JavaScript):

Il nous faut des compteurs!

Solution: Ajoutez les instructions CSS suivantes à votre page web:

tr{counter-increment: mycounter}
table {counter-reset: mycounter -1}
td:first-child:before {content: counter(mycounter)". " }
tr:nth-child(2n+2) td {background-color: #ccc;}
tr:nth-child(2n+3) td {background-color: #ddd;}

Trouver tous les hyperliens avec une expression régulières

Filed under: Recherche d'informations — Daniel Lemire @ 4:29

Imaginez que vous vouliez rapidement trouver tous les hyperliens contenus dans une page web ou du code Java. John Gruber nous propose une expression régulière qui fait bien ce travail :

\b(([\w-]+://?|www[.])[^\s()<>]+(?:\([\w\d]+\)|([^[:punct:]\s]|/)))

Exercice amusant: pouvez-vous expliquer le fonctionnement de cette expression?

Entrevue avec Tim Bray sur l’avenir du Web

Filed under: XML — Daniel Lemire @ 12:03

Tim Bray, un des inventeurs du XML, a accordé une entrevue sur l’avenir du Web (en anglais).

Transitivité et inégalité du triangle: est-ce la même chose?

Filed under: Recherche — Daniel Lemire @ 1:19

Frédérik montre que l’inégalité du triangle n’implique pas la transitivité. Ainsi, montrer que la transitivité n’est pas satisfaite ne suffit pas à conclure que l’inégalité du triangle ne tient pas.

Je vous soumet qu’une violation de la transitivité peut pratiquement toujours être comprise comme une violation d’inégalités du triangle. En effet, dans l’exemple de Frédérik, on dit que A et B sont similaires si s(A,B) est plus petit qu’une petite constante. Voici deux inégalités du triangle qui impliquent la transitivité: s(A,B)+s(B,C) > 2 s(A,C) et max(s(A,B),s(B,C)) > s(A,C) .

Accélérez vos sites web!

Filed under: XML — Daniel Lemire @ 10:06

Google rend disponible un outil permettant d’analyser vos sites web afin d’accélérer le chargement des pages. Page Speed est un plugin pour le navigateur Firefox. Avant d’installer Page Speed, il faut d’abord installer le plugin Firebug. Page Speed fait une analyse de vos instructions CSS.

Comment créer un fil RSS à partir d’un groupe Facebook

Filed under: Recherche d'informations,XML — Daniel Lemire @ 9:44

Les forums de Facebook sont excellents à bien des points de vue. Malheureusement, ils ne permettent pas de recevoir automatiquement un avis chaque fois qu’un ajout est fait sur le forum. Heureusement, il existe une solution. L’application web Facebook Group RSS Feed permet d’obtenir un fil RSS à partir de tout forum facebook. Il suffit de trouve l’identifiant du groupe.  Par exemple, si l’URI du groupe est

http://www.facebook.com/group.php?gid=57220667716&ref=ts

alors, l’identifiant est 57220667716. Il suffit de saisir ce nombre pour obtenir en retour un fil RSS. Ce fil RSS peut être utilisé en conjonction avec un aggrégateur RSS tel que Google Reader pour surveiller sans effort les activités d’un forum.

Identification de la langue d’un texte

Filed under: Recherche d'informations — Daniel Lemire @ 2:48

Comment est-ce qu’une machine fait-elle pour déterminer sur un bout de texte donné est en anglais ou en français? L’approche la plus commune se base sur les statistiques des n-grammes. (Pour en savoir plus, voir l’article Modèles de langue du cours INF 6460.) Mais que fait-on lorsqu’il y a un mélange de langues anglaise et française? Comment savoir où se termine le français et où débute l’anglais?

Will Fitzgerald de chez Powerset (Microsoft) a publié les transparents d’une présentation sur l’identification de la langue d’un texte. Il fournit de nombreux exemples pratiques. Il nous invite aussi à consulter un article de ses collègues, Unsupervised Language Identification.

Page suivante »

XHTML valide

Powered by WordPress