Word of the Day

Wednesday, March 28, 2007

Bidirectinal: Hebrew, Arabic and English in the Same HTML Document

I have been looking for an easy way to create a multilingual HTML document with languages using different writing directions. Here are my latest prowess in the brave new world of multilingual computing.

1. dir attribut of HTML tags
HTML tags have dir (text direction) attribute, which is either "rtl" (right to left) or "ltr" (left to right). The example is a paragraph written in Hebrew, a rtl language.

אני רוצה ללמוד עברית.


The coding that yields this result is as follows:


2. Mixing text directions in the same line
Placing rtl and ltr characters in the same block confuses the browser. Word with a text direction in a larger block (such as a table or a paragraph) with another should be explicitly provided with the proper direction.

I went to ירושליים‎, יפו‎ and חייפה‎.

Each Hebrew character string has an invisible Unicode control character right after it. This Unicode character U+200E, called the LEFT-TO-RIGHT MARK, is used to align the rtl strings in the ltr block:
I went to ירושליים‎, יפו‎ and חייפה‎.

The order of the characters in memory is shown below from left to right (where bold italics should actually be replaced by Hebrew script and LRM stands for U+200E);
I went to JerušalajmLRM, JafoLRM and ḤejfaLRM.

English words in a Hebrew block require another control character, U+200F or RIGHT-TO-LEFT MARK. This is used to align ltr strings in rtl blocks.

הייתי ב-Washington‏, Boston‏ ו-Chicago‏.


The coding is;

A conceptual indication of memory order is shown below. Despite the natural text direction of Hebrew, the same convention is followed as above. RLM stands for U+200F.
Hajiti be-WashingtonRLM, BostonRLM, we-ChicagoRLM.


N.B.
For comfortable editing of bidirectional HTML documents, you might want a text editor with strong Unicode support. I find SC UniPad as a good option that enables users to view the oft-invisible RLM and LRM characters.

You can save the example codes as HTML and test them by opening the file by Firefox.

Saturday, March 24, 2007

RBD

Outro dia estava num restaurante com dois alunos meus quando sem querer ouço a menina da mesa ao lado de uns doze anos mencionar um grupo mexicano, Rebeldes, que está fazendo sucesso atualmente cantando em espanhol e português e acabou de gravar seu primeiro CD em inglês, além de ter participado de uma novela que tem feito o maior sucesso entre a garotada no Brasil e imagino na América Latina inteira. O fato é que a menina se refere a eles com a sigla RBD (erre-bê-dê). Acontece que siglas e abreviações sempre foram usadas para poupar os falantes de "sílabas desnecessárias", para encurtar palavras e enxugar orações, mas não se verifica isso neste caso. Erre-dê-bê conta quatro sílabas, enquanto que Rebeldes, somente três, portanto não há economia nenhuma. Vai entender...

Tuesday, March 13, 2007

Lezíria

What was my surprise when it came to my attention a couple of days ago that Portuguese has the word lezíria, from Arabic al-jazira, the island (yes, you guessed it right, that TV station from Qatar that became famous after broadcasting Osama Bin Laden's videos). Lezíria, or its variant lezira, means "terra plana e alagadiça, nas margens de um rio" (flat and swamp land on the banks of a river). I'm sure Spanish has got something similar, but I haven't been able to locate it yet. If any of the millions of readers of this blog knows the word, please let me know and I'll appreciate it immensely (I can't say I'll send you an autographed copy of my book, because I don't have one).

Sunday, March 11, 2007

declinar

Minha tia perguntou-me hoje a regência desse verbo, de cujo parente próximo declension na língua inglesa já tive o prazer de discorrer, hoje por telefone. Queria saber se o mais correto em língua portuguesa seria declinar a nomeação ou declinar da nomeação. Respondi-lhe que sempre vi a segunda opção, mas queria fundamentar a minha resposta. Fui ao dicionário, que não me esclareceu muito. Fui ao maravilhoso http://ciberduvidas.sapo.pt, mas este também não diz nada a respeito. Recorri ao Google, que apresenta muito mais ocorrências com a preposição de nesta acepção do que sem a preposição. Todos sabemos que o Google registra as palavras que são efetivamente usadas por uma comunidade de falantes, não necessariamente corretas segundo o padrão culto da língua, por isso é sempre tomar as suas sugestões cum grano salis. Por sorte um livro de referência que faz parte da minha biblioteca chamado Dicionário de dúvidas, dificuldades e curiosidades da língua portuguesa, de Luiz Antonio Sacconi, abona as duas construções. Eis os exemplos dados nesse livro: Convidado para assumir um ministério, o empresário declinou a (ou da) honraria. Como o pai declinou a (ou da) responsabilidade dos atos do filho menor, não havia quem condenar. Disse à minha tia que a solução portanto cabia a ela e sugeri-lhe que deixasse guiar-se pelo que lhe dizia o ouvido, já que as duas construções encontram respaldo na língua padrão.

Libido

Yesterday while pondering on the word libido and its feminine gender in Portuguese - quite rare for a word ending in -o -, it occurred to me that if libido had come into Portuguese through uninterrupted evolution and not been picked up by Freud in its nominative form and taken up by all other European languages, we would have libidem today. Why? Latin words ending in -o of the third declension (genitive in -is) have extended stems in all cases except nominative. Let's take origo, originis (origin): nominative origo, genitive originis, dative origini, ablative origine, accusative originem. Latin words are said to evolve into Portuguese through the accusative sans -m, that's why we have origem. Following the same reasoning, nominative libido, genitive libidinis, dative libidini, ablative libidine, accusative libidinem would have become libidem in Portuguese, belonging to the group of countless words ending in -em.

Wednesday, March 7, 2007

enchova

Há uma regra de ortografia em língua portuguesa que diz que depois das sílabas me- e en- se deve usar x, e não ch. Entretanto, hoje me deparei com a palavra enchova, que, apesar de começar por en, se escreve com ch. Talvez seja assim porque enchova é uma variante de anchova, mas nunca tinha parado para pensar que enchova pudesse constituir uma exceção a essa regra.

Sunday, March 4, 2007

Eclipse

Por ocasião do eclipse lunar ocorrido ontem à noite, ouvi a minha tia referir-se a ele no gênero feminino, o que me chamou a atenção. Pensei que se tratasse de um lapso, mas mais tarde no mesmo dia, um amigo meu também se referiu a ele no gênero feminino. Pergunto-me o que está acontecendo. Será porque eclipse é uma palavra que raramente proferimos e isso faz com que alguns de nós lhe "esqueçam" o gênero? O fato é que as palavras em -e podem ser tanto masculinas quanto femininas, mas tenho a impressão de que a grande maioria delas é masculina, e não feminina. É um fenômeno semelhante ao que acontece a alface, palavra feminina que muitos insistem em chamar masculina.