Informàtica Aplicada a la Traducció 1 de febrer de 2003 Primera part (75 min.) Instruccions: Aquesta part de l’examen val el 60 % de la nota. En aquesta part de l’examen no podeu consultar cap material ni parlar amb ningú. Poseu les vostres dades (nom, cognoms, DNI o NIE i firma) en el full de respostes que hi ha al final. Aquest és el full que m’entregareu quan acabeu. Elegiu en cada pregunta l’opció que cregueu correcta, i marqueu-la amb una × en el full de respostes. Els fulls de preguntes els podeu conservar per a autoavaluar-vos (al final d’aquesta part se us passarà una plantilla amb les respostes). Teniu 75 min. per a fer aquesta part de l’examen. Aquesta part es considera superada si la puntuació 1 puntuació = 10 × (encerts − errors)/34 2 és superior a 5,0 (és a dir, si contestant-les totes se n’han encertat 23 preguntes); per a poder “compensar-la” cal obtenir un 4,0; és a dir, si es responen totes les preguntes cal respondre’n correctament 21. Deixar preguntes en blanc és estadı́sticament equivalent a respondre-les a l’atzar. Si teniu algun dubte, alceu la mà i aniré a atendre-us. Preguntes 1. 2. 3. Quantes combinacions diferents es poden fer amb 4 bits? a) 16 b) 4 c) 8 El sistema operatiu d’un ordinador és. . . a) . . . maquinari (hardware). b) . . . programari (software). c) . . . una manera d’especificar el format dels textos. Si reduı̈m de 1200 MHz a 600 MHz la freqüència del rellotge d’un ordinador i encara funciona. . . 1 4. 5. 6. 7. 8. 9. a) . . . executarà els programes a la mateixa velocitat. b) . . . executarà els programes més lentament. c) . . . tardarà menys a executar els programes. Són les tres de la matinada i ja és hora d’anar a dormir. Abans d’apagar l’ordinador, on es guarda el treball que s’ha fet per a continuar-lo demà? a) En l’acumulador del processador central. b) En la memòria RAM de l’ordinador. c) En un suport magnètic, normalment. La longitud mitjana d’un mot en gondavés és de 5,5 caràcters i l’edició electrònica de Gundhawól Vlâj (“La Veu de Gondàvia”), té uns 100.000 mots diaris com a mitjana. Si el gondavés s’escriu en codificació ISO-8859-1, quants exemplars del diari es poden guardar en un CD-ROM? a) Més de dos anys. b) Un exemplar només. c) Un mes aproximadament. En un disquet hem creat algunes carpetes (directoris). Es poden crear carpetes dins d’aquestes carpetes? a) No, això només es pot fer en un disc dur. b) Sı́, indefinidament, si hi ha espai en el disquet. c) Sı́, però només si no tenen el mateix nom que les carpetes del primer nivell. Windows usa les extensions dels noms de fitxers per a. . . a) . . . associar-los el programa que els obrirà quan fem doble clic sobre la icona del fitxer. b) . . . estalviar espai quan es guarden els fitxers. c) . . . saber si estan buits o contenen text. Un mòdem és un dispositiu que. . . a) . . . converteix la informació digital en senyals analògics. b) . . . converteix senyals analògics en informació digital. c) . . . fa les dues coses. Què fa que el següent fragment de XML estiga mal format? <tit int=hi>Zjuknim agarnow</tit> a) Entre tit i > no pot haver-hi res. b) L’etiqueta tit no és vàlida en XML; hauria de ser title. c) Si hi ha algun atribut, el valor ha d’anar entre cometes. 2 10. Si en una DTD trobem les regles <!ELEMENT taula (capçalera?,fila+)>, <!ELEMENT fila (casella*)> i <!ELEMENT casella (#PCDATA|taula)*> quina de les tres situacions següents no és vàlida d’acord amb aquesta DTD? a) <taula></taula> b) <taula><fila><casella>zz<taula><fila></fila></taula>zz</casella><fila></taula> c) <taula><fila><casella>zz</casella><casella>ww</casella></fila></taula> 11. 12. Què indica el fragment encoding=". . . " en la primera lı́nia (<?xml. . . ?>) d’un document XML? a) La versió de XML. b) On és la DTD necessària per a validar-lo. c) Quin és el joc de caràcters que usa el document XML. Quants octets (bytes) ocupa el segment de XML següent: <qq>ww</qq> 13. 14. 15. a) 11 com a mı́nim, depenent de la codificació. b) 11, independentment de la codificació. c) 4 exactament. Quan les marques de format només especifiquen el contingut d’un document (identificant les parts i l’estructura de cada una), com s’assigna una presentació determinada al document? a) Amb un o més fulls d’estil. b) Amb una codificació de caràcters (p.e., Unicode o ISO-8859-1). c) No s’hi pot assignar presentació. Què es conserva d’ASCII en els sistemes de codificació de caràcters més avançats com Unicode, UTF-8, ISO-8859-1, etc.? a) Els caràcters i els seus números de codi. b) Els caràcters, però amb números de codi diferents. c) No en queda res. S’ha reorganitzat tota la codificació. Som a Eslovàquia, on s’usa la codificació de caràcters ISO-8859-2. Des d’Alacant, ens envien un document de text pla, escrit en codificació ISO8859-1 i l’obrim com si fóra ISO-8859-2. Què passa? a) No veiem bé cap lletra: tot són sı́mbols estranys i inintel·ligibles. b) Veiem bé totes les lletres excepte les accentuades, les que porten dièresi, la ñ o la ç: en el seu lloc apareixen altres sı́mbols o lletres tı́piques de les llengües d’Europa de l’Est. 3 c) 16. 17. Veiem bé totes les lletres excepte les accentuades, les que porten dièresi, la ñ o la ç: en el seu lloc apareixen les versions sense accent, la n o la c. Què és RTF? a) Un esquema avançat de codificació de caràcters. b) Un format obert d’intercanvi de memòries de traducció. c) Un format obert per a intercanviar documents de text entre processadors de textos. Un document HTML té un enllaç amb el text “Més informació” i amb URL de destinació http://www.detalls-e.com/mes.html. Com és aquest enllaç en HTML? a) <a href="http://www.detalls-e.com/mes.html">Més informació</a> b) <a href="Més informació">http://www.detalls-e.com/mes.html</a> c) <a htxt="Més informació" href="http://www.detalls-e.com/mes.html"> 18. 19. 20. 21. On va el tı́tol d’un document HTML (el que es mostra en la barra del navegador)? a) En un element title dins de head b) En un element title dins de body c) En un element h1 dins de head Volem digitalitzar automàticament textos impresos en paper que estan escrits en una llengua occidental que usa caràcters de l’alfabet llatı́ i usen tipus de lletra comuns (com ara Times, Courier, Arial, Helvetica, etc.). Ajuda conéixer en quina llengua estan escrits? a) No, perquè la forma de les lletres no depén de la llengua, ja que s’usen tipus de lletra comuns. b) No, perquè totes les llengües occidentals que usen l’alfabet llatı́ es poden codificar amb el joc de caràcters ISO-8859-15. c) Sı́, perquè cada llengua usa els caràcters de manera diferent per a formar paraules. Imaginem una al·locució (un segment de veu humana) en espanyol que pot tenir (entre d’altres) les interpretacions “millones de oros” i “millones de euros”. Clarament, la primera és menys comuna que la primera. Com pot fer un sistema de reconeixement automàtic de parla per a elegir la segona? a) Fent una anàlisi semàntica profunda de la frase. b) No pot, perquè és impossible que comprenga l’espanyol parlat. c) Usant estadı́stiques de aparició conjunta de paraules en espanyol. En Internet totes les màquines tenen un número IP únic; moltes tenen també un nom. Com se sap quin IP correspon a cada nom? 4 22. 23. 24. 25. 26. 27. a) Hi ha algorismes que calculen l’IP que correspon a cada nom. b) Hi ha màquines anomenades servidors de noms que tradueixen noms a números IP. c) Totes les màquines connectades a Internet contenen una llista de totes les màquines del món, amb nom i número IP. Què tenen en comú tots els camps d’una fitxa terminològica? a) Es refereixen al mateix concepte. b) Es refereixen al mateix terme. c) Es troben en el mateix ı́ndex. En què es diferencia un camp clau o camp ı́ndex de la resta dels camps d’una fitxa?. . . a) Es guarda en un tipus de memòria RAM més ràpida anomenada cache. b) La manera d’emmagatzemar el camp és diferent (els camps ı́ndex o clau s’emmagatzemen de manera comprimida i els altres no). c) Les recerques de fitxes per aquest camp són molt més ràpides que les que es facen per camps que no són clau o ı́ndex. Quan es duplica el nombre de fitxes d’una taula determinada d’una base de dades, què succeeix amb el nombre de consultes que realitza una recerca dicotòmica? a) Es duplica. b) Es queda exactament com està. c) S’incrementa en 1 com a promedi. SALT 2.0 tradueix textos del castellà al valencià i pregunta esporàdicament a la persona usuària quin equivalent és més adequat per a alguns mots ambigus difı́cils. Aquesta és una situació de. . . a) . . . postedició. b) . . . traducció automàtica assistida per la persona. c) . . . traducció humana assistida per l’ordinador. Els llenguatges controlats milloren els resultats de la traducció automàtica restringint. . . a) . . . només el lèxic de la llengua origen. b) . . . només la sintaxi de la llengua meta. c) . . . tant el lèxic com la sintaxi de la llengua origen. Volem posteditar un text traduı̈t automàticament mirant tan poc com siga possible el text original. Ens ajuda conéixer quins són els mots homògrafs més comuns de la llengua origen? 5 28. 29. a) No, perquè els homògrafs del text origen no afecten el text meta en brut. b) No, perquè només estem mirant el text meta. c) Sı́, perquè són una font molt important d’errors especialment difı́cils de corregir si no es coneix què ha passat. La forma espanyola inventarı́an vol dir, d’una banda diseñarı́an, crearı́an, idearı́an, d’altra, anotan o catalogan en un inventario. Es tracta d’un cas ... a) . . . d’ambigüitat d’adjunció. b) . . . d’homografia. c) . . . de polisèmia. Per què és difı́cil avaluar la qualitat d’una traducció automàtica comptant la quantitat mı́nima de postedició necessària per fer-lo adequat quan no hi ha una traducció de referència? a) No és que siga difı́cil; sense traducció de referència és absolutament impossible. b) Perquè aquesta tasca no es pot fer sense conéixer profundament l’estratègia usada pel sistema de traducció automàtica. c) És relativament senzill fàcil corregir el text perquè siga adequat però és molt difı́cil fer-ho fent-hi el mı́nim nombre de canvis necessaris. 30. 31. 32. Quan es vol usar un sistema de traducció automàtica per a l’assimilació d’informació, a què donarı́eu menys pes en l’avaluació? a) Facilitat de postedició de la traducció en brut. b) Intel·ligibilitat de la traducció en brut. c) Velocitat. Tenim un sistema de traducció automàtica multilingüe que tradueix en qualsevol direcció entre les llengües que considera. Per a afegir-hi una nova llengua hem escrit 6 mòduls. Com era el sistema abans de l’addició de la nova llengua? a) D’interlingua amb 4 llengües (hem afegit la quinta). b) De transferència amb 2 llengües (hem afegit la tercera) c) De transferència amb 4 llengües (hem afegit la quinta) Què és TMX? a) La marca d’una de les memòries de traducció amb més presència en el mercat. b) Un format estàndar d’intercanvi de memòries de traducció. c) Una associació de fabricants de memòries de traducció 6 33. 34. La majoria de les memòries de traducció comercials divideixen els bitextos en unitats de traducció. . . a) . . . aproximadament equivalents a una oració, usant regles senzilles i relativament independents de la llengua per a segmentar (dividir) cada text en oracions. b) . . . en mots i petites unitats multimot (entre dos i quatre mots) de gran repetitivitat. c) . . . equivalents a una oració, usant una anàlisi lingüı́stica detallada del text per a determinar l’extensió de cada oració. Que hem de fer amb els bitextos existents per a poder reutilitzar la informació que contenen per a fer noves traduccions amb una memòria de traducció? a) Passar-los a XML. b) Segmentar cada un dels dos textos en oracions. c) Segmentar els dos textos i alinear-los. 7 Informàtica Aplicada a la Traducció 1 de febrer de 2003 Primera part FULL DE RESPOSTES Cognom(s) i nom(s): D.N.I., passaport o targeta d’identificació: Firma: 1: 2: 3: 4: 5: 6: 7: 8: 9: 10: 11: 12: 13: 14: 15: 16: 17: 18: 19: 20: 21: 22: 23: 24: 25: 26: 27: 28: 29: 30: 31: 32: 33: 34: a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b 8 c c c c c c c c c c c c c c c c c c c c c c c c c c c c c c c c c c Informàtica Aplicada a la Traducció 1 de febrer de 2003 Primera part RESPOSTES CORRECTES Puntuació = 10 × (encerts − 12 errors)/34. 1: 2: 3: 4: 5: 6: 7: 8: 9: 10: 11: 12: 13: 14: 15: 16: 17: 18: 19: 20: 21: 22: 23: 24: 25: 26: 27: 28: 29: 30: 31: 32: 33: 34: a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a X X X X X X X X X X X X b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b 9 X X X X X X X X X c c c c c c c c c c c c c c c c c c c c c c c c c c c c c c c c c c X X X X X X X X X X X X X