-
Notifications
You must be signed in to change notification settings - Fork 4
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
formas M/F e SG/PL #67
Comments
@arademaker, veja o que eu escrevi na questão #68. |
@arademaker, vou criar um novo ramo issue-67 e colocar o resultado do meu script em Python referido aqui. |
pensei que o processo que estamos chamando de simplificação seria apenas um pré-processamento para a unificação com um corpus, não mudança efetiva e definitiva no Morpho-Br. Mas se vc acha que devemos efetivar estas mudanças no Morpho-Br, tudo bem para mim. |
Desculpe, estou um pouco perdido aqui. Este issue seria agora então uma duplicada em relação ao #68 ? Estamos então propondo mudar a estrutura do MorphoBr? Se sim, seu commit no branch |
@leoalenc , vi que no branch issue-67 vc criou novos arquivos como |
Opa! @analununes , documente aqui progresso.. melhor. e relacionamos com #12 |
não entendi a ultima frase de LR-POR/tools#5 (comment). Documente aqui progresso. Tá confuso, estamos com um issue aqui e outro no check-tools e outro no test. |
@arademaker, na última frase quis dizer que os arquivos produzidos aqui não têm aqueles erros |
@arademaker e @leoalenc, enquanto comentava o código percebi que eu estava aplicando todas as correções quando produzia o map, o certo é aplicar no map de adjectives as correções correspondentes e no map de nouns a correção correspondente. Para corrigir isso eu criei as funções |
No 82dea16, recriei o branch issue-67. @analununes , considerando que o #90 foi fechado, por favor, reexecute o código para 'simplificação'. como antes, os diretórios nouns e adjectives serão afetados. Mas note que aproveitei para reorganizar os arquivos:
|
@arademaker, cabe um esclarecimento: na verdade, só havia diminutivos, mas alguns destes eram derivados de aumentativos. Por exemplo, uma forma como casarãozinho é o diminutivo da palavra casarão, por sua vez, aumentativo de casa Na classificação de uma palavra como diminutivo ou aumentativo, o que conta é a etiqueta que se encontra mais à direita. Independentemente dessa observação, foi uma boa ideia fundir a pasta de diminutivos com as outras pastas. |
No commit 9e7ca3a fechamos este issue. Várias outras correções manuais foram feitas ainda no branch. Também foram removidas duplicatas de DIM e AUG identificadas quando reorganizamos diretórios. @analununes, alguma observação a ser feita sobre este issue? Tratamos aqui da remodelagem do recurso, trocando repetições por subspecificações nos ADJ e NOUN. No PR dei exemplos de ADJ. Considerando que concordamos que NOUN não flexionam em gênero mas tem um gênero inerente, entradas como:
não seriam questionáveis? adotamos subspecificação para dizer que a forma é a mesma para qualquer valor do traço omitido. Mas para substantivos, temos 2 substantivos (masc e fem) e o adj. Pergunto se não deveriamos manter para os substantivos os traços de gênero e número @leoalenc sempre. |
De qualquer forma, a apresentação gerada é mais compacta, para todos os substantivos que não tiverem traço de gênero, sabemos que eles tem forma Fem e Masc iguais. |
Para simplificar as entradas dos arquivos de adjetivos e substantivos realizei as ações a seguir (vou usar como exemplo a forma
Obs.: os nomes dos arquivos foram criados usando as três primeiras letras da primeira entrada do arquivo. |
@arademaker, bem lembrado. Pelo meu script SimplifyEntries.py, também gerei substantivos não especificados para gênero, por exemplo:
Na PorGram, esse tipo de substantivo é instância do tipo common, enquanto substantivos como avião e maçã são instâncias do tipo masc e fem, respectivamente. A TFS de common tem o seguinte caminho: CONT: [mrs HOOK: [hook INDEX:<4>= [ref-ind PNG: [png ... NUM: number GEND: gender]] Parece-me que podemos conciliar essa definição com a noção de que todo substantivo possui gênero inerente.
É claro que uma função de busca do significado de um substantivo numa base lexical deve ser sensível à subespecificação do gênero. Dicionários tradicionais, como o da Porto Editora, não possuem entradas diferentes no caso de dentista, pois nenhum significado adicional à nocão de gênero se acrescenta com a variação de gênero, diferentemente do que ocorre em casos como gama: https://www.infopedia.pt/dicionarios/lingua-portuguesa/dentista Na seguinte frase, trata-se da letra gama (referindo-se, por exemplo, a um personagem identificado por essa letra) ou da fêmea do gamo? Creio que podemos deixar isso em aberto no parsing.
No entanto, a MRS indica o gênero neste caso:
|
@arademaker, complementando o comentário anterior, o sintagma nominal de a dentista sorriu tem a seguinte TFS: CONT: [mrs HOOK: <3> = [hook INDEX: [ref-ind PNG: [png ... NUM: singular GEND: feminine]] Ao contrário, em dentistas sorriram, o NP tem a seguinte TFS: CONT: [mrs HOOK: [hook INDEX: [ref-ind PNG: [png ... NUM: plural GEND: gender]] |
Estranho o valor unspecified de GEND ser "gender". Nao seria esperada a omissão da entrada GEND para o segundo caso? |
@arademaker, boa pergunta. Em princípio, acredito que poderíamos definir, numa gramática HPSG do português, um tipo de adjetivo ou substantivo sem o atributo gênero. No entanto, parece que isso complicaria a elaboração das regras de formação de sintagmas levando em conta classes com e sem o atributo gênero. Veja o tratamento do determinante the do inglês na minigramática de Copestake (2002, p. 50 e p. 82), para o qual o valor do atributo NUMAG é agr, ao passo que, para this, é sg. |
Ok, faz sentido. Sub especificação é marcada com supertipo |
Resolvido em 9e7ca3a |
@analununes poderia descrever o que foi feito no commit mencionado? |
@arademaker, nesse commit foi realizada a simplificação das entradas, omitindo as tags quando a forma flexionada não varia. Por exemplo, as entradas:
foram simplificadas para:
|
quantos casos temos de formas que são M e F? Na modelagem atual, ao invés de uma TAG especial, optamos por duplicar as entradas. O mesmo para plural e singular, quando a forma é a mesma, temos duas entradas.
Seria bom termos uma estatística destes casos para poder reavaliar nossa decisão se for o caso.
The text was updated successfully, but these errors were encountered: