提问人:Lance 提问时间:11/4/2023 更新时间:11/4/2023 访问量:18
如果可以确定复合词的组成部分,给定单词部分的字典,并给定组合部分会改变它们的形式?
If it's possible to determine the components of a compound word, given a dictionary of word parts, and given combining parts changes their form?
问:
在这一点上,我主要考虑的是梵语,该链接显示了梵语用于组合基本词和后缀或组合两个词的数十个“规则”,并且两个词之间的连接点改变了第一个词的结尾和第二个词的开头的形式。
但我想知道如何将其应用于任何语言,最后。
我想知道是否有可能对一个复合词进行逆向工程,用简单的代码自动找到它的组成部分,而不是知道所讲内容的人工智能。
例如:
- योग (yoga) + अन्न (anna) = योगान्न (yog ā nna) //ā是双/长音“a”
- योग (瑜伽) + उपदेश (upadeśa) = योगोपदेश (yogopadeśa)
- योगिन् (瑜伽士) + चर (cara) = योगिंश्चर 或 योगिँश्चर (Yogiṁścara 或 Yogim̐ścara)
以第一个单词作为输入:.鉴于我们的字典中有单词和,但字典中不存在化合物,是否有可能自动且相对容易地分辨(没有我提到的人工智能,或类似的东西),那就是?yogānna
yoga
anna
yogānna
yogānna
yoga + anna
我无法正式或明确地确定这是否可能,这对我来说仍然模糊/不清楚这是否可能。如果这是不可能的,那么我将不得不开始考虑其他一些可能性,也许不得不放弃“自动将单词分解为它们的组成部分”的想法/功能,然后继续前进。如果可能的话,那么我就可以开始考虑如何实现它了,所以两个完全不同的工作方向哈哈。
在试图弄清楚这是否可能时,我沿着这些思路思考,试图在脑海中拼凑出一些伪算法:
- 你解析一些输入字符串,直到
yog
- 然后你会得到一个.
ā
yogā
在我们的 Trie/字典中不存在。事实上,继续说下去,我们的字典中并不存在完整的单词。所以再试一次。yogānna
yog
存在于 trie 中。yogā
没有,所以试试另一种技术。不知何故,浏览我们的规则列表,看看是否有以 开头的“joiner”规则。ā
我们从该链接中获得了以下规则:
[ अ (a) 或 आ (ā) ] + अ (a) = आ (ā)
所以这就像我们有一张地图:
ā: { startOfNext: a, endOfPrevious: [a, ā] }
所以我们在那里查找,从 中获取,找到是一个词。因此,我们将其视为结束,并以“存在”开始一个新词。然后是一个词,所以我们赢了!ā
a
endOfPrevious
yoga
startOfNext
a
anna
那么,假设总是可以找出组件,只要我们以某种方式编码规则,我就对吗?或者我没有看到的情况以某种方式使这成为不可能?
答: 暂无答案
评论