看了下最新的自然语言处理的成果【eternalgrrr吧】

eternalgrrr吧关注：604贴子：139,749

2回复贴，共1页

看了下最新的自然语言处理的成果

汉语相对字母语言的劣势又暴露无遗
字母文字的好处是可以把语言表示成一个26维的向量然后学习的时候参数很少不容易过拟合学习的也快
一个小模型就几十万个参数拿wiki 数据放笔记本上训练一下直接可以问模型一些哲学问题了。
相反汉语呢？这个向量怎么也得是3000维吧？还是常用字，汉语wiki上的汉字想完全覆盖怎么也得10000维。根本没法做。

送TA礼物

IP属地:美国