eternalgrrr吧 关注:604贴子:139,749
  • 2回复贴,共1

看了下最新的自然语言处理的成果

只看楼主收藏回复

汉语相对字母语言的劣势又暴露无遗
字母文字的好处是 可以把语言表示成一个26维的向量 然后学习的时候参数很少 不容易过拟合 学习的也快
一个小模型 就几十万个参数 拿wiki 数据 放笔记本上训练一下 直接可以问模型一些哲学问题了。
相反汉语呢? 这个向量怎么也得是3000维吧? 还是常用字,汉语wiki上的汉字 想完全覆盖怎么也得10000维。 根本没法做。


IP属地:美国1楼2015-12-07 09:03回复
    感兴趣的可以看看下面这个blog
    http://karpathy.github.io/2015/05/21/rnn-effectiveness/
    论文就不放了


    IP属地:美国2楼2015-12-07 09:05
    回复
      汉语wiki就是垃圾


      IP属地:四川4楼2015-12-07 21:10
      回复