尊敬的各位老师、前辈,我在清洗CHARLS数据库的过程中遇到一些问题,求各位老师、前辈赐教。
问题一、在清洗CHARLS数据库的过程中,发现其中不同部分的数据量不太一样,有的是一万一千多,有的是一万九千多,这种情况是为什么呢?在清洗过程中应该怎样处理呢?
而且那些一万一千多数据量的部分也有问题,比如我设置的隔代照料与健在子女数量变量,1为有隔代照料,2为没有隔代照料,3为没有孙子女,“.”为缺失值,缺失值比较少,我把2、3、“.”都设置为“0”,没有隔代照料。
而在健在子女数量变量中,有一万多个是缺失值,这种情况不能把这些都列入“没有子女”吧,不知道怎么处理了。
问题二、在清洗2018年CHARLS数据中,打算设置一个户口类型变量,农业为0,非农业为1,可是在问卷里,如果受访者回答目前的户口类型和上次调查一样时就不再追问户口类型为何,也就是说我在清洗数据时只能得到改变了户口类型的受访者的数据,其他有一万八千多缺失值,我去2015年数据库去找,也是一样的,有一万四千多缺失值,这种时候怎么清洗这个变量呢?



问题一、在清洗CHARLS数据库的过程中,发现其中不同部分的数据量不太一样,有的是一万一千多,有的是一万九千多,这种情况是为什么呢?在清洗过程中应该怎样处理呢?
而且那些一万一千多数据量的部分也有问题,比如我设置的隔代照料与健在子女数量变量,1为有隔代照料,2为没有隔代照料,3为没有孙子女,“.”为缺失值,缺失值比较少,我把2、3、“.”都设置为“0”,没有隔代照料。
而在健在子女数量变量中,有一万多个是缺失值,这种情况不能把这些都列入“没有子女”吧,不知道怎么处理了。
问题二、在清洗2018年CHARLS数据中,打算设置一个户口类型变量,农业为0,非农业为1,可是在问卷里,如果受访者回答目前的户口类型和上次调查一样时就不再追问户口类型为何,也就是说我在清洗数据时只能得到改变了户口类型的受访者的数据,其他有一万八千多缺失值,我去2015年数据库去找,也是一样的,有一万四千多缺失值,这种时候怎么清洗这个变量呢?



