我有许多具有房屋功能的数据库,例如:类型(住宅,工业),位置,层数,每平方米价格,房屋面积。这些都是我的变量。我也有唯一的代码号(每个房子一个代码)。我有17个数据库。从2000年到2017年。每年一个Excel文件。在每个excel文件中,有50张纸(每个州一张纸),上面有房屋的位置以及它们的几个功能(我之前提到过)。每个州的所有数据库都有不同数量的观测值(房屋数量)。他们保留了上一年的观察结果,并在明年增加了一些观察结果。例如,在2000年的数据库中,在一种状态(一张Excel工作表)中,我有100个观察值。但是第二年会有40多个观测结果。
这是一张工作表(您可以在Rstudio中运行它):
MERGE into feepay.TRPT_W2_REPORTS TRPT1
USING(
WITH RWS AS
(SELECT PROG.BINCLIENT,TRPT.PUT_DIRECTORY
FROM feepay.program2 PROG
INNER JOIN feepay.TRPT_W2_PROGRAMS TRPT
ON (PROG.BINCLIENT = TRPT.BINCLIENT OR PROG.ISSUER_ID = TRPT.ISSUER_ID))
SELECT TCI.CUSTOMERNAME AS accOUNT,TC.CUSTOMER_ID AS urn,TC.LAST_NAME,TC.FIRST_NAME,TC.DOB,TCA.ADDRESS
FROM feepay.TAU_CARDNUMberS TCN
INNER JOIN feepay.TAU_CUSTOMER_CARDNUMber TCCN ON (TCN.CARDNUMber_ID = TCCN.CARDNUMber_ID)
INNER JOIN feepay.TBLCUSTOMERS TC ON (TCCN.CUSTOMER_ID = TC.CUSTOMER_ID)
LEFT JOIN feepay.tau_customeraddress TCA ON (TC.CUSTOMER_ID = TCA.CUSTOMER_ID)
INNER JOIN feepay.TAU_ISSUER TI ON (TI.ISSUER_ID = TCN.ISSUER_ID)
INNER JOIN feepay.TBLCUSTOMERS TCI ON (TCI.CUSTOMER_ID = TI.CUSTOMER_ID)
LEFT JOIN feepay.TRPT_W2_REPORTS TRPT ON (TRPT.URN = TC.CUSTOMER_ID)
WHERE BINCLIENT IN (SELECT BINCLIENT FROM RWS)
AND TC.CUSTOMERNAME NOT IN ('freepay card','svds card')) TRPT2
ON (TRPT1.URN = TRPT2.URN)
WHEN MATCHED THEN
UPDATE SET
TRPT1.accOUNT = TRPT2.accOUNT,TRPT1.LAST_NAME = TRPT2.LAST_NAME,TRPT1.FIRST_NAME = TRPT2.FIRST_NAME,TRPT1.DOB = TRPT2.DOB,TRPT1.ADDRESS = TRPT2.ADDRESS,TRPT1.LAST_UPDATE = now(),TRPT1.STATUS = 'u' /* uPDATED */
WHEN NOT MATCHED THEN
INSERT (accOUNT,URN,LAST_NAME,FIRST_NAME,ISENTITY,DOB,ADDRESS,LAST_UPDATE,STATUS)
VALUES (TRPT2.accOUNT,TRPT2.URN,TRPT2.LAST_NAME,TRPT2.FIRST_NAME,'y',TRPT2.DOB,TRPT2.MIDDLE_NAME,TRPT2.ADDRESS,now(),'i');
所以我想开发一个GIS模型财产评估模型,该模型可以帮助那些重视房地产的人大致了解某个州可能的价格范围。因此,其想法是可视化包含所有这些州的地图,并在所有地图中查看价格范围(即每平方米500-2000美元)。这应该由一种颜色的不同阴影表示。深色阴影将是最昂贵的(州)。
因此第一步是组织数据。我想查看各州房屋价格的一些趋势(从2000年到2017年)以及一些统计信息(均值,中位数等)。最后,我应该如何组织数据来开发房价地理参考模型?我是否应该创建一个数据库,其中包含每个州的所有观测值(所有年份)?每个Excel工作表将包含每个状态的所有观察结果(从2000年至2017年)。
预先感谢您:)