European hotel reviews analysis

En primer lugar cargamos las librerías que necesitamos. Utilizamos la librería tydiverse que engloba muchas de las que vamos a necesitar posteriormente (dplyr, lubridate, plotly…)

Análisis del conjunto de datos

Cargamos los datos desde el csv en el dataframe llamado ‘reviews’.

Código

Copiar

Vamos a extraer algo de información. En primer lugar, un resumen de los datos:

##                                                                         Hotel_Address   
##  163 Marsh Wall Docklands Tower Hamlets London E14 9SJ United Kingdom          :  4789  
##  372 Strand Westminster Borough London WC2R 0JJ United Kingdom                 :  4256  
##  Westminster Bridge Road Lambeth London SE1 7UT United Kingdom                 :  4169  
##  Scarsdale Place Kensington Kensington and Chelsea London W8 5SY United Kingdom:  3578  
##  7 Pepys Street City of London London EC3N 4AF United Kingdom                  :  3212  
##  1 Inverness Terrace Westminster Borough London W2 3JP United Kingdom          :  2958  
##  (Other)                                                                       :492776  
##  Additional_Number_of_Scoring    Review_Date     Average_Score  
##  Min.   :   1.0               8/2/2017 :  2585   Min.   :5.200  
##  1st Qu.: 169.0               9/15/2016:  2308   1st Qu.:8.100  
##  Median : 341.0               4/5/2017 :  2284   Median :8.400  
##  Mean   : 498.1               8/30/2016:  1963   Mean   :8.397  
##  3rd Qu.: 660.0               2/16/2016:  1940   3rd Qu.:8.800  
##  Max.   :2682.0               7/5/2016 :  1904   Max.   :9.800  
##                               (Other)  :502754                  
##                                              Hotel_Name    
##  Britannia International Hotel Canary Wharf       :  4789  
##  Strand Palace Hotel                              :  4256  
##  Park Plaza Westminster Bridge London             :  4169  
##  Copthorne Tara Hotel London Kensington           :  3578  
##  DoubleTree by Hilton Hotel London Tower of London:  3212  
##  Grand Royale London Hyde Park                    :  2958  
##  (Other)                                          :492776  
##                  Reviewer_Nationality    Negative_Review  
##   United Kingdom           :245246    No Negative:127890  
##   United States of America : 35437     Nothing   : 14295  
##   Australia                : 21686     Nothing   :  4236  
##   Ireland                  : 14827     nothing   :  2225  
##   United Arab Emirates     : 10235     N A       :  1037  
##   Saudi Arabia             :  8951     None      :   984  
##  (Other)                   :179356    (Other)    :365071  
##  Review_Total_Negative_Word_Counts Total_Number_of_Reviews
##  Min.   :  0.00                    Min.   :   43          
##  1st Qu.:  2.00                    1st Qu.: 1161          
##  Median :  9.00                    Median : 2134          
##  Mean   : 18.54                    Mean   : 2744          
##  3rd Qu.: 23.00                    3rd Qu.: 3613          
##  Max.   :408.00                    Max.   :16670          
##                                                           
##       Positive_Review   Review_Total_Positive_Word_Counts
##  No Positive  : 35946   Min.   :  0.00                   
##   Location    :  9222   1st Qu.:  5.00                   
##   Everything  :  2284   Median : 11.00                   
##   location    :  1677   Mean   : 17.78                   
##   Nothing     :  1243   3rd Qu.: 22.00                   
##   The location:  1126   Max.   :395.00                   
##  (Other)      :464240                                    
##  Total_Number_of_Reviews_Reviewer_Has_Given Reviewer_Score  
##  Min.   :  1.000                            Min.   : 2.500  
##  1st Qu.:  1.000                            1st Qu.: 7.500  
##  Median :  3.000                            Median : 8.800  
##  Mean   :  7.166                            Mean   : 8.395  
##  3rd Qu.:  8.000                            3rd Qu.: 9.600  
##  Max.   :355.000                            Max.   :10.000  
##                                                             
##                                                                                                                 Tags       
##  [' Leisure trip ', ' Couple ', ' Double Room ', ' Stayed 1 night ', ' Submitted from a mobile device ']          :  5101
##  [' Leisure trip ', ' Couple ', ' Standard Double Room ', ' Stayed 1 night ', ' Submitted from a mobile device '] :  4931
##  [' Leisure trip ', ' Couple ', ' Superior Double Room ', ' Stayed 1 night ', ' Submitted from a mobile device '] :  4366
##  [' Leisure trip ', ' Couple ', ' Deluxe Double Room ', ' Stayed 1 night ', ' Submitted from a mobile device ']   :  3991
##  [' Leisure trip ', ' Couple ', ' Double Room ', ' Stayed 2 nights ', ' Submitted from a mobile device ']         :  3291
##  [' Leisure trip ', ' Couple ', ' Superior Double Room ', ' Stayed 2 nights ', ' Submitted from a mobile device ']:  3102
##  (Other)                                                                                                          :490956
##  days_since_review      lat             lng        
##  1 days :  2585    Min.   :41.33   Min.   :-0.370  
##  322 day:  2308    1st Qu.:48.22   1st Qu.:-0.143  
##  120 day:  2284    Median :51.50   Median : 0.011  
##  338 day:  1963    Mean   :49.44   Mean   : 2.824  
##  534 day:  1940    3rd Qu.:51.52   3rd Qu.: 4.834  
##  394 day:  1904    Max.   :52.40   Max.   :16.429  
##  (Other):502754    NA's   :3268    NA's   :3268

Además del resumen que la función summary nos ofrece, detectamos algunas cosas:

Vemos que los campos Review_Total_Negative_Word_Counts y Review_Total_Positive_Word_Counts que nos indican el recuento de palabras de los comentarios positivos y negativos tienen como valor mínimo 0. Revisamos si hay campos vacíos.
Tenemos que convertir el campo fecha al formato de fecha.
En el campo Tags se repite un patrón de características del viaje que tendremos que analizar y desglosar.
En el campo days_since_review todos los registros incluyen ‘day’ al final. Nos interesa eliminarlo para poder hacer cálculos con este campo más facilmente.

Además vemos que tenemos la información de los hoteles con sus direcciones y coordenadas. Intentaremos extraer el país en el que se encuentra cada hotel. De esta forma podremos extraer información del origen y destino de los turistas.

Preparación de los datos

Vamos a resolver algunas preguntas iniciales.

¿Cuántos hoteles tenemos? Calculamos el número unico de hoteles y de direcciones. Así nos aseguramos de que no tengamos dos hoteles que se llamen igual en diferentes ubicaciones.

Código

Copiar

Resultado

Copiar

Código

Copiar

Resultado

Copiar

Tenemos 1492 y 1493 direcciones por lo que, efectivamente, tenemos 2 hoteles que se llaman igual pero se encuentran en dos ubicaciones diferentes. Es algo que tendremos que tener en cuenta durante todo el análisis posterior que hagamos.

Y ahora veamos las nacionalidades de los clientes.

Código

Copiar

Resultado

Copiar

Tenemos 227 nacionalidades diferentes.

Vamos a preparar algunos datos que necesitamos. En primer lugar vamos a asignar el formato de fecha a la variable que contiene la fecha en la que se realizó la review. Para ello vamos a utilizar el paquete lubridate

Código

Copiar

También vamos a asegurarnos de que nuestros campos de texto no tengan fallos. Para ello vamos a eliminar los espacios del principio y final con la función str_trim. Lo aplicamos a las variables del nombre del hotel, de la dirección y de los comentarios positivos y negativos de los clientes.

Código

Copiar

Vamos ahora a convertir el campo days_since_review a numérico eliminando la coletilla ‘days’ y revisamos cuántos valores distintos tenemos.

Código

Copiar

Resultado

Copiar

Código

Copiar

Resultado

Copiar

##   [1] "0"       "3"       "10"      "17"      "25"      "26"      "27"     
##   [8] "28"      "30"      "31"      "34"      "35"      "44"      "45"     
##  [15] "52"      "54"      "66"      "68"      "70"      "73"      "74"     
##  [22] "79"      "84"      "86"      "93"      "98"      "99"      "105 day"
##  [29] "106 day" "107 day" "109 day" "111 day" "115 day" "120 day" "127 day"
##  [36] "134 day" "136 day" "137 day" "138 day" "140 day" "150 day" "164 day"
##  [43] "167 day" "170 day" "175 day" "178 day" "186 day" "188 day" "190 day"
##  [50] "196 day" "207 day" "217 day" "218 day" "225 day" "226 day" "227 day"
##  [57] "231 day" "232 day" "233 day" "234 day" "235 day" "236 day" "239 day"
##  [64] "261 day" "269 day" "270 day" "274 day" "276 day" "277 day" "281 day"
##  [71] "282 day" "283 day" "294 day" "295 day" "296 day" "301 day" "303 day"
##  [78] "310 day" "318 day" "319 day" "325 day" "328 day" "337 day" "355 day"
##  [85] "369 day" "372 day" "373 day" "379 day" "382 day" "385 day" "390 day"
##  [92] "394 day" "397 day" "400 day" "402 day" "412 day" "413 day" "424 day"
##  [99] "428 day" "432 day" "438 day" "443 day" "453 day" "457 day" "459 day"
## [106] "464 day" "466 day" "467 day" "468 day" "471 day" "473 day" "478 day"
## [113] "483 day" "485 day" "492 day" "498 day" "501 day" "504 day" "505 day"
## [120] "506 day" "509 day" "519 day" "520 day" "521 day" "530 day" "534 day"
## [127] "535 day" "540 day" "541 day" "542 day" "543 day" "546 day" "547 day"
## [134] "548 day" "549 day" "555 day" "558 day" "562 day" "566 day" "569 day"
## [141] "576 day" "578 day" "579 day" "581 day" "586 day" "590 day" "597 day"
## [148] "599 day" "604 day" "609 day" "613 day" "618 day" "625 day" "627 day"
## [155] "628 day" "631 day" "632 day" "636 day" "639 day" "641 day" "643 day"
## [162] "644 day" "647 day" "648 day" "650 day" "651 day" "652 day" "654 day"
## [169] "655 day" "656 day" "659 day" "669 day" "673 day" "674 day" "675 day"
## [176] "677 day" "678 day" "683 day" "685 day" "691 day" "692 day" "696 day"
## [183] "698 day" "700 day" "702 day" "704 day" "707 day" "708 day" "709 day"
## [190] "714 day" "716 day" "720 day" "723 day" "728 day" "730 day" "12"     
## [197] "15"      "22"      "24"      "39"      "40"      "47"      "51"     
## [204] "59"      "80"      "91"      "92"      "94"      "97"      "101 day"
## [211] "114 day" "121 day" "143 day" "146 day" "149 day" "152 day" "169 day"
## [218] "171 day" "176 day" "179 day" "181 day" "182 day" "185 day" "191 day"
## [225] "193 day" "194 day" "211 day" "212 day" "219 day" "240 day" "248 day"
## [232] "249 day" "288 day" "289 day" "304 day" "340 day" "341 day" "342 day"
## [239] "354 day" "359 day" "360 day" "361 day" "366 day" "370 day" "376 day"
## [246] "380 day" "392 day" "403 day" "425 day" "426 day" "430 day" "431 day"
## [253] "439 day" "441 day" "447 day" "460 day" "465 day" "476 day" "480 day"
## [260] "490 day" "494 day" "495 day" "508 day" "513 day" "518 day" "523 day"
## [267] "525 day" "528 day" "559 day" "565 day" "570 day" "573 day" "582 day"
## [274] "598 day" "602 day" "616 day" "621 day" "623 day" "630 day" "645 day"
## [281] "646 day" "653 day" "660 day" "668 day" "671 day" "672 day" "684 day"
## [288] "687 day" "688 day" "694 day" "697 day" "699 day" "711 day" "712 day"
## [295] "717 day" "718 day" "725 day" "1"       "14"      "16"      "37"     
## [302] "41"      "53"      "57"      "64"      "69"      "82"      "90"     
## [309] "102 day" "116 day" "125 day" "129 day" "130 day" "145 day" "147 day"
## [316] "148 day" "154 day" "156 day" "165 day" "172 day" "174 day" "180 day"
## [323] "192 day" "197 day" "199 day" "200 day" "202 day" "206 day" "216 day"
## [330] "220 day" "224 day" "228 day" "230 day" "238 day" "243 day" "244 day"
## [337] "253 day" "260 day" "262 day" "263 day" "264 day" "268 day" "271 day"
## [344] "273 day" "284 day" "285 day" "286 day" "291 day" "292 day" "299 day"
## [351] "308 day" "309 day" "312 day" "333 day" "343 day" "345 day" "350 day"
## [358] "352 day" "364 day" "365 day" "401 day" "408 day" "415 day" "418 day"
## [365] "419 day" "423 day" "440 day" "442 day" "444 day" "449 day" "454 day"
## [372] "461 day" "463 day" "469 day" "472 day" "481 day" "482 day" "487 day"
## [379] "489 day" "493 day" "497 day" "499 day" "500 day" "503 day" "512 day"
## [386] "514 day" "516 day" "517 day" "522 day" "526 day" "527 day" "529 day"
## [393] "532 day" "537 day" "538 day" "539 day" "545 day" "550 day" "557 day"
## [400] "560 day" "563 day" "571 day" "583 day" "585 day" "587 day" "588 day"
## [407] "594 day" "596 day" "611 day" "614 day" "615 day" "635 day" "649 day"
## [414] "665 day" "2"       "8"       "18"      "46"      "72"      "85"     
## [421] "100 day" "144 day" "163 day" "166 day" "168 day" "173 day" "189 day"
## [428] "198 day" "203 day" "205 day" "246 day" "247 day" "254 day" "266 day"
## [435] "272 day" "279 day" "302 day" "305 day" "311 day" "313 day" "321 day"
## [442] "334 day" "336 day" "344 day" "346 day" "347 day" "348 day" "349 day"
## [449] "357 day" "367 day" "387 day" "389 day" "391 day" "396 day" "407 day"
## [456] "409 day" "422 day" "429 day" "433 day" "434 day" "435 day" "446 day"
## [463] "448 day" "451 day" "486 day" "488 day" "496 day" "502 day" "507 day"
## [470] "510 day" "511 day" "515 day" "524 day" "531 day" "533 day" "536 day"
## [477] "544 day" "551 day" "564 day" "567 day" "574 day" "595 day" "600 day"
## [484] "605 day" "610 day" "661 day" "662 day" "664 day" "667 day" "670 day"
## [491] "676 day" "681 day" "686 day" "29"      "33"      "50"      "78"     
## [498] "81"      "104 day" "151 day" "155 day" "157 day" "160 day" "177 day"
## [505] "215 day" "221 day" "222 day" "223 day" "241 day" "242 day" "245 day"
## [512] "252 day" "275 day" "278 day" "293 day" "297 day" "298 day" "306 day"
## [519] "307 day" "314 day" "322 day" "327 day" "331 day" "338 day" "363 day"
## [526] "371 day" "374 day" "377 day" "386 day" "393 day" "398 day" "414 day"
## [533] "417 day" "420 day" "436 day" "445 day" "456 day" "458 day" "470 day"
## [540] "474 day" "484 day" "553 day" "554 day" "568 day" "577 day" "580 day"
## [547] "584 day" "591 day" "593 day" "603 day" "606 day" "612 day" "622 day"
## [554] "634 day" "637 day" "640 day" "642 day" "680 day" "693 day" "695 day"
## [561] "713 day" "719 day" "721 day" "727 day" "23"      "60"      "63"     
## [568] "65"      "71"      "87"      "88"      "95"      "118 day" "124 day"
## [575] "128 day" "133 day" "135 day" "139 day" "142 day" "161 day" "184 day"
## [582] "204 day" "208 day" "209 day" "213 day" "214 day" "237 day" "255 day"
## [589] "256 day" "258 day" "265 day" "267 day" "290 day" "317 day" "324 day"
## [596] "335 day" "351 day" "356 day" "362 day" "381 day" "383 day" "388 day"
## [603] "395 day" "406 day" "410 day" "427 day" "450 day" "452 day" "479 day"
## [610] "491 day" "552 day" "561 day" "572 day" "589 day" "592 day" "617 day"
## [617] "619 day" "620 day" "624 day" "658 day" "682 day" "701 day" "705 day"
## [624] "20"      "32"      "36"      "42"      "43"      "48"      "49"     
## [631] "55"      "56"      "58"      "67"      "76"      "108 day" "110 day"
## [638] "112 day" "113 day" "117 day" "119 day" "123 day" "126 day" "131 day"
## [645] "132 day" "141 day" "162 day" "183 day" "187 day" "201 day" "229 day"
## [652] "250 day" "251 day" "257 day" "280 day" "315 day" "326 day" "329 day"
## [659] "332 day" "339 day" "353 day" "358 day" "375 day" "378 day" "399 day"
## [666] "404 day" "405 day" "437 day" "462 day" "556 day" "601 day" "626 day"
## [673] "638 day" "657 day" "679 day" "690 day" "706 day" "710 day" "722 day"
## [680] "724 day" "726 day" "4"       "21"      "38"      "62"      "103 day"
## [687] "153 day" "159 day" "195 day" "259 day" "287 day" "320 day" "330 day"
## [694] "368 day" "384 day" "455 day" "475 day" "575 day" "607 day" "666 day"
## [701] "715 day" "729 day" "411 day" "421 day" "608 day" "629 day" "663 day"
## [708] "689 day" "703 day" "477 day" "633 day" "5"       "9"       "13"     
## [715] "75"      "77"      "89"      "122 day" "158 day" "300 day" "416 day"
## [722] "61"      "210 day" "316 day" "323 day" "83"      "6"       "11"     
## [729] "7"       "96"      "19"

Observamos que en algunos campos se utilizaba el término ‘day’ y en otros el término ‘days’. Vamos a eliminar también en los que incluyen ‘day’.

Código

Copiar

Y ya podemos convertir este campo a numérico:

Código

Copiar

Vamos a revisar que no haya errores en los campos de comentarios positivos y negativos. Para ello seleccionamos las filas que tienen 0 en el recuento de palabras de comentario positivo y vemos qué valores contienen.

Código

Copiar

Resultado

Copiar

Vemos que el único valor que contienen en ‘No positive’ por lo que está todo correcto. Hacemos lo mismo con los comentarios negativos:

Código

Copiar

Resultado

Copiar

Y vemos que sólo contienen el valor ‘No Negative’. Deducimos, por tanto, que el recuento de palabras se ha hecho previo a la limpieza de datos y los campos vacíos se han sustituido por ‘No positive’ y ‘No negative’.

Código

Copiar

Obtener el país del hotel

Queremos obtener el país de cada hotel. Para ello vamos a utilizar las coordenadas pero nos faltan las de algunos hoteles. Para no perder estos datos, vamos a completar los datos del dataset.

En primer lugar revisamos los valores NA que tenemos en los campos de latitud y longitud.

Código

Copiar

Resultado

Copiar

Código

Copiar

Resultado

Copiar

Vemos que tenemos 3268 valores en los que falta la latitud y la longitud. Aunque podríamos descartarlos no queremos perder información. Los aislamos para trabajar con ellos:

Código

Copiar

Como tenemos demasiados registros, vamos a ver de los hoteles que no tenemos las coordenadas:

Código

Copiar

Resultado

Copiar

Código

Copiar

Resultado

Copiar

Tenemos los 17 hoteles mostrados. Vamos a obtener las coordenadas de sus direcciones. Para ello vamos a utilizar el servicio de geocoding de Google con el paquete ggmap (para esto tenemos que configurar nuestra API Key del servicio de Google, lo cual hemos hecho previamente en R siguiendo las instrucciones del paquete ggmap).

Código

Copiar

Código

Copiar

Resultado

Copiar

## Source : https://maps.googleapis.com/maps/api/geocode/json?address=20+Rue+De+La+Ga+t+14th+arr+75014+Paris+France&key=xxx
## "20 Rue De La Ga t..." not uniquely geocoded, using "20 rue de la gaité, 75014 paris, france"
## Source : https://maps.googleapis.com/maps/api/geocode/json?address=23+Rue+Damr+mont+18th+arr+75018+Paris+France&key=xxx
## Source : https://maps.googleapis.com/maps/api/geocode/json?address=4+rue+de+la+P+pini+re+8th+arr+75008+Paris+France&key=xxx
## Source : https://maps.googleapis.com/maps/api/geocode/json?address=Bail+n+4+6+Eixample+08010+Barcelona+Spain&key=xxx
## Source : https://maps.googleapis.com/maps/api/geocode/json?address=Gr+nentorgasse+30+09+Alsergrund+1090+Vienna+Austria&key=xxx
## Source : https://maps.googleapis.com/maps/api/geocode/json?address=Hasenauerstra+e+12+19+D+bling+1190+Vienna+Austria&key=xxx
## Source : https://maps.googleapis.com/maps/api/geocode/json?address=Josefst+dter+Stra+e+10+12+08+Josefstadt+1080+Vienna+Austria&key=xxx
## Source : https://maps.googleapis.com/maps/api/geocode/json?address=Josefst+dter+Stra+e+22+08+Josefstadt+1080+Vienna+Austria&key=xxx
## Source : https://maps.googleapis.com/maps/api/geocode/json?address=Landstra+er+G+rtel+5+03+Landstra+e+1030+Vienna+Austria&key=xxx
## Source : https://maps.googleapis.com/maps/api/geocode/json?address=Paragonstra+e+1+11+Simmering+1110+Vienna+Austria&key=xxx
## Source : https://maps.googleapis.com/maps/api/geocode/json?address=Pau+Clar+s+122+Eixample+08009+Barcelona+Spain&key=xxx
## Source : https://maps.googleapis.com/maps/api/geocode/json?address=Savoyenstra+e+2+16+Ottakring+1160+Vienna+Austria&key=xxx
## Source : https://maps.googleapis.com/maps/api/geocode/json?address=Sep+lveda+180+Eixample+08011+Barcelona+Spain&key=xxx
## Source : https://maps.googleapis.com/maps/api/geocode/json?address=Sieveringer+Stra+e+4+19+D+bling+1190+Vienna+Austria&key=xxx
## Source : https://maps.googleapis.com/maps/api/geocode/json?address=Taborstra+e+8+A+02+Leopoldstadt+1020+Vienna+Austria&key=xxx
## Source : https://maps.googleapis.com/maps/api/geocode/json?address=W+hringer+Stra+e+12+09+Alsergrund+1090+Vienna+Austria&key=xxx
## Source : https://maps.googleapis.com/maps/api/geocode/json?address=W+hringer+Stra+e+33+35+09+Alsergrund+1090+Vienna+Austria&key=xxx

Ya tenemos las coordenadas de los hoteles que nos faltaban. Vamos a asignarlas al dataframe original. Primero nos quedamos sólo con las columnas que nos interesan para hacer un inner join. Nos quedamos con la dirección del hotel (recordamos que era fundamental utilizar la dirección y no el nombre para evitar errores) y la latitud y longitud. También eliminamos las columnas de longitud y latitud de nuestro dataframe con todos los NA para asignarle las nuevas calculadas.

Finalmente hacemos la unión de las direcciones con sus latitudes y longitudes.

Código

Copiar

Resultado

Copiar

Ahora eliminamos las filas con las latitudes y longitudes NA en nuestro dataset principal y añadimos estas mismas filas ya con los datos completos:

Código

Copiar

Ya tenemos las coordenadas de todos nuestros hoteles.

Ahora, utilizando la librería rworldmap y la función coords2country que creamos, vamos a convertir esas coordenadas en países.

Código

Copiar

Código

Copiar

Ya lo tenemos. Vamos a ver de cuántos países tenemos información:

Código

Copiar

Resultado

Copiar

Código

Copiar

Resultado

Copiar

Vemos que tenemos hoteles de 6 países, en concreto Holanda, Reino Unido, Francia, España, Italia y Austria.

Comprobamos que no tengamos campos vacíos:

Código

Copiar

Resultado

Copiar

Y revisamos que no tengamos valores NA en ningún otro campo:

Código

Copiar

Resultado

Copiar

##                              Hotel_Address 
##                                          0 
##               Additional_Number_of_Scoring 
##                                          0 
##                                Review_Date 
##                                          0 
##                              Average_Score 
##                                          0 
##                                 Hotel_Name 
##                                          0 
##                       Reviewer_Nationality 
##                                          0 
##                            Negative_Review 
##                                          0 
##          Review_Total_Negative_Word_Counts 
##                                          0 
##                    Total_Number_of_Reviews 
##                                          0 
##                            Positive_Review 
##                                          0 
##          Review_Total_Positive_Word_Counts 
##                                          0 
## Total_Number_of_Reviews_Reviewer_Has_Given 
##                                          0 
##                             Reviewer_Score 
##                                          0 
##                                       Tags 
##                                          0 
##                          days_since_review 
##                                          0 
##                                        lat 
##                                          0 
##                                        lng 
##                                          0 
##                              Hotel_country 
##                                          0

No tenemos ningún NA en nuestros datos. Ahora vamos a revisar el campo Tags que es un poco más compleja porque agrupa mucha información.

Código

Copiar

Resultado

Copiar

Lo primero que observamos es que incluye 4 o 5 variables que podemos clasificar como: Tipo de viaje, si viaja solo o acompañado (en grupo, en familia), tipo de habitación, las noches que se ha alojado en el hotel y si la reserva se ha realizado desde un dispositivo móvil. También observamos que no todas las filas tienen todos los tags, lo cual nos complica un poco la tarea de limpieza de datos. Por otro lado, vemos que tiene 55242 combinaciones diferentes de etiquetas, aunque la mayoría de etiquetas se repiten, siendo todas ellas combinaciones de diferentes opciones.

Vamos a ver cuántas etiquetas posibles tenemos

Código

Copiar

Resultado

Copiar

Tenemos casi 2500 etiquetas.

Sabemos que una de las opciones es que los clientes viajen con mascota (With a pet). Vamos a incluir este dato como una columna adicional:

Código

Copiar

Resultado

Copiar

Observamos que hay 1405 clientes que viajaron con mascota. Hagamos lo mismo para ver cuántos clientes publicaron su review desde el móvil o tablet:

Código

Copiar

Resultado

Copiar

Aquí vemos que hay más de 300.000 usuarios que hicieron la reseña desde un dispositivo móvil por los 200.000 que no lo hicieron de esta forma.

Otro de los datos que hemos visto que incluían las etiquetas era el número de noches. Vamos a extraer este dato de los clientes que lo tengamos.

Código

Copiar

Resultado

Copiar

Tenemos algunos datos desconocidos y otros que varían entre 1 y 31 noches.

Vamos a crear una función que nos permitirá comprobar si en el campo tags tenemos alguna de las líneas que nos indica cuántas noches se alojó el cliente y lo añadimos a una nueva columna de nuestro dataframe llamada nights:

Código

Copiar

Resultado

Copiar

## 
##            Other   Stayed 1 night Stayed 10 nights Stayed 11 nights 
##              192           193645              889              418 
## Stayed 12 nights Stayed 13 nights Stayed 14 nights Stayed 15 nights 
##              316              246              247              117 
## Stayed 16 nights Stayed 17 nights Stayed 18 nights Stayed 19 nights 
##               57               42               33               29 
##  Stayed 2 nights Stayed 20 nights Stayed 21 nights Stayed 22 nights 
##           133937               19               23               10 
## Stayed 23 nights Stayed 24 nights Stayed 25 nights Stayed 26 nights 
##               10                6                7                7 
## Stayed 27 nights Stayed 28 nights Stayed 29 nights  Stayed 3 nights 
##               11                7                5            95821 
## Stayed 30 nights Stayed 31 nights  Stayed 4 nights  Stayed 5 nights 
##               11                1            47817            20845 
##  Stayed 6 nights  Stayed 7 nights  Stayed 8 nights  Stayed 9 nights 
##             9776             7399             2502             1293

Código

Copiar

Resultado

Copiar

Código

Copiar

Observamos que sólo tenemos 192 valores desconocidos, lo cual está muy bien. 190.000 turistas se alojaron una noche, 134.000 lo hicieron dos noches y 95.000 pernoctaron 3 noches. A partir de aquí la cifra desciende progresivamente.

Ahora vamos a eliminar los tags que ya hemos utilizado de nuestra lista y seguimos explorando:

Código

Copiar

También hemos visto que los comentarios podían venir de clientes que hiciesen el viaje por ocio (Leisure trip) o por trabajo (Business trip). Vamos a revisar que sólo tengamos esas dos opciones y creamos el campo ‘trip’ en nuestro dataframe con este valor:

Código

Copiar

Resultado

Copiar

Código

Copiar

Resultado

Copiar

Vemos que la mayoría de nuestros clientes (más de 400.000) viaja por ocio, unos 80.000 viajan por trabajo y de unos 15.000 desconocemos este dato.

Código

Copiar

Vemos que muchos de los otros tags que encontramos hacen referencia al tipo de habitación. En este caso no lo vamos a utilizar ya que vemos que hay miles de valores posibles, lo cual no es útil para nuestro análisis y el posterior modelo, y además es un valor que no es útil para analizar entre diferentes hoteles ya que pueden utilizar diferentes nombres para idénticos servicios.

Así pues, eliminamos las referencias que no nos interesan. Para ello vamos a descartar los tags que contengan palabras que habitualmente podemos asociar al tipo de habitación:

Código

Copiar

Resultado

Copiar

Código

Copiar

Resultado

Copiar

Ya tenemos un grupo muy reducido de 24 tags entre los que nos encontramos con algunos muy específicos de algún hotel que no habíamos tenido en cuenta y otros que nos sugieren que también tenemos las reviews etiquetadas según si el viaje se ha hecho en pareja, en familia… Vamos a seleccionar estas etiquetas y añadirlas a nuestro dataframe:

Código

Copiar

Resultado

Copiar

En este caso vemos que no tenemos ningún valor ‘Other’ lo cual significa que hemos extraído este tag para todos nuestros registros. 250.000 clientes viajaron en pareja y 100.000 lo hicieron solos, el resto se reparten entre familias, grupos y viajes con amigos.

Antes de acabar vamos a eliminar la columna Tags de nuestros datos, ya que la hemos desgranado en los campos que nos interesaban y no necesitamos mantenerla como tal.

Código

Copiar

Análisis exploratorio

Ya tenemos nuestros datos preparados, ahora vamos a ver qué información podemos extraer de ellos.

Vamos a trabajar un modelo de machine learning que nos ayude a predecir la puntuación de los clientes sobre un hotel así que vamos a analizar la variable de la puntuación de los hoteles y las puntuaciones de los clientes.

Veamos qué puntuación tenemos de los hoteles de cada país.

Código

Copiar

Vemos que la puntuación media está sobre 8.5 excepto Italia (veíamos al inicio que la media de este campo era de 8.4), que es un poco inferior. El hotel con la puntuación más alta está en Francia y la más baja en Italia. Descubrimos también que ningún hotel tiene una puntuación inferior a 5. El Reino Unido es el que tiene la mayor dispersión en las puntuaciones con bastantes hoteles con puntuaciones inferiores.

Vamos a ver cómo se reparten las valoraciones de los clientes.

Código

Copiar

Vemos que la puntuación que más dan los clientes de de 10 y que la tendencia es clara hacia las puntuaciones altas. Vemos también que, en general, las puntuaciones fluctúan evitando los números redondos y que tienden hacia valores intermedios con decimales. Esto se puede deber a cómo se calculan las puntuaciones, ya que a veces es la media de varias puntuaciones a aspectos específicos. Curiosamente, esta norma se ‘rompe’ en el caso del 5, donde vemos que si que hay un repunte de puntuaciones.

Veamos los resultados con un histograma.

Código

Copiar

Obviamente el resultado es parecido. Destacan las valoraciones que dan 10 puntos y el número de valoraciones desciende a medida que lo hacen las puntuaciones.

Con estos gráficos también verificamos que no hay ningún dato incorrecto ya que ninguna puntuación se sale de los valores que podíamos esperar (no hay valores negativos ni mayores de 10).

Para profundizar un poco en el análisis podemos sacar estos datos desglosados por país de destino:

Código

Copiar

No detectamos que haya grandes variaciones entre la distribución de las puntuaciones entre los distintos países. En todos los casos vemos que aumentan las puntuaciones a partir del 7.

Vamos a ver cuántas reviews incluyen comentarios positivos por país. Calculamos también la media y la representamos en el gráfico para tener ese valor como referencia.

Código

Copiar

Vemos que el 93% de las reviews incluyen comentarios positivos sobre el hotel o la estancia. España es el país que destaca ligeramente, Italia se queda en la media y Reino Unido es el único país que baja la media.

¿Y cobre los comentarios negativos? Hacemos lo mismo que con los positivos.

Código

Copiar

La media baja hasta el 75% de los clientes que deja comentarios negativos sobre su estancia. Reino Unido es el único destino que supera este umbral, seguido de Italia que está justo en la media.

Vemos que Reino Unido también es el país del que tenemos más reviews, lo cual puede afectar a los resultados antes vistos ya que tiene más peso en los cálculos.

Código

Copiar

De hecho, vemos que 400 de los 1493 hoteles que tenemos son de United Kingdom.

Código

Copiar

Resultado

Copiar

Vamos a ver de qué países a qué destinos viajan los turistas. Cargamos el paquete networkD3 que utilizaremos después, creamos un nuevo dataframe con los valores que necesitamos y creamos el diagrama con la librería plotly. Convertimos los países a texto y creamos un vector con todos los países que tenemos en nuestros datos:

Código

Copiar

Código

Copiar

Debido a la gran variedad de países de origen no podemos ver demasiado a simple vista pero sí que podemos extraer alguna conclusión. Por ejemplo, a pesar de que United Kingdom tiene la mayoría de los hoteles, tiene turistas de 199 países por los 180 de Holanda y España o los 200 de Francia. Asimismo 170.000 de los 245.000 turistas de UK viajan dentro del país.

Para obtener algo más de información, vamos a hacer el mismo cálculo pero por continente en vez de por país. Lo hacemos con la librería networkD3 que hemos cargado antes.

Código

Copiar

En este caso los datos están muy repartidos pero podemos igualmente sacar algunas conclusiones: Desde África y América se viaja más a Francia y Reino Unido que al resto de países. El resto de casos no cuenta con grandes diferencias.

Antes hemos sacado las variables de tipo de viaje y motivo del viaje. Vamos a ver cómo se correlacionan:

Código

Copiar

Este sencillo histograma nos muestra algo que a priori parece obvio y es que las personas que viajan por trabajo suelen hacerlo en solitario, mientras que las pareja, los grupos y las familias suelen hacerlo por placer.

Vamos a analizar brevemente los comentarios que escriben los clientes sobre los hoteles. Tenemos los campos del recuento de palabras de los comentarios positivos y negativos. Vamos a enfrentarlos con las puntuaciones de los clientes:

Código

Copiar

En el caso de los comentarios positivos vemos que hay una tendencia a que sean más largos cuando las puntuaciones son buenas. En el caso de los comentarios negativos vemos que hay mucha mayor densidad de comentarios largos y aumenta en las puntuaciones bajas y se concentra por debajo de las 200 palabras en las puntuaciones altas.

Por lo tanto, podemos considerar que estos dos campos pueden ser buenos indicadores de la puntuación del cliente, puesto que existe una tendencia, aunque no determinante dado su gran dispersión.

Con el campo de ‘Positive review’ y ‘Negative review’ que hemos sacado antes, vamos a ver si estos afectan a la puntuación.

Código

Copiar

Efectivamente, las reviews que incluyen comentarios positivos tienden a puntuar más alto, mientras que las valoraciones con comentarios negativos puntúan más bajo. De hecho, vemos que la mayoría de reviews sin comentarios negativos se concentra en puntuaciones muy altas. Otros buen indicador para nuestro modelo.

Ahora veamos lo mismo pero con el campo de si el comentario se ha realizado desde el móvil o no.

Código

Copiar

En este caso vemos que no hay ninguna relación entre la puntuación y si el comentario se realizó desde el móvil o no. Por lo tanto, podemos descartar esta variable de nuestro modelo.

Veamos qué pasa según el motivo del viaje:

Código

Copiar

En este caso vemos pequeñas variaciones. Las puntuaciones en los viajes de placer suele ser superior a la de los viajes de trabajo.

¿Y por tipo de viaje? Lo vemos en este gráfico.

Código

Copiar

Aquí sí que vemos claramente que en los viajes con amigos la puntuación suele ser más alta mientras que los que viajan solos suelen ser los que más bajo puntúan. Las estancias de viajes en pareja también suelen recibir buenas puntuaciones.

También tenemos el dato de valoraciones que tiene el hotel. Vamos a ver si afecta a la puntuación:

Código

Copiar

En este caso, nuevamente, vemos que no hay ninguna relación por lo que podemos descartar esta variable de nuestro modelo posterior.

¿Qué pasa cuando los clientes se alojan más días? Vamos a ver la puntuación según las noches que se alojaron los clientes.

Código

Copiar

Como es lógico, en las estancias cortas las puntuaciones se reparten mucho pero sí que observamos que, a medida que el número de noches aumenta, las puntuaciones también lo hacen.

¿Y la fecha tiene algo que ver con la puntuación?

Código

Copiar

Vemos que los registros se distribuyen linealmente en el tiempo y que no parece haber ninguna relación entre la fecha y la puntuación que los clientes dan al hotel. Podemos descartar, por lo tanto, tanto esta variable como la que indica los días desde la review que es un cálculo derivado de ésta.

Otro dato que tenemos el el número de reviews que ha publicado un usuario. Nuevamente vemos si tiene relación con la puntuación otorgada:

Código

Copiar

Nuevamente observamos cierta tendencia a que, a mayor número de reviews, más valoraciones positivas.

Creación del modelo

Terminado el análisis, vamos a preparar nuestro modelo de aprendizaje para prever las valoraciones de los clientes. Antes de empezar vamos a limpiar nuestro espacio de trabajo para liberar recursos:

Código

Copiar

Vamos a crear el modelo. Primero preparamos los datos seleccionando las variables que vamos a utilizar y eliminando las que hemos descartado.

Código

Copiar

Predicciones con el paquete Caret

En este caso vamos a utilizar el paquete caret y sus opciones para hacer nuestro modelo con el algoritmo MARS Cargamos el paquete Caret y hacemos nuestras particiones de test y entrenamiento.

Dado que tenemos un conjunto de datos muy grande, y tras hacer varias pruebas, hemos detectado que con el 40% de los registros para entrenamiento obtenemos un buen resultado, y el mismo no mejora incluyendo más datos en nuestro conjunto de entrenamiento.

Código

Copiar

Revisamos que se mantengan las proporciones.

Código

Copiar

Resultado

Copiar

Código

Copiar

Resultado

Copiar

## 
##          2.5          2.9            3          3.1          3.3 
## 4.184966e-03 3.241329e-03 6.140104e-05 1.615817e-05 5.348354e-03 
##          3.5          3.8            4          4.2          4.4 
## 1.615817e-04 7.969209e-03 1.906664e-04 1.012471e-02 2.262144e-05 
##          4.5          4.6            5          5.4          5.5 
## 2.520674e-04 1.194089e-02 1.602244e-02 1.835245e-02 3.974910e-04 
##          5.6          5.8            6          6.3          6.5 
## 3.231634e-05 2.335502e-02 4.847451e-04 2.880355e-02 6.754115e-04 
##          6.7          6.9            7          7.1          7.5 
## 3.650454e-02 4.847451e-05 7.949819e-04 4.862316e-02 6.741188e-02 
##          7.9            8          8.1          8.3          8.5 
## 6.405745e-02 1.040586e-03 7.109594e-05 7.970825e-02 9.888799e-04 
##          8.8            9          9.2          9.4          9.5 
## 9.011734e-02 1.208631e-03 1.135047e-01 1.324970e-04 1.402529e-03 
##          9.6           10 
## 1.381136e-01 2.246341e-01

Observamos que las proporciones se mantienen en la mayoría de casos.

Vamos a revisar las variables con varianza cercana a cero

Código

Copiar

Resultado

Copiar

Eliminamos estas variables dado que podrían desvirtuar nuestro modelo:

Código

Copiar

Tenemos la variable ‘pet’ que tiene una varianza cercana a cero por lo que la eliminamos de nuestro modelo

En este caso no tenemos ninguna variable altamente correlada por lo que mantenemos todas en nuestro modelo.

Ahora preparamos los datos con la función preprocess para poder aplicar el modelo.

Código

Copiar

Código

Copiar

Aplicamos el modelo de regresión MARS con el método ‘earth’. Nuevamente, y tras diversas pruebas, detectamos que con los parámetros abajo indicados obtenemos un rendimiento aceptable y aumentando el numero de repeticiones no mejoramos el resultado.

Así que procedemos a ejecutar nuestro modelo con los parámetros que hemos detectado como óptimos.

Código

Copiar

Código

Copiar

Resultado

Copiar

Caret nos indica el mejor modelo en función de las simulaciones calculadas. En este caso obtenemos un modelo que es capaz de predecir las puntuaciones de los clientes con una variación de un punto. Vemos también que el valor MAE de nuestro modelo final es menor, lo cual nos indica que predice bastante bien la mayoría de puntuaciones aunque en algunas puntuales la desviación sea mayor.

Vemos el resumen del modelo.

Código

Copiar

Resultado

Copiar

## Call: earth(x=data.frame[206297,11], y=c(6.5,4.6,9.2,7...), keepxy=TRUE,
##             degree=1, nprune=9)
## 
##                                                 coefficients
## (Intercept)                                        8.0952048
## tripLeisuretrip                                    0.2405547
## h(-1.0885-Average_Score)                          -0.4659006
## h(Average_Score- -1.0885)                          0.3873920
## h(-0.354518-Review_Total_Negative_Word_Counts)     2.5294754
## h(Review_Total_Negative_Word_Counts- -0.354518)   -0.8048758
## h(Review_Total_Negative_Word_Counts-1.42566)       0.5892174
## h(-0.358885-Review_Total_Positive_Word_Counts)    -2.9380072
## h(Review_Total_Positive_Word_Counts- -0.358885)    0.1716905
## 
## Selected 9 of 10 terms, and 4 of 50 predictors
## Termination condition: RSq changed by less than 0.001 at 10 terms
## Importance: Review_Total_Negative_Word_Counts, ...
## Number of terms at each degree of interaction: 1 8 (additive model)
## GCV 1.60737    RSS 331541    GRSq 0.4000619    RSq 0.4001549

Revisamos cuál es el mejor modelo con el campo bestTune.

Código

Copiar

Resultado

Copiar

Y lo vemos un una gráfica.

Código

Copiar

Observamos también la importancia de cada variable en nuestro modelo.

Código

Copiar

Así pues, ya podemos crear las predicciones de nuestro modelo de test

Código

Copiar

Resultado

Copiar

Y observamos cómo se comporta respecto a las observaciones.

Código

Copiar

Resultado

Copiar

Vemos que, aunque en algunos casos tenemos cierta desviación, los datos obtenidos con nuestro modelo se aproximan bastante a las observaciones reales.

Finalmente podemos calcular los valores RMSE, R2 y MAE de nuestro modelo para ver si el resultado obtenido es bueno.

Código

Copiar

Resultado

Copiar

Observamos que los valores son casi idénticos a los de nuestro modelo por lo que podemos concluir que nuestro modelo es fiable.

Visualización de datos

El proyecto, además, cuenta con una visualización de datos interactiva realizada con Tableau para analizar todos los datos. Puedes consultar la visualización en el siguiente enlace.

VER VISUALIZACIÓN

Análisis del conjunto de datos

Preparación de los datos

Obtener el país del hotel

Análisis exploratorio

Creación del modelo

Predicciones con el paquete Caret

Visualización de datos

Trackin cookies