분류 전체보기
-
Big query를 이용한, 데이터 추출카테고리 없음 2020. 3. 5. 20:34
앱에 대한 사용성 데이터에는 크게 Firebase 기본 통계치 와 직접 함수를 삽입하여 수집하는 통계치들이 있다. 모두 Firebase에서 수집되고 어느정도 dash board를 통해, 시각화를 자동적으로 해준다. 하지만, 데이터를 다양한 방식으로 보기위해서는 계속해서 추출 방식을 새롭게 정의해주어야한다. 즉, Raw data에서 필요한 조건에 따라 새롭게 데이터를 추출할 필요가 있었다. 이번 시간에는 Raw data를 다양한 방식으로 뽑아내기 위한 SQL문을 다룰 것이다. 이때 Non-SQL의 대세인(그보다..지금 써본? ㅎㅎ) Big query를 써볼 것이다. 다음은 빅쿼리에서 Standard SQL 문법을 간단하게 소개하고 있다. {기본 SQL 형식} SELECT * FROM '프로젝트.데이터셋.테..
-
KoNLpy 텍스트 빈도수 체크카테고리 없음 2020. 3. 5. 00:08
앞서 웹에 있는 텍스트 데이터를 수집했다면, 이번에는 데이터를 가지고 간단하게 가공해보고 시각화해보는 작업을 할 예정이다. 앱에 대한 사용성 피드백을 체크하던 중, 평점이 낮은 데이터에 대한 리뷰를 가지고 시각화해보는 작업이 사용자 피드백을 점검하는데 효과적일 수 있다는 생각을 하면서 시작하게 됐다. KoNLpy는 텍스트 마이닝을 위한 라이브러리에서 한국어에 최적되어, 한글을 분석하는데 효과적이다. 하지만, 윈도우 환경에서는 몇가지 설치 과정이 필요하다. 1. 자바설치: https://java.com/ko/download/ 2. JPype(>=0.5.7) 다운로드 설치 * 윈도우 환경 설정: https://blog.naver.com/myincizor/221624979283 윈도우에 KoNLPy 설치 방법..
-
[python] Review web Crawling 쉽게 쉽게!카테고리 없음 2020. 3. 4. 22:42
인턴과정을 진행중, Firebase의 기반으로 수집된 앱 사용성 데이터 이외에 정성적인 데이터에 대한 분석에 관심이 갔다. 앱에서 정석적인 데이터라하면, 사용자자 앱마켓에 올리는 리뷰 의견이 대표적으로 볼 수 있다. 이번 시간에는 구글 앱에서 리뷰에 대한 크롤링 작업이다. 참고할 좋은 자료가 있어 이해한 과정을 순서대로 적어볼 생각이다. from bs4 import BeautifulSoup as BS from selenium import webdriver import re from selenium.webdriver.common.keys import Keys import time import csv 일단, 웹 크롤링을 위해 셀레니움 webdriver와 beautifulsoup 라이브러리이다. F12를 눌러..