본문 바로가기

Cheon/일상

[컨퍼런스] 정리

2012 database grand conference   - 2012.10.17


Tutorial 1: 실질적 성과를 얻기 위한 세 가지의 빅 데이터 융합 분석 (위세아이텍 김종현 CEO)


 주제: 빅데이터를 이용하여 실질적인 성과를 얻기위한 접근 방법을 살펴보고 실질적인 개발 사례를 들어 설명함.

 내용

 빅데이터 이용을 위한 접근 방법

  - 데이터의 융합: 비정형적 비구조화되어 있는 데이터를 어떤 식으로 구조화하여 사용할 것인지

    예) SNS 글, 각종 센서에 의한 데이터, 각종 사용 로그, 히스토리형 데이터 등

    

  - 플랫폼의 융합: 빅데이터를 이용하기 위한 플랫폼 구성을 고려

    예) 분산 처리 시스템, ETL, FUSE, RDBMS, OLAP 등의 시스템을 현재 하고자 하는 시스템을 위해 어떻게 구성할 것인지

  

  - 분석 방법의 융합: 빅데이터 분석을 위한 각종 분석 방법 선택

    예) 키워드 분석, 다차원 분석, 예측 분석, Ad hoc Query, 데이터 품질관리 방법 등

 

 1. 개발 사례 

   1) 게임 업체 

     한국에서 만들어진 글로벌 게임에 대한 유저들의 사용 패턴을 파악하고자 하여 각종 행동 로그성 데이터를 수접한다.(사용자 정보, 캐릭터 정보,아이템 정보, 결제정보등)

     이때 모든 데이터를 한국의 특정 시스템에 유럽 미주 등의 모든 데이터를 저장하기에는 Network, 성능, 속도 부분에서의 무리가 있어 클라우드 시스템을 사용하여 데이터를 수집하고,

     수집된 데이터와 RDBMS 시스템에 저장된 데이터를 복합적으로 분석한다. 

   2) 제조 업체 

     대용량 데이터 분석을 위해 클라우드 환경아래 RDB 기반의 BI를 구성함. (환경아래 RDB 기반의 BI를 구성 방법에 대한 설명은 이해하지 못하거나 못들었음)

 

 2. 캠페인 성과 관리

   고객 반응 데이터(행동 패턴을 나타낼 수 있는  데이터?)를 저장, 분석하여 Next 캠페인에 대한 대상 선별을 위한 기본 자료로 활용하는 흐름에서도 Hadoop 시스템을 이용 데이터 관리 


 3. SNS 분석

   고객의 정형(이름, 팔로워수, 카운트, 좋아요,... ), 비정형(글, 답변글, 사용로그) 데이터를 기반 분석을 통해 고객의 성향 파악하여 

   최적의 대상고객을 선정하여 마케팅하는 고객 선정 프로파일링 모델에 대한 연구 설명

   * 굳이 외부 데이터를 수집 저장할 필요 없이 결과만 수신하는 모델


 그외,  공공정보 Open API를 이용에 대한 설명

 

Tutorial 2: DBMS 시장의 주요 동향 - DBMS 다변화와 빅데이터 전략


 주제: 현재 한국 DBMS 시장의 실태와 문제점, 그리고 동향

 - DB 시장이 계속해서 커나가는데도 불구하고 70% 이상의 업체가 Oracle에 의존적임.

 - DBMS 아키텍처의 진화

   1. 각각의 벤더, 소규모 시스템 존재

    변화: 데이터 량의 증가

   2. 각 사이트당 한벤더로 시스템 통합

    변화: 성능, 가용성 중요

   3. 한 벤더의 시스템으로 집중

 - 빅데이터에 대한 부가적인 필요사항: 확장성의 효율화(RDBMS 시스템 유지, MPP 처리가 가능하면서)

   답은? Tibero.


Tutorial 3: Planning for a Smooth Transition to In-Memory Solutions

  주제: 요구사항에 맞추어 데이터 저장 및 활요할 수 있는 구조를 나누라.

  - 빠른 응답속도를 위해서는 In-Memory 기술을 사용하여야 하고, 이 부분을 나누어 활용하도록 한다에 중점적으로 설명함. 

   답은? Altibase


Track

1. 데이터 하키텍트의 하루 (엔코아, 문태식 이사)

 주제: 자동화 툴과 올바른 문서 관리를 통해 데이터를 잘 관리하자? (데이터 처리 체계에 대한 설명)

  1. DB 모니터링 툴을 통해 변화를 감지하고 추적할 수 있도록 함.

  2. 작업 SQL 에 대한 메타 정보 관리를 철저히 하여 추가 수정 삭제시 빠른 응답속도가 나올 수 있도록 함. 

  3. 데이터 표준화 단어 사전을 통해 수정에 대한 사항 자동 변환 시스템? - 모델링 관련 

  4. 추가 생성 모델에 대한 타 모델 유사도 검증울 통해 통합 분할 결정 - 모델링 관련 

  5. 데이터 모델링 시 자동 오류 발생하여 작업 시간 최소화 - 모델링 관련 

  6. 매핑정의서 -> ETL 작업 자동변환 - ETL 설계                                                          * ODi Interpreter  와 일맥 상통 *

  7. 데이터 흐름 추적을 통해 원인 파악 및 조치 - 데이터 흐름 분석                                        * ODI Data Lineage 와 일맥 상통 *

  8. 데이터 프로파일링 - 데이터 품질 관리 

  

 * 데이터 품질 관리 프로세스

   데이터 표준 관리 

   데이터 모델 관리 - Object에 대한 표준

   데이터베이스 관리 - 속성, 사이즈, 분산분배 원칙, ETL 매핑 정보, Appication Meta

   데이터 품질 관리

   메다데이터 분석

   데이터 흐름 관리 - Data Lineage ( ETl 뿐만 아니라 ... )

   

   그리고 나서, 데이터 분석 해야 정확한 데이터를 얻을 수 있다.

   

2. 비정형 텍스트 빅데이터 분석과 기준 데이터의 관리방법 및 사례소개 (솔트룩스, 최광선 본부장)

 주제: 비정형 텍스트 데이너 분석

 주요 용어: 여론 분석, 미디어 빅데이터, Text 마이닝 (솔트룩스에서 운영중인 트루스토리 사이트를 예로 들어 설명함)

  * 가장 중요한 부분은 목적이다. - '무엇을 위해서 작업을 하고자 하는가'

    그 목적을 위한 데이터 수집후 분석 작업 진행 절차 설명

  * 텍스트 마이닝에서의 주핵심은 기준데이터 품질관리. 단어 용어 사전에 따라 해석이 전혀 달라 질 수 있다. 

    관건은 단어사전.

    

3. 건강보험심사평가원 데이터표준화 추진 사례 (건강보험심사평가원, 인병욱 대리)

 주제: 데이터 표준화

  * 데이터 표준화를 건강보험심사평가원에서 구축한 프로젝트 설명을 통해 설명하고자 함.

    프로젝트 중심의 설명, 이해 못함

  * IT 인력 뿐만 아니라 현업과의 소통이 데이터 품질 프로젝트 성공의 키워드다. 라고 해석함.

  

4. 마스터데이터를 이용한 공공 정보 서비스 혁신 전략 (아인스에스엔씨, 황철현 이사)

 주제: 모델링 변화에 대한 영향도 최소화 방안 설명? 

 MDM 에 관련된 세션으로 이해하고 참석하였으나, 모델링 기법에 대한 설명.

 서비스 모델의 변화로 모델링도 계속 변화할 수 박에 없는데 이를 최소화하기 위해서는 Master Data(여기서는 코드성 데이터를 의미)를 

 타 엔티티 모델과 분류하여야 한다. 그렇게 되면 모델 변경을 최소화 할 수 있다. 

 

5. MoSQL can be replaced with Relational DBMS? (KAIST 이윤준 교수)

 주제 RDBMS를 제외한 나머지 Database 에 대한 종류와 설명

  - 기대를 많이 하였으나 DBMS 종류에 대한 설명위조로 진행함.

    제목에 대한 답은 오라클은 살아남는다. 영향범위가 줄어들 수 있지만.

  * NoSQL은 확장성이 좋은 대신 데이터에 대한 ACID 를 제공해 주지 못함(그중 Consistency가 젤 영향이 큼).

  * 중요한 OLTP 시스템에서는 절대 사용하지 않는 것이 좋고, 중복저장이나, 일부가 저장되지 않아도 괜찮은 시스템에서는 앞으로 계속적으로 구축량이 증가할 것으로 보임.

  * DBMS는 종류가 여려개 있는데 그 중 몇개만 설명.

    - Key Value: 데이터를 JAVA 맵 객체 형태로(Key, Value) 형태로 저장, Equal 조건 검색만 가능, hash 방법 사용한다고, 

    - Document Store: 비정형 적인 데이터를 저장, 검색을 위한 Tag 사용

      예) MongoDB

    - Column Families: 컬럼단위의 데이터 관리. 설명 잘 이해 못했음

      예) 하둡, 카산드라


**************************************************

빅데이터를 이용하여 알고자 하는 것을 분석하는 것은 기존의 분석 기법과 별반 다르지 않다. 

빅데이터를 잘 이용하기 위해서는 혁신적인 서비스 모델이 선행되어야 한다. 

**************************************************