당신은 주제를 찾고 있습니까 “자연어 처리 프로젝트 – 위키독스 1,000명 이상의 추천, Best 3위 『딥러닝을 이용한 자연어처리 입문』 저자의 이야기 | 러닝스푼즈“? 다음 카테고리의 웹사이트 https://you.maxfit.vn 에서 귀하의 모든 질문에 답변해 드립니다: https://you.maxfit.vn/blog/. 바로 아래에서 답을 찾을 수 있습니다. 작성자 러닝스푼즈 – 성장이 필요한 순간 이(가) 작성한 기사에는 조회수 32,210회 및 좋아요 171개 개의 좋아요가 있습니다.
자연어 처리 프로젝트 주제에 대한 동영상 보기
여기에서 이 주제에 대한 비디오를 시청하십시오. 주의 깊게 살펴보고 읽고 있는 내용에 대한 피드백을 제공하세요!
d여기에서 위키독스 1,000명 이상의 추천, Best 3위 『딥러닝을 이용한 자연어처리 입문』 저자의 이야기 | 러닝스푼즈 – 자연어 처리 프로젝트 주제에 대한 세부정보를 참조하세요
#자연어처리 #딥러닝 #성장
\”자연어처리, AI 제가 시작할 때도 이미 핫한 분야였지만, 그 당시 관련 자료는 많지 않았어요.\”
\”그러니까 제가 시작해도 늦지 않겠다고 생각했죠.\”
컴퓨터공학과를 졸업해 대기업 S사 인프라에서 자연어처리를 하게 된 계기는?
업무 특성상 안정적인 것을 추구하는 인프라가 적성에 맞지 않아 ‘자연어처리’를 시작하셨다고 하는데요.
국내에도 단 4-5권 밖에 없는 자연어처리 도서를 쓰게 된 계기와 그 모든 스토리를 확인할 수 있습니다!
자연어처리 저자님이 직접 알려주는 한국의 자연어처리 실태와 희망사항 그리고 앞으로의 꿈까지!
자연어처리의 선구자인 유원준 강사님의 이야기 함께하세요. 😉
🔥 성장이 필요한 순간 🔥 ——————–
러닝스푼즈 홈페이지 : https://learningspoons.com
러닝스푼즈 기업교육 : https://learningspoons.com/website/contact/b2b/
자연어 처리 프로젝트 주제에 대한 자세한 내용은 여기를 참조하세요.
간단한 단어분류 프로젝트를 통한 자연어처리 이해
우선 자연어처리 프로젝트의 workflow를 간단하게 살펴보면 다음과 같습니다. 데이터. 목적에 필요한 정답이 포함된 데이터를 수집하거나 직접 생성 …
Source: paul-hyun.github.io
Date Published: 12/20/2021
View: 70
[5분 NLP] NLP 공부 시작하기
최근 딥러닝이 각광받으면서 자연어처리(NLP) 분야에도 매우 큰 발전이 있었습니다. … 나만의 NLP 프로젝트를 진행 해보고 싶다.
Source: facerain.club
Date Published: 6/15/2021
View: 3355
인공지능(AI) 및 자연어 처리(NLP)를 이용한 건설 프로젝트 계약 …
과제목표인공지능(AI) 및 자연어 처리(NLP)를 이용하여 건설 프로젝트의 계약문서에서 정의된 요구조건을 자동추출하고 분류하는 기법을 개발하여, 자동 추출된 요구 …
Source: scienceon.kisti.re.kr
Date Published: 6/20/2022
View: 7280
Best Choice 자연어 처리 프로젝트 New Update
01/07/2021 · 최종 프로젝트 – 자연어 처리. Listeria 2021. 7. 1. 03:19. 최종 프로젝트로 소개팅 코스를 추천해주는 소개팅 앱을 만들기로 하였다.
Source: th.foci.com.vn
Date Published: 3/16/2021
View: 1126
딥러닝을 활용한 자연어 처리 프로젝트 (NLP Classification) (1/2)
이번주 저희의 목표는 Text 속에서 의미있는 정보를 추출하고 분석하는 NLP 와 관련된 프로젝트를 수행합니다. NLP 는 한국어로 자연어 처리를 의미하고, …
Source: honeycomb-makers.tistory.com
Date Published: 7/10/2021
View: 7004
NLP 비전공자가 챗봇 프로젝트를 구현하기까지 – 브런치
Universtiy of California, San Diego에서 Political Science을 전공해 멀티캠퍼스와 과학기술정보통신부가 주관하는 인공지능 자연어 처리 교육과정을 …
Source: brunch.co.kr
Date Published: 7/12/2022
View: 5623
자연어 처리(NLP) 프로젝트를 구성하고 관리하는 방법 – Quish
자연어 처리(NLP) 프로젝트를 구성하고 관리하는 방법. 블로그. ML 업계에서 일하면서 배운 것이 하나 있다면 다음과 같습니다. 기계 학습 프로젝트는 지저분합니다.
Source: ko.quish.tv
Date Published: 6/10/2022
View: 207
딥러닝 자연어처리 학습내용 정리 – 1 – velog
서론. 학부시절 산학협력프로젝트로 모 IT기업과 자연어처리 기반 영화 추천 시스템을 만들었던 적이 있다. 당시에 영화 댓글 기반, 별점 기반 추천 …
Source: velog.io
Date Published: 3/11/2022
View: 139
NLP 첫걸음! 자연어 처리 입문 완벽 가이드 | 러닝스푼즈
9시간 30분 분량의 과정으로 텍스트 데이터 수집부터 분석모델 도입 프로젝트까지 학습하실 수 있도록 모든 과정을 담았습니다. 한국어 위주의 자연어 전처리 과정. 최근 …
Source: learningspoons.com
Date Published: 5/9/2021
View: 479
주제와 관련된 이미지 자연어 처리 프로젝트
주제와 관련된 더 많은 사진을 참조하십시오 위키독스 1,000명 이상의 추천, Best 3위 『딥러닝을 이용한 자연어처리 입문』 저자의 이야기 | 러닝스푼즈. 댓글에서 더 많은 관련 이미지를 보거나 필요한 경우 더 많은 관련 기사를 볼 수 있습니다.
주제에 대한 기사 평가 자연어 처리 프로젝트
- Author: 러닝스푼즈 – 성장이 필요한 순간
- Views: 조회수 32,210회
- Likes: 좋아요 171개
- Date Published: 2020. 7. 20.
- Video Url link: https://www.youtube.com/watch?v=M6BqqKPkV3o
간단한 단어분류 프로젝트를 통한 자연어처리 이해
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43
class SimpleDataSet ( torch . utils . data . Dataset ): “”” 데이터셋 클래스 “”” def __init__ ( self , inputs , labels ): “”” 생성자 :param inputs: 입력 :param labels: 정답 “”” self . inputs = inputs self . labels = labels def __len__ ( self ): “”” 데이터셋 길이 “”” assert len ( self . inputs ) == len ( self . labels ) return len ( self . labels ) def __getitem__ ( self , index ): “”” 데이터 한 개 조회 :param index: 데이터 위치 “”” return ( torch . tensor ( self . inputs [ index ]), torch . tensor ( self . labels [ index ]), ) def collate_fn ( self , batch ): “”” batch단위로 데이터 처리 :param batch: batch 단위 데이터 “”” inputs , labels = list ( zip ( * batch )) inputs = torch . nn . utils . rnn . pad_sequence ( inputs , batch_first = True , padding_value = 0 ) labels = torch . nn . utils . rnn . pad_sequence ( labels , batch_first = True , padding_value = 0 ) batch = [ inputs , labels , ] return batch
[5분 NLP] NLP 공부 시작하기
NLP 공부 어떻게 시작할까요?
최근 딥러닝이 각광받으면서 자연어처리(NLP) 분야에도 매우 큰 발전이 있었습니다. 이에 NLP에 대한 관심이 뜨거워지고 있습니다. 하지만 막상 NLP 공부를 시작하자니 어떻게 시작하면 좋을지 막막해 하시는 분들이 많습니다.
필자 또한 NLP 공부를 처음 시작할 때 컴퓨터 비전 등의 타 분야에 비해 턱없이 부족한 자료로 이리저리 헤매며 힘들게 공부했었던 경험이 있습니다. 이에 조금이라도 쉽고 편하게 NLP를 공부할 수 있도록 필자 나름의 가이드라인을 공유하고자 합니다.
어떤 분들이 읽으면 좋나요?
NLP를 공부하고 싶은데 어디서부터 공부해야할지 모르겠다 .
. 나만의 NLP 프로젝트를 진행 해보고 싶다.
해보고 싶다. 최신 NLP 트렌드를 이해 하고 싶다.
하고 싶다. NLP를 본격적으로 공부(연구)하기 전 NLP 기초 지식을 쌓고 싶다.
세부적인 NLP 이론보다는 NLP의 큰 그림을 이해하는 것 에 포커스를 두었습니다. 더 나아가 간단한 NLP 서비스를 개발 하고, BERT나 GPT-3 등 최신 NLP 트렌드를 이해 할 수 있는 역량을 쌓는 것이 목표입니다.
필요한 배경 지식이 있나요?
파이썬 기초
모르는 파이썬 문법이나 코드가 나와도 책이나 구글링으로 찾아보며 이해할 수 있는 수준이면 충분하다고 생각합니다! 파이썬을 공부하는 방법 은 이미 인터넷 상에 많이 나와있으니 자세한 설명은 생략 하겠습니다.
이외에도 선형대수, 미분방정식과 같은 수학적 지식들과 머신러닝/딥러닝을 알고 있으면 보다 NLP를 수월하게 공부할 수 있습니다. 하지만 지금 당장 이들을 몰라도 공부하는데 큰 지장은 없습니다. 오히려 NLP를 공부하면서 이들 지식의 필요성을 느끼고 함께 공부한다면, 더 큰 학습 효과를 누릴 수 있다고 생각합니다.
학습 가이드 선정 기준
이 글을 읽으시는 분들 중 대부분 혼자서 공부하는 학생 또는 주니어 개발자가 많을 것이라 생각됩니다. 이에 학습 가이드라인 선정 기준으로 딥러닝과 NLP 입문자가 혼자서 충분히 공부할 수 있는 난이도인지 고려하였습니다.
0. 워밍업하기 – 위클리 NLP
https://jiho-ml.com/tag/weekly-nlp/
구글에서 컴퓨터 언어학자로 재직하시는 박지호님께서 연재하시는 NLP 튜토리얼입니다. 누구나 이해할 수 있는 친절한 설명이 특징으로 NLP 기초를 쌓기에 제격입니다. 2021.11.26 기준 Week 46까지 공개되었으며 지금도 꾸준히 연재되고 있습니다. 기초적인 NLP 지식부터 BERT나 GPT와 같은 최신 NLP 기술까지 다루고 있어 전체적인 NLP의 원리와 흐름을 이해할 수 있습니다. 본격적으로 NLP를 공부하기 전 위클리 NLP 내용을 쭉 읽고 정리한다면 앞으로의 NLP 공부에 매우 큰 도움이 됩니다.
jiho-ml님의 Weekly NLP
1. 딥러닝 기초 쌓기 – 모두를 위한 딥러닝 시즌 2
https://deeplearningzerotoall.github.io/season2/
최신 NLP 기술의 대부분은 딥러닝에 기반하였다 해도 과언이 아닙니다. 따라서 딥러닝에 대한 이해가 반드시 필요합니다. 이를 위해 모두를 위한 딥러닝 시즌2를 추천합니다. 풍부한 강의 영상과 실습 코드로 딥러닝에 대한 이해와 Pytorch와 Tensorflow와 같은 딥러닝 프레임워크 사용법을 익힐 수 있습니다.
모두를 위한 딥러닝 시즌 2
Q. Pytorch와 Tensorflow 중 어떤 프레임워크를 선택해야 하나요?
A. 필자의 개인적인 의견으로 Pytorch를 추천합니다. Tensorflow는 최근에 버전 1에서 2로의 큰 업데이트가 있었습니다. 이에 코드의 많은 부분이 변경되어 입문자 입장에서 학습하는데 혼란이 있을 수 있습니다. 또한 Pytorch가 Tensorflow에 비해 난이도가 쉽다는 의견이 많아 Pytorch를 첫 딥러닝 프레임워크로 추천합니다.
2. NLP, 본격적으로 공부해보자! – graykode/nlp-tutorial
https://github.com/graykode/nlp-tutorial
지금까지 전반적인 NLP 개념들과 딥러닝 기초를 익혔습니다. 이제 본격적으로 NLP 주요 모델들을 직접 파이썬으로 구현해봅시다. 학습 자료로 graykode님의 nlp-tutorial을 추천합니다. 위클리 NLP에서 간단하게나마 배웠던 RNN, Attention, BERT등의 핵심 NLP 모델들을 100줄 이내의 깔끔한 코드로 직접 구현해볼 수 있습니다. 또한 관련 논문도 수록되어 있어 욕심 있다면 더욱 깊이 있는 학습이 가능합니다.
graykode님의 nlp-tutorial
3. 실제 데이터에 활용해보자! – 텐서플로 2와 머신러닝으로 시작하는 자연어 처리
이제 데이터셋을 활용하여 NLP 문제를 해결해볼 시간입니다. 본 책은 실제 데이터셋을 활용하여 텍스트 분류, 유사도 분석, 챗봇 구현 등의 NLP 문제를 해결합니다. 데이터셋을 활용하여 데이터를 전처리하고 모델을 학습시키는 등 전체적인 NLP 개발 프로세스를 숙달할 수 있습니다.
텐서플로 2와 머신러닝으로 시작하는 자연어 처리
4. 더 깊게 공부해보자! NLP
최근에 NLP 기술은 폭발적으로 성장하고 있고 공부할거리 또한 무궁무진합니다. NLP를 더욱 깊게 공부하고 싶으신 분들을 위해 몇 가지 방향을 안내드리고자 합니다.
4-1. NLP 토이 프로젝트 진행하기
이론과 실전은 다르다는 말이 있습니다. 이제 예제를 따라하는 것이 아닌 자신이 직접 실제 데이터 셋을 가지고 모델을 개발해봅시다. 게임 내의 악성 채팅을 필터링하는 모델, 뉴스 기사를 한 줄로 요약해주는 모델 등 우리 주변에 NLP를 활용할 수 있는 재밌는 프로젝트가 매우 많이 있습니다.
Q. 모델 학습에 필요한 데이터셋은 어디서 구할 수 있나요?
A. 학습 데이터셋은 직접 웹 크롤링을 하거나 AI Hub와 같은 사이트에서 구할 수 있습니다.
AI Hub에서 공개한 한국어 텍스트 데이터셋들
4-2. 논문 읽고 구현하기
NLP를 깊게 공부하기에는 사실 논문만한 것이 없습니다. 자신이 관심 있는 주제의 논문부터 가볍게 읽어보는 것을 추천합니다. 최신 NLP 연구 트렌드를 이해하고 실력도 크게 향상시킬 수 있습니다.
Google Scholar에서 원하는 키워드의 논문을 검색하는 방법이 있습니다. 아니면 NLP Top Conference에서 그 해 발표한 논문들을 살펴보는 방법이 있습니다. NLP Top Conference에 대한 자세한 소개는 링크를 참고해주세요!
4-3. 경진 대회에 참여하기
Kaggle, Dacon 등의 데이터 사이언스 경진 플랫폼이 있습니다. 또한 매년 상시적으로 KaKao Arena, Naver AI Rush 등의 데이터 사이언스 경진대회가 개최되기도 합니다. 이들 경진대회에 참여한다면 실력도 기르고 우수한 결과물에 대해서는 상금이나 입사 혜택도 받을 수 있습니다.
Kakao Arena 경진대회
Reference
[보고서]인공지능(AI) 및 자연어 처리(NLP)를 이용한 건설 프로젝트 계약 요구조건 디지털화
초록
▼
□ 과제목표
인공지능(AI) 및 자연어 처리(NLP)를 이용하여 건설 프로젝트의 계약문서에서 정의된 요구조건을 자동추출하고 분류하는 기법을 개발하여, 자동 추출된 요구조건 정보를 체계적으로 관리하고 사용의 지속성을 갖도록 IFC…
□ 과제목표
인공지능(AI) 및 자연어 처리(NLP)를 이용하여 건설 프로젝트의 계약문서에서 정의된 요구조건을 자동추출하고 분류하는 기법을 개발하여, 자동 추출된 요구조건 정보를 체계적으로 관리하고 사용의 지속성을 갖도록 IFC 데이터 표준과 호환 가능한 EXPRESS 언어로 스키마를 구축하여 향후 빅데이터로 축적하고 활용하는 것을 목표로 한다.
□ 주요내용
본 연구는 5개의 세부 목표를 가지고 있으며 총 18개월 동안 연구를 수행하고자 한다. 인공지능(AI) 및 자연어 처리 (NLP) 기술 개발에 연구역량을 집중하기 위해 분석을 위한 자료인 Texas A&M에서 기수집한 건설 프로젝트 계약문서의 분석을 통해 다음의 연구를 수행하고자 한다.
(1) 건설 프로젝트 계약문서의 엔지니어링적 특성과 구조를 고려한 자연어 처리(NLP)를 통해 건설 프로젝트 요구조건 자동추출을 위한 말뭉치(corpus)를 작성하고,
(2) 인공지능(AI) 이용하여 계약문서에서 요구조건 자동추출 방법 알고리즘 개발,
(3) 자동추출된 요구조건 데이터의 체계적 관리와 지속적 활용을 위해 IFC 데이터 표준과 호환 가능한 EXPRESS 언어로 다차원적 요구조건 분류 계층 구조를 갖는 스키마를 구축하고자 한다.
(4) 이를 기반으로, 언어 유사성을 통한 요구조건 종속성 측정 및 의존 정도 측정방법 알고리즘을 분석/개발하고 자동추출 시스템과 분류체계를 시스템을 구축하여,
(5) 자동추출된 계약요구조건의 품질보증 자동화와 일관성 확보를 위해 자동 추출된 요구조건의 일관성 판별에 이바지하는 속성값과 패턴을 분석하여 모델을 검증하는 방법을 개발하고자 한다.
□ 기대효과
건설 분야는 타 산업 분야와 비교하면 인력에 의존하는 경향이 높고 ICT 기술을 접목하여 디지털화, 자동화하는 것은 초기 단계에 있다. 국제공동연구의 기대효과는 다음과 같다.
(1) [빅데이터 접근 용이성] 국내의 특성상 건설계약문서 등에 대한 접근 및 획득이 어렵지만, Texas A&M의 경우 오랜 기간 관련 연구를 통하여 다량의 건설 프로젝트 계약문서를 확보하고 있어 인공지능 (AI) 및 자연어 처리 (NLP) 연구에 있어서 핵심이 되는 빅데이터 접근이 가능하다.
(2) [분쟁비용 절감] 건설 클레임으로 소모되는 비용의 절감과 전문인력의 효율적 활용이 가능하다. 건설 산업에서 발생하는 분쟁의 주요 원인은 계약문서 검토 미비가 전체의 30% 이상을 차지한다. 자동으로 요구사항 분석을 정밀하게 검토하여 사업비 5%~50% 달하는 손실비용을 최소화하는 데 이바지할 것이다.
(3) [선도기술 확보] 건설시장은 2025년에는 2조 달러 규모가 될 것을 전망으로, 세계 경제에 미치는 영향이 큰 산업이지만, 디지털화, 자동화 순위가 가장 낮은 산업 분야이다. 특히 위험요소가 높은 계약문서 내의 프로젝트 요구조건을 추출 및 분석을 자동화하여 디지털화, 자동화 수준이 비교적 낮은 건설산업의 NLP 처리와 AI 기술 적용에 선도적으로 이바지할 수 있다.
(4) [영문 계약서 검토 효율화] 해외 협력을 통한 본 연구를 통해 영문 계약서를 분석하여 얻어지는 말뭉치 사전을 활용하면 해외건설 프로젝트에 참여하는 한국 건설기업의 경쟁력 강화에 도움이 될 수 있을 것이다. 해외건설 프로젝트에서 계약문서의 요구조건과 독소조항 등을 제대로 파악하지 못해 발생했던 손실을 최소화하는데 이바지할 것으로 기대된다.
(5) [우수인재양성] 본 분야의 핵심역량을 가진 우수대학과의 공통연구 및 인재교류를 통하여, 건설 분야 인공지능(AI) 기술과 자연어 처리(NLP) 기술에서 국제적 수준의 핵심인재 양성에 이바지할 것이다.
(출처 : 요약문 4p)
Best Choice 자연어 처리 프로젝트 New Update
현재 보고 있는 주제 자연어 처리 프로젝트
최종 프로젝트 – 자연어 처리 업데이트
01/07/2021 · 최종 프로젝트 – 자연어 처리. Listeria 2021. 7. 1. 03:19. 최종 프로젝트로 소개팅 코스를 추천해주는 소개팅 앱을 만들기로 하였다. 이용자가 어떤 키워드를 제시하면 이와 가장 유사한 소개팅 장소 등을 추천해주고, 이용자가 선택 (체크)한 것들을 카카오 API 를 …
+ 여기서 자세히 보기
Read more
최종 프로젝트로 소개팅 코스를 추천해주는 소개팅 앱을 만들기로 했습니다
사용자가 특정 키워드를 제안하면 가장 유사한 소개팅 장소를 추천하고, 사용자가 선택한(확인한) 사람에 대해 카카오 API를 사용하여 최단 경로를 추천합니다
핵심 기능은 이렇게 하는 것.
우리 팀은 먼저 카카오 블로그 검색 API를 사용하여 우리 프로그램에서 사용할 데이터를 보호하기로 결정.
from sklearn.feature_extraction.text import CountVectorizer # sklearn 설치, CountVectorizer : 문서 토큰 개수 매트릭스로 변환합니다
from sklearn.metrics.pairwise import cosine_similarity # 설치 sklearn, cosine_similarity : 코사인 유사도를 계산하는 클래스
import pandas as pd # import pandas import json # 임의의 숫자에서 json 가져오기 * # 난수에 대한 임의 가져오기 import requests # 플라스크에서 웹 요청 가져오기 import Flask, request, jsonify, Response app = Flask(__name__) app.config[‘ JSON_AS_ASCII ‘] = False @app.route(‘/contents’) def Contents_Based_Filtering(): input1 = request.args.get(‘region’, “이문동”) input2 = request.args.get(‘theme’, “레스토랑 “) input3 = request.args.get(‘special’, “일식”) theme = [‘CT1’, ‘AT4’, ‘FD6’, ‘CE7’] # 테마 목록 (CT1=문화시설, AT4=관광객 명소) ,FD6=restaurant,CE7=cafe) # search = input(‘키워드를 입력하세요’) # 로컬 임시 입력값 realList = list() # 로컬 입력 결과 json을 j에 대한 list에 저장하기 위해 초기화(len() theme)): # 범위 내 z에 대해 4개의 테마 반복(3): # 3페이지 반복 headers = {‘Authorization’: ”, } # 내 다음 API KEY params = ( (‘page’, z + 1) , ( ‘size’, ’15’), (‘sort’, ‘accuracy’), (‘query’, ‘Seoul ‘ + input1), # 검색할 값 Android의 d가 ‘이문동’ 대신 삽입됩니다
(‘category_group_code’ , theme[j]), ) # rest API 파라미터 response = requests.get(‘https://dapi.kakao.com/v2/local /search/keyword.json’, headers=headers, params=params) # API 사용 realResult = response.json() # 출력 값을 json으로 변환 # print(realResult) if realResult[‘meta’][‘total_count’] == 0: # 결과 값이 없으면 계속 # 페이지 계속 전달 if realResult[‘meta’][‘is_end’] == True: # 페이지가 종료될 때 del realResult[‘meta’] # realResult
pop(‘meta’) # 키 메타 삭제 및 realResult = realResult.pop(‘documents’) # k에 대한 문서의 값 값 가져오기 in range(len(realResult)): del realResult[k][‘distance ‘] # 거리 키가 필요하지 않으므로 제거 realList.append(realResult[k]) # 초기화된 realList에 하나 추가 break # 페이지가 끝났기 때문에 break else: # 페이지가 완료되지 않은 경우 del realResult[ ‘meta’] # realResult.pop(‘meta’) # 키 메타를 삭제하고 realResult = realResult
pop(‘documents’) # k에 대한 문서의 값 값 가져오기 in range(len(realResult)): del realResult[k][‘distance’] # 거리 키가 필요하지 않으므로 제거 realList. append(realResult[k]) # 초기화 t에 대한 일대일 realList 추가 in realList: if t[‘category_group_name’] == input2: # 레스토랑 전용 json 추출 themeList.append(t) # themeList에 결과 json 추가 blogContentList = list() # 블로그 내용을 포함하는 목록 초기화 f or nmList in placeNmList: # 장소 이름 개수로 반환 header = {‘Authorization’: ‘KakaoAK e00921ac7c78ceabb295eec543d574f6’, } # 내 다음 API KEY params = ((‘ sort’, ‘accuracy’), (‘page’, ‘1’ ), (‘size’, ‘3’), (‘query’, input1 + ” ” + nmList), # Android에서 가져온 값이 사용됩니다
‘이문동’ 대신 ) # 나머지 API 파라미터 response = requests.get(‘ https://dapi.kakao.com/v2/search/blog’, headers=headers, params=params) # API 사용 blogAPI = response.json() # json 출력 값 del blogAPI[‘메타’ ] blogAPI = blogAPI. pop(‘documents’) # blogAPI에서 blist에 대한 문서의 값 값 가져오기: # 내용과 제목 열을 제외한 모든 항목 제거 del blist[‘blogname’] del blist[‘datetime’] del blist[‘thumbnail’] del blist[‘url’] blogContentList.append(blist) # 초기화된 blogContentList에 json 추가 blogContentList.append(‘perforat1on’) dict_example = json.dumps(blogContentList,sure_ascii=False) result = str( dict_example) 결과=결과입니다
교체(결과[0], “”, 1) 결과=결과[:-1] 결과=결과.replace(‘, “퍼포라트1on”‘,”퍼포라트1온”) 결과 = 결과.replace(“퍼포라트1on, “, “퍼포라트1o n”) __name__ == “__main__”: app.run(host=’0.0.0.0’, port=8080)인 경우 결과를 반환합니다
카카오 API를 사용하여 데이터를 가져오는 코드입니다
이를 통해 약 100,000개의 스토어/블로그 게시물을 확보할 수 있었고 초기 계획은 이를 FireBase에 업로드하고 사용자가 검색하면 결과를 반환하는 것이었습니다
1분도 넘게 걸려서 실제 사용은 불가능하다고 판단했습니다.
자연어 처리를 통해 상호와 가게의 특성을 또 다른 방식으로 연결할 수 있으면 좋겠다는 생각이 들었다
그 전에는 불용어를 다룰 필요가 있었지만 불행히도 한국어에 대한 불용어는 정확하게 정의되지 않았습니다
인터넷에 등장하는 불용어는 서로 복사되는 경우가 많기 때문에 수집된 불용어의 중복을 제거한 후 약 1500개의 불용어 목록이 생성되었습니다
그리고 데이터 사이에 있는 모든 이모티콘을 제거하는 것은 힘든 작업이었지만 이모티콘을 제거하여 더 정확한 모델을 만드는 것은 확실히 가능했습니다.
from konlpy.tag import Okt import json import numpy as np import pandas as pd train_data = pd
read_pickle(“readDfMk05.pkl”) # 불용어 정의 stopwords = np.load(‘krStopword02.npy’) # 형태소 분석기를 사용하여 토큰화 OKT(시간이 좀 걸립니다) print(‘Start stemming’) okt = Okt() tokenized_data = [] for train_data[‘contents’]의 문장: temp_X = okt
morphs(sentence, stem=True) # 토큰화된 temp_X = [중단어에 단어가 아닌 경우 temp_X에 단어 대 단어] # 중지 단어 tokenized_data를 제거합니다
f: json.dump(tokenized_data, f,sure_ascii=False)로 open(“newStop_word01.json”, “w”)이 있는 append( temp_X)
이모티콘이 제거된 데이터는 readDfMk05라는 pickle 파일로 저장되었고, stopword는 numpy 형식으로 krStopword02로 저장되었습니다
이 두 가지를 이용하여 한국어 자연어 처리 패키지인 KoNLPy의 0kt 형태소 분석 도구를 이용하여 토큰화하였으며, newStop_word01로 토큰화하였다
json 파일로 저장했습니다
마지막으로 자연어 처리를 위한 오픈 소스 라이브러리인 Gensim을 사용하여 word2Vec 모델을 만들었습니다
Word2Vec은 신경망 모델을 사용하여 단어 간의 관계를 학습하는 자연어 처리 기술을 말합니다
상관관계가 높은 단어를 학습하는 데 사용됩니다
import json with open(‘newStop_word02.json’, ‘r’) as f: tokenized_data = json.load(f) print(tokenized_data) from gensim.models import Word2Vec model = Word2Vec(sentences = tokenized_data, vector_size = 100, window = 5, min_count = 5, 작업자 = 4, sg = 0) model.wv.save_word2vec_format(‘modelMk03’) # 모델을 저장합니다
Gensim의 word2vec 모델을 사용하는 것은 매우 간단하며 최종 모델은 modleMk03으로 저장되었습니다
그 후에는 modelMk03만 가져와서 작동했습니다.
[Mutube] 자연어처리 프로젝트 중간발표 Update아래 동영상 보기
주제에 대한 새로운 업데이트 자연어 처리 프로젝트
시청해주셔서 감사합니다.
자연어 처리 프로젝트주제 안의 사진 몇 장
[Mutube] 자연어처리 프로젝트 중간발표 Update무이메이커스_딥러닝을 활용한 자연어 처리 프로젝트 (NLP … New Update
12/07/2019 · 무이메이커스_간 (GAN) 을 활용한 인공지능 (AI) 이미지 생성 (Image Generation) 딥러닝 프로젝트 (0) 2019.08.09: 무이메이커스_딥러닝을 활용한 자연어 처리 프로젝트 (NLP Classification) (1/2) (0) 2019.07.12: 무이메이커스_딥러닝을 활용한 Image Segmentation 프로젝트 (0) …
+ 여기서 자세히 보기
자연어 처리 Natural Language Processing 기초 Update
아래 동영상 보기
주제에 대한 새로운 업데이트 자연어 처리 프로젝트
자연어 처리 Natural Language Processing
자연어처리 기초
정규표현식, Regular Expression, 토큰화, Tokenization, PoS 태깅, Parts of Speech Tagging, 불용어 제거, Stopwords, 어간, Stemming, 표제어, Lemmatization, 개체명 인식, Named Entities Recognition, Bag of Words, BoW, DTM, Document Term Matrix, TF-IDF, Term Frequency-Inverse Document Frequency
Colab: https://colab.research.google.com/drive/1UJ36KTBTgw8fvBBvsdQjx-OUP0YrGNet?usp=sharing
이수안 컴퓨터 연구소 (SuanLab)
www.suanlab.com
자연어 처리 프로젝트주제 안의 관련 사진
자연어 처리 Natural Language Processing 기초 Update New
일상적인 자연어 처리(NLP) 예 8가지 – Tableau Update
Updating
+ 여기서 자세히 보기
위키독스 1,000명 이상의 추천, Best 3위 『딥러닝을 이용한 자연어처리 입문』 저자의 이야기 | 러닝스푼즈 Update
동영상 보기
주제에 대한 추가 정보 자연어 처리 프로젝트
#자연어처리 #딥러닝 #성장
\”자연어처리, AI 제가 시작할 때도 이미 핫한 분야였지만, 그 당시 관련 자료는 많지 않았어요.\”
\”그러니까 제가 시작해도 늦지 않겠다고 생각했죠.\”
컴퓨터공학과를 졸업해 대기업 S사 인프라에서 자연어처리를 하게 된 계기는?
업무 특성상 안정적인 것을 추구하는 인프라가 적성에 맞지 않아 ‘자연어처리’를 시작하셨다고 하는데요.
국내에도 단 4-5권 밖에 없는 자연어처리 도서를 쓰게 된 계기와 그 모든 스토리를 확인할 수 있습니다!
자연어처리 저자님이 직접 알려주는 한국의 자연어처리 실태와 희망사항 그리고 앞으로의 꿈까지!
자연어처리의 선구자인 유원준 강사님의 이야기 함께하세요. 😉
🔥 성장이 필요한 순간 🔥 ——————–
러닝스푼즈 홈페이지 : https://learningspoons.com
러닝스푼즈 기업교육 : https://learningspoons.com/website/contact/b2b/
자연어 처리 프로젝트주제 안의 사진 몇 장
위키독스 1,000명 이상의 추천, Best 3위 『딥러닝을 이용한 자연어처리 입문』 저자의 이야기 | 러닝스푼즈 New
Python/Tensorflow/Elasticsearch/Gensim 자연어 처리 개발(재택 … 업데이트
업무 내용. <프로젝트 개요>. 프로젝트 소개: – AI 개발 담당 개발자를 모집합니다. 자연어 처리 위주로 개발을 하게 될 것이고, Tensorflow, Keras, word2vec, bert 등 다양한 자연어 처리 라이브러리 기반으로 AI 모델을 만들게 됩니다. – 발주사 : 주식회사투에니원센추리.
+ 여기서 자세히 보기
Read more
예상금액 2,500,000원 예상기간 7일 개발 기타
프로젝트 개요: – MPU6050의 안정적인 필터 처리 프로그램 개발 요청 목표: – MPU6050 센서에서 출력되는 신호를 이용하여 게임 중 좌표점을 표시하는 무선 제품을 개발 중이며, 불안정한 출력 신호를 안정적인 쿼터니언 신호로 변경하는 과정에서 개발 중입니다
필터(complementary, Kalman)와 DMP 등(4ms 단위의 무선 전송)을 이용하여 간단하면서도 정확한 결과를 만들어내는 제어 프로그램(펌웨어)을 개발하고자 합니다
현재 준비: – 현재 DMP6을 사용하고 있지만 약간의 슬립, 지연 및 회전 문제가 있습니다
필수 요소: – 펌웨어 개발 환경/언어/방법: – MPU6050, Arduino 개발 범위: – MPU6050 센서 교정 – MPU6050 센서의 출력 값을 받아 최종 쿼터니언으로 변환하는 부분에 대한 처리 및 제어 프로그램 – 4ms 만에 PC로 블루투스 전송으로 처리된 값 조건: – 처리값(다른 버튼 값 포함)은 4ms 단위로 무선으로 전송되어야 하므로 펌웨어 프로그램 개발이 기대된다
출력: – 개발 원본 소스 코드 기타 사항: – 금액이 모인 후 다시 한 번 지원자를 모집하고 싶습니다
– 기존 프로젝트: https://www.wishket.com/project/114656/
삼성도 가져간 핵인싸 기술! 컴알못도 ‘자연어처리’ 지금 시작해야하는 이유 [WISET WANNABE#1][온라인 멘토링 참여 이벤트중!] New Update
동영상 보기
주제에 대한 새로운 업데이트 자연어 처리 프로젝트
[온라인멘토링 참여 이벤트중😆]학사 전공은 문과,
현재는 인공지능 자연어처리 전문가!🙌
한국과학기술정보연구원(KISTI) 정영임 연구원이
컴알못에게 인공지능 시작하는 방법을 알려드려요!
#WISET 의 2021 온라인 멘토링 프로젝트
와! 나도 비결을 알고 싶어!
WISET WANNABE #1 정영임 멘토편,
[멘토님피셜 허니🍯팁]✍️2:27 KISTI 데이터 스쿨 https://kacademy.kisti.re.kr/
✍️3:34 출연연 현장 연구+국가대형연구 경험할 수 있는 연합과학기술대학원대학교(https://www.ust.ac.kr/) 진학 추천!
#영상멘토링 #위셋_와나비 #이제1편 #8편더있음✨
[온라인멘토링 참여이벤트(7/1-7/30)]7.1 ~ 7.30 W브릿지 온라인 멘토링에 참여하시는 분에게
치킨(30인)과 커피(70인)쿠폰을 드려요🙋♀️
👉https://blog.naver.com/wisetter/222423446359
[WISET 멘토에게 1:1로 질문하기💁]1. https://www.wbridge.or.kr/ 접속 + 가입
2. 네트워킹 – 온라인멘토링 클릭
3. 원하는 멘토에게 질문 보내고 답변 기다리기🙏⏰🙋♀️👉
[댓글 이벤트(5/25-5/31)✨]🤩당첨자 발표 완료
자연어 처리 프로젝트주제 안의 멋진 사진을 볼 수 있습니다
삼성도 가져간 핵인싸 기술! 컴알못도 ‘자연어처리’ 지금 시작해야하는 이유 [WISET WANNABE#1][온라인 멘토링 참여 이벤트중!] New
간단한 단어분류 프로젝트를 통한 자연어처리 이해 | Reinforce NLP New
10/03/2021 · 지금까지 자연어처리를 이해하는 데 도움이 될 수 있도록 간단한 프로젝트 하나를 만들어봤습니다. 이후 포스트에서 이 프로젝트를 기반으로 자연어처리 관련된 여러 가지 내용을 다뤄보도록 하겠습니다. 10 Mar 2021. NLP-tutorial; #NLP; #basic-project ; #learing-by-doing « 자연어처리 Tutorial (Learning by Doing …
+ 여기서 자세히 보기
Read more
단순 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32. 33 8 9 10 11 12 13 14
.data. Dataset ): “”” 데이터 세트 클래스 “”” def __init__ ( self , input , labels ): “”” 생성자 :param 입력: input :param 레이블: 정답 “”” self
입력 = 입력 자체
레이블 = 레이블 def __len__ ( self ): “”” 데이터 세트 길이 “”” assert len ( self. inputs ) == len ( self. labels ) return len ( self. labels ) def __getitem__ ( self , index ): ” ” ” 하나의 데이터 검색:param index: 데이터 위치 “”” return ( torch
tensor ( self. insputs [ index ]), torch
tensor ( self. labels [ index ]), ) def collate_fn ( self , batch ): ” “” 데이터 일괄 처리 :param batch: 데이터 일괄 처리 “”” 입력 , 레이블 = 목록 ( zip ( * 일괄 )) 입력 = 토치
ㄴ
유틸리티
르네
pad_sequence(입력, batch_first = True, padding_value = 0) 레이블 = 토치
ㄴ
유틸리티
르네
pad_sequence (labels, batch_first = True, padding_value = 0) batch = [입력, 레이블, ] 일괄 반환
인공지능 자연어처리 관련 실습 사이트 4곳 Update New
동영상 보기
주제에 대한 추가 정보 자연어 처리 프로젝트
실습 사이트: http://hellosoft.fun/aidemo/
위 사이트에 방문해서 실제로 실습해 보세요!!!!! 꼭 !!!
자연어 처리 프로젝트주제 안의 사진 몇 장
인공지능 자연어처리 관련 실습 사이트 4곳 New Update
자연어 처리 챗봇 개발 · 위시켓(Wishket) – 프로젝트 최신
프로젝트 개요 : – 자연어 처리 챗봇 개발. 의뢰 목표 : – 교육상품 판매 쇼핑몰 사이트에 탑재할 챗봇을 만드는 프로젝트입니다. – 웹 사이트용 챗봇 or 메신저 탑재용 챗봇으로 배포하고 싶고, 필요한 기능은 Q&A, 상품 추천입니다. – 먼저 간단히 만들어 보고 …
+ 여기서 자세히 보기
Read more
프로젝트개요:- 자연어처리 챗봇 개발 요청 목표:- 교육용 상품을 판매하는 쇼핑몰 사이트에 설치될 챗봇을 생성하는 프로젝트입니다
– 우선 간단하게 만들고, 가능성이 확인되면 내년에는 제대로 만들도록 노력하겠습니다
필요한 요소:- 자연어 처리 챗봇 개발 환경/언어/방법:- 제안해주세요
요구 사항: 궁극적으로 다음 기능이 구현되어야 합니다
– 자연어 처리(한글, 영어 등) – 추천 시스템 올해 우리가 간단하게 만들 기능은 다음과 같습니다
(제안된 프로젝트 금액이 부족할 경우 협의를 통해 진행하도록 하겠습니다.) (자연어 처리 없이) Q&A 목록에서 관련 답변 검색 및 조회 – 위의 기능을 구현한 챗봇을 메신저(카카오톡 또는 페이스북 등) /참고 :- 응답성과 정확성이 관건이며, 웹/앱에서 머신러닝 기반의 자연어처리 서비스를 구현하신 분을 찾고 있습니다.
[2021 홍익대 컴공 졸전] 인공지능_자연어처리프로젝트_김준홍_외1명 New아래 동영상 보기
주제에 대한 새로운 업데이트 자연어 처리 프로젝트
자연어 처리 프로젝트주제 안의 사진 몇 장
[2021 홍익대 컴공 졸전] 인공지능_자연어처리프로젝트_김준홍_외1명 Update컴퓨터가 인간의 언어를? 경이로운 자연어 처리 활용 사례 – wishket Update New
26/08/2020 · 자연어 처리 활용 사례 – 대화형 사용자 인터페이스. 대화형 사용자 인터페이스 (CUI)는 컴퓨터가 실제 사람과의 대화를 모방하는 컴퓨터를 위한 인터페이스입니다. 그 예로는 챗봇 (chabot)이 있죠. 챗봇은 기계와 사람이 텍스트를 통해서 대화할 수 있는 …
+ 여기서 자세히 보기
Read more
컴퓨터가 인간의 언어를 말할 수 있습니까? 멋진 자연어 처리 사용 사례
AI기반 자연어처리기술 Update
동영상 보기
주제에 대한 새로운 업데이트 자연어 처리 프로젝트
인공지능에 기반한 자연어처리 기술에 대해 소개한
정민영선임연구원의 발표영상입니다.
자연어처리기술의 변천과 KETI가 개발한 디지털컴패니언 기술 정보를 확인하실 수 있습니다.
기술관련 문의는 [email protected]로 연락 주시기 바랍니다.
자연어 처리 프로젝트주제 안의 사진 몇 장
AI기반 자연어처리기술 New Update
자연어 처리 개념 (NLP Bible) – Emily’s Tistory Update
08/04/2021 · 프로젝트 중 자연어 처리 및 얕은 인공지능을 사용할 일이 생겼다. 졸업 프로젝트로 자연어 처리 및 딥러닝을 진행하면서, (심지어 비지도 학습이었다) 다시는 nlp를 건드리지 않겠다고 다짐했었는데, 회사에서 하..
+ 여기서 자세히 보기
Read more
프로젝트를 진행하면서 자연어 처리와 얕은 인공 지능을 사용해야 했습니다
졸업 프로젝트로 자연어 처리와 딥 러닝(비지도 학습 포함)을 하며 다시는 NLP를 만지지 않겠다고 다짐했지만 회사는 그것!! 다시 한국어 공부를 시작했고 머신 티칭을 공부했습니다
책도 빌렸어요
Oreilly Publications의 “처음부터 딥 러닝”이라고 합니다
나중에 책 정리를 올려야겠습니다
참고로 졸업 프로젝트의 주제는 ‘참신한 텍스트 분석을 통한 캐릭터 도출 및 관계 분석’이었고, 주제 자체도 재미있었고 시각화 부분도 재미있었던 것으로 기억합니다
문제는 정확도가 좋지 않았다는 점 😂😂
먼저 개념을 잡아야 합니다
자연어 처리(NLP)란? 우선 우리가 평소에 사용하는 단어를 자연어라고 합니다
NLP(자연어 처리)를 문자 그대로 해석하면 ‘자연어를 처리하는 분야’다
컴퓨터를 이해하게 하는 기술(현장) ─ ─────────────────────────────────────────────────────────────────────────────────────────────────────────────…… NLP를 공부하는 동안 자연어 연구를 위한 특정 목적을 가진 언어 샘플 세트인 말뭉치라는 단어를 많이 접하게 됩니다
사실 매우 추상적인 단어이지만 넓은 의미에서는 우리 일상에서 쉽게 접할 수 있는 책, 광고, 신문, 사전 등의 “언어적 데이터의 집합체”를 의미합니다
자연어 처리 분야에서 말뭉치는 컴퓨터가 읽을 수 있는 형식입니다
─로 저장되는 일정 규모 이상의 언어적 데이터로 이해할 수 있다
즉, 텍스트 데이터로 정의할 수 있습니다
문장 하나하나도 말뭉치다
임베딩이란? 자연어 처리 분야에서 임베딩(embedding)은 인간이 사용하는 자연어를 기계가 이해할 수 있는 숫자 형태인 벡터로 변환하거나 일련의 과정 전체를 의미한다
임베딩의 가장 간단한 형태는 단어의 빈도를 벡터로 그대로 사용하는 것입니다
Term-Document Matrix에서 행은 단어 열과 문서에 해당합니다
임베딩을 통해 얻을 수 있는 효과는 단어/문장(Zolp!에서 사용됨) 간의 관련성을 계산하여 의미/문법 정보를 암시하고 전이 학습이 되는 것입니다
이번 제 프로젝트에서는 임베딩이 정확도에 매우 중요한 역할을 할 것이기 때문에 많은 연구와 세미나가 필요할 것 같습니다
자연어 분석 유닛
문장
문서
단어(=토큰, 형태소, 하위 단어)
일반적으로 자연어 처리 문서는 영어 표준을 기반으로 하므로 형태소와 단어를 엄격하게 구분하지 않습니다
자연어 처리 기술
동의어 사전을 사용하는 기술
동의어 사전(thesaurus): 의미가 같은 단어(동의어) 또는 의미가 유사한 단어(시소러스)를 하나의 그룹으로 분류한 인공 시소러스
예) 자동차 = 자동차, 자동차, 기계, 자동차
시소러스의 종류에 따라 상/하 관계까지 정의된 시소러스도 있다
가장 유명한 사전은 Princeton University에서 개발한 WordNet입니다
NLTK 모듈을 통해 사용할 수 있습니다
그러나 인간이 정의한 사전이기 때문에 시대의 변화에 대응하기 어렵고 비용이 많이 들고 미묘한 차이를 말로 표현하기 어렵다
통계 기반 기술
인간의 지식(단어 선택 및 작성 방법 등)을 이용하여 말뭉치에서 핵심을 자동으로 효율적으로 추출하는 기술입니다
대부분의 경우 다음과 같은 순서로 진행됩니다
가장 쉽고 가장 일반적으로 사용되는 기술은 특정 단어 주위에 단어가 몇 번 나타나는지 계산하는 것입니다
말뭉치 선택 말뭉치 전처리 분산 표현
➡ 단어의 의미를 정확히 파악할 수 있는 벡터 표현 분포가설 동시발생행렬 생성 벡터간 유사도 계산 유사단어의 순위를 표시한다
추론 기반 기술
통계 기반 기술보다 더 강력합니다! 추론 과정에서 신경망을 이용하는 기술이다
통계 기반 기법에서는 행렬의 크기가 말뭉치의 크기에 비례하기 때문에 큰 말뭉치를 다룰 때 문제가 발생할 수 있다
그러나 추론 기반 기술에서는 미니 배치로 학습하는 것이 일반적이기 때문에 신경망은 한 번에 작은 단위로 학습하고 가중치를 업데이트하므로 큰 코퍼스에서 큰 이점이 있습니다
그 대표적인 예가 word2vec이며, 원-핫 인코딩, CBOW 모델, 스킵 그램 모델 등을 사용할 수 있으며, 이에 대해서는 추후 포스팅에서 정리하도록 하겠습니다
참조
heung-bae-lee.github.io/2020/01/16/NLP_01/
www.korean.go.kr/nkview/nknews/199908/13_6.htm
처음부터 딥 러닝 2
자연어처리(NLP) AI 핵심원리 | word2vec BERT GPT 딥러닝 텍스트 분석 Update
아래 동영상 보기
주제에 대한 새로운 업데이트 자연어 처리 프로젝트
#NLP #자연어처리 #BERT #GPT #word2vec
사람이 말하는 것과 같은 수준으로 올라온 자연어처리(NLP) AI 핵심원리를 쉽게 설명해드립니다. 자연어처리(Natural Language Processing)를 공부하는 분 뿐만아니라, 교양으로 자연어/텍스트 인공지능의 원리를 알고 싶은 분께도 도움이 될 것입니다!
Word2vec의 Skip-gram, CBOW, BERT와 GPT-1,2,3 이런 Language Model의 공통점과 차이점도 설명합니다~
자연어 처리 프로젝트주제 안의 멋진 사진을 볼 수 있습니다
자연어처리(NLP) AI 핵심원리 | word2vec BERT GPT 딥러닝 텍스트 분석 Update
NLP 비전공자가 챗봇 프로젝트를 구현하기까지 최신
16/11/2019 · 프로젝트 일정과 유사한 시기에 한국전자통신연구원(etri)에서 배포한 자연어 처리 api를 활용한 사례를 찾는 공모전이 있어 해당 프로젝트의 전반적인 구성은 공모전과 같은 방향으로 진행했다. 프로젝트 기획을 위한 사전 연구 단계에서 etri 공공 인공지능 포털을 접하게 되었고, 한국어 처리가 …
+ 여기서 자세히 보기
Twitter Sentiment Analysis on #HawaiianPizza New
동영상 보기
주제에 대한 새로운 정보 자연어 처리 프로젝트
트위터 감정분석을 구글 자연어 처리 (NLP) API 로 해보았다.
민트초코는 과연 치약맛 인가.
하와이안 피자는 과연 피자에 대한 무례함인가.
그 결과는!?
#민초단 #파이썬 #자연어처리
–
📌 니콜라스와 무료로 파이썬 공부하기
https://nomadcoders.co/python-for-beginners
–
📌 Learn Python for free!
https://en.nomadcoders.co/python-for-beginners
자연어 처리 프로젝트주제 안의 사진 몇 장
Twitter Sentiment Analysis on #HawaiianPizza Update
대기업 S사 퇴사 후, 2년 동안 ‘자연어 처리’ 책을 집필하고 있는 이유? | … 업데이트
『딥러닝을 이용한 자연어 처리 … 프로젝트, 책, 논문, 스터디 등 여기저기 발을 담가 놓은 곳이 많다 보니까 쉬지도 않고 달렸죠. 엄청나게 피곤하거나 그러진 않은 것 같아요. 이제는 이런 생활이 굉장히 익숙해져서 아무것도 안 하고 며칠간 쉬면 제가 오히려 초조해지더라고요. 뒤쳐지고 있다는 �
+ 여기서 자세히 보기
AI 자연어처리 쉬운 설명과 일반 기업도 할 수 있는 AI NLP 사례와 방안 [토크아이티 프리미엄웨비나, 애자일소다 TwinDoc] New
아래 동영상 보기
주제에 대한 추가 정보 자연어 처리 프로젝트
▶️ 유튜브 챕터 기능으로 보기 (목차)
00:00 자연어처리는 무엇이고, 왜 자연어 인식이 어려운가?
08:11. 한국어 자연어처리는 왜 더 힘든가?
17:00 자연어처리 알고리즘의 변화: BERT. GPT
43:41. 기업용 자연어처리에 꼭 필요한 전이 학습
52:23 애자일소다 기업용 자연어처리 플랫폼, TwinDoc
1:07:07 통신사 고객상담 분석을 통한 불만DB, 칭찬모델 수립
1:21:37 자동차정비소 사용자 공임 표준화 모델 구축 사례
1:23:07 아이돌봄 플랫폼 리뷰 감성 분석 사례
1:26:48 자연어처리 프로젝트 Lesson \u0026 Learn
1:36:57 기업을 위한 자연어처리, 무엇을 고려해야 되는가?
이런 분들에게 추천드립니다!
AI 자연어처리를 업무에 적용하고 싶은 기업관계자, AI트랜스포머 NLP 관심자, 기업 DX 관계자
프리미엄 웨비나 핵심 POINT
01 AI 프랜스포머 NLP(자연어처리) 발전 현황
02 일반기업 NLP 적용사례: VoC분석기반 타겟마케팅 \u0026 불만콜대응, 리뷰\u0026설문 세부감성분석
03 일반 기업에 특화된 경량화 자연어처리 환경: 오토 라벨링, Active Learning
04 기업에 특화된 언어모델기반 최적화 자연어분석
05 NLP 분석 성능 유지를 위한 지속적 재학습 구조
네이버, 카카오, 페이스북이 아닌 일반기업도 현실적으로 할 수 있는 AI 자연어처리 방법은?
고가의 GPU 클러스터, 빅데이터, 전문 데이터 사이언티스트가 없이 일반기업에서 활용하고 있는 AI NLP사례를 알아봅니다.
담당자들이 프로젝트를 수행하며 느낀 기업의 AI기술적용에 필요한 네 가지 요소를 의사결정에 효율적으로 활용할 수 있는 방법을 소개합니다.
[세션 안내]– AI NLP(자연어처리) 101 / 정민성 팀장(애자일소다)
– AI NLP 일반기업 적용사례 / 정민성 팀장(애자일소다)
– 일반기업을 위한 AI NLP 플랫폼, 애자일소다 TwinDoc / 정민성 팀장(애자일소다)
IT전문방송 토크아이티에서는 매일 테크분야 전문가의 생방송 웨비나가 진행됩니다. 누구든지 무료로 참여하실 수 있으며, 남겨주신 질의에 대한 전문가의 실시간 응답을 경험하실 수 있습니다.
2006년부터 2,000회이상 진행된 다양한 웨비나를 통해 국내외 최신 IT 기술을 확인하세요.
▶ 토크아이티 웨비나 참여 및 자료 다운로드 : https://talkit.tv
[토크아이티 IT 웨비나 또는 콘텐츠마케팅 문의] : [email protected], 02-565-0012자연어 처리 프로젝트주제 안의 사진 몇 장
AI 자연어처리 쉬운 설명과 일반 기업도 할 수 있는 AI NLP 사례와 방안 [토크아이티 프리미엄웨비나, 애자일소다 TwinDoc] Update
주제에 대한 추가 정보 보기 자연어 처리 프로젝트
무이메이커스_딥러닝을 활용한 자연어 처리 프로젝트 (NLP … New
12/06/2019 · 이번 시간에는 딥러닝을 활용한 자연어 처리 및 분류 프로젝트를 소개하고자 합니다. 목표는 Kaggle 의 Quora Insincere Questions Classification 프로젝트에로. Quora 에서 게시된 글이 Insincere 한 Question 인지 아닌지를 분류하는 것입니다.
+ 여기서 자세히 보기
[Mutube] 자연어처리 프로젝트 중간발표 Update아래 동영상 보기
주제에 대한 새로운 업데이트 자연어 처리 프로젝트
시청해주셔서 감사합니다.
자연어 처리 프로젝트주제 안의 사진 몇 장
[Mutube] 자연어처리 프로젝트 중간발표 Update최종 프로젝트 – 자연어 처리 Update
01/07/2021 · 최종 프로젝트 – 자연어 처리. Listeria 2021. 7. 1. 03:19. 최종 프로젝트로 소개팅 코스를 추천해주는 소개팅 앱을 만들기로 하였다. 이용자가 어떤 키워드를 제시하면 이와 가장 유사한 소개팅 장소 등을 추천해주고, 이용자가 선택 (체크)한 것들을 카카오 API 를 …
+ 여기서 자세히 보기
1 자연어 처리란 Update
아래 동영상 보기
주제에 대한 새로운 정보 자연어 처리 프로젝트
자연어 처리 프로젝트주제 안의 사진 몇 장
1 자연어 처리란 Update
GitHub – Eeun-ju/NLP-study: 자연어 처리 공부, 미니 프로젝트 New
자연어 처리 공부, 미니 프로젝트. Contribute to Eeun-ju/NLP-study development by creating an account on GitHub.
+ 여기서 자세히 보기
[토크ON세미나] 기계번역 입문 1강 – 자연언어처리(NLP) 기초 | T아카데미 New아래 동영상 보기
주제에 대한 새로운 업데이트 자연어 처리 프로젝트
이번 강의에서는 자연어처리와 기계번역이란 무엇인지 이해하고, 딥러닝 기반의 기계번역 방법들에 대해 알아봅니다. 이후 OpenNMT를 이용한 기계번역 방법에 대해 알아봅니다.
자연어 처리 프로젝트주제 안의 사진 몇 장
[토크ON세미나] 기계번역 입문 1강 – 자연언어처리(NLP) 기초 | T아카데미 Update NewNLP 첫걸음! 자연어 처리 입문 완벽 가이드 | 러닝스푼즈 업데이트
실제 자연어 처리 관련 프로젝트를 진행하다 보면, 데이터를 수집하고 모델에 넣기 적합한 형태로 만드는 과정이 반드시 필요합니다. 이는 실제 프로젝트의 성과에 매우 큰 영향을 미치며, 프로젝트 완료까지 많은 시간이 소요되는 경우가 많습니다. 본 강의를 통해서 자연어 전처리의 전반적인 …
+ 여기서 자세히 보기
딥러닝 NLP 프로젝트ㅣ자연어처리 입문 이론과 실전 프로젝트ㅣ에어클래스 Update New
아래 동영상 보기
주제에서 더 많은 유용한 정보 보기 자연어 처리 프로젝트
\”관련 영상 더보기 : https://www.airklass.com/k/C3XCJX3?utm_source=youtube\u0026utm_medium=sample\u0026utm_campaign=k10035
본 영상의 저작권은 [코딩엑스]에게 있으며, 에어클래스에 업로드된 샘플영상입니다.\”
딥러닝 NLP 프로젝트ㅣ자연어처리 입문 이론과 실전 프로젝트ㅣ에어클래스
자연어 처리 프로젝트주제 안의 관련 사진
딥러닝 NLP 프로젝트ㅣ자연어처리 입문 이론과 실전 프로젝트ㅣ에어클래스 Update
자연어 처리 – 텍스트 업데이트
28/01/2019 · Eunjeon : 은전한닢 프로젝트 (윈도우 미지원) [링크] KOMORAN : 코모란 한국어 형태소 분석기, Junsoo Shin님의 코모란 v3.3.3; 빠른 분석이 중요할 때 : 트위터; 정확한 품사 정보가 필요할 때 : 꼬꼬마; 정확성, 시간 모두 중요할 때 : 코모란; 3 자연어 처리 작업흐름. 자연어 처리에서 상당부분 해결한 문제는 …
+ 여기서 자세히 보기
딥러닝을 이용한 자연어처리 – 22. 텍스트 요약 Update
아래 동영상 보기
주제에 대한 추가 정보 자연어 처리 프로젝트
[깃허브]https://github.com/jiphyeonjeon/season [출처]https://wikidocs.net/book/2155자연어 처리 프로젝트주제 안의 멋진 사진을 볼 수 있습니다
딥러닝을 이용한 자연어처리 – 22. 텍스트 요약 New
[IT Trends] 자연어 처리 기술(Natural Language Processing)의 … 최신21/12/2020 · 자연어 처리(Natural Language Processing, NLP) 기술 ‘빅데이터’ 란, 다양한 원천에서 얻어지는 방대한 양의 데이터를 의미한다. 디지털 세상에 새로운 채널과 기술이 확산함에 따라 엄청난 양의 정보가 실시간으로 쏟아져 내린다. 사람들은 스마트폰을 통해 음성 인식 기능을 사용하거나 SNS에서 콘텐츠를 …
+ 여기서 자세히 보기
1. 엑소브레인 자연어 처리 및 질의응답 기술과 활용사례 소개 New
동영상 보기
주제에 대한 새로운 정보 자연어 처리 프로젝트
엑소브레인(Exobrain)은 언어를 이해하고 스스로 학습함으로써 전문가 수준의 지식 서비스를 제공하는 언어지능SW 개발을 목표로
10년에 걸쳐 총 3단계의 연구를 진행하는 인공지능 국가전략프로젝트 R\u0026D 과제 입니다.
[1단계] 핵심기술 개발은 한국어로 된 일반지식 수준의 질의응답을 할 수 있는 언어지능 SW를 개발하는 것입니다. IBM과 기술격차를 단축하고, EBS 장학퀴즈에 출전하여 우승하는 것을 목표로 하고 있습니다. [2단계] 응용기술 개발은 전문지식 서비스를 한국어로 제공하는 언어지능SW를 개발하는 것입니다. 이를 통해 법률, 특어, 금융 등 전문지식 QA 시스템을 상용화 하고자 합니다. [3단계] 글로벌기술 개발은 전문지식 서비스를 다국어로 제공하는 언어지능 SW를 개발하여 세계 최고 수준의 성능을 달성하는 것을 목표로 하고 있습니다.* 발표자는 엑소브레인 연구원이신 ETRI 임준호 박사님 입니다.
많은 관심과 응원 부탁드립니다.
* 더 많은 정보를 원하시면 아래의 링크를 참고 하세요~!
인공지능사업단 블로그
http://www.ainationalproject.kr/
엑소브레인 홈페이지
http://exobrain.kr/
ETRI 공개API 서비스
http://aiopen.etri.re.kr/
영상 세미나 발표자료
https://drive.google.com/open?id=16CVgJEu5xlzc754FotOi33CPoYe5yWfk
자연어 처리 프로젝트주제 안의 멋진 사진을 볼 수 있습니다
1. 엑소브레인 자연어 처리 및 질의응답 기술과 활용사례 소개 Update
대기업 S사 퇴사 후, 2년 동안 ‘자연어 처리‘ 책을 집필하고 있는 이유? | … 업데이트
『딥러닝을 이용한 자연어 처리 … 프로젝트, 책, 논문, 스터디 등 여기저기 발을 담가 놓은 곳이 많다 보니까 쉬지도 않고 달렸죠. 엄청나게 피곤하거나 그러진 않은 것 같아요. 이제는 이런 생활이 굉장히 익숙해져서 아무것도 안 하고 며칠간 쉬면 제가 오히려 초조해지더라고요. 뒤쳐지고 있다는 �
+ 여기서 자세히 보기
딥러닝 자연어처리를 이용한 코드 자동완성 프로젝트 Update
동영상 보기
주제에 대한 추가 정보 자연어 처리 프로젝트
딥러닝 LSTM과 GRU 를 사용하여 만든 코드 자동완성 프로그램입니다.
깃허브
https://github.com/comsa33/auto_code_complete
자연어 처리 프로젝트주제 안의 관련 사진
딥러닝 자연어처리를 이용한 코드 자동완성 프로젝트 New
[GCP] Natural Language API(구글 자연어 처리 API) : 네이버 블로그 Update New19/12/2010 · 자연어 처리(NLP: Natual Language Processing)는 인간의 언어를 컴퓨터가 이해할 수 있도록 처리하는 과정이다. 자연어 처리에는 자연어 분석, 자연어 이해, 자연어 생성 등의 기술이 사용된다. 자연어 처리는 인공지능의 한 분야이다. 구글 클라우드에서는 인공지능에 지식이 없는 사람도 자연어 처리를 할 …
+ 여기서 자세히 보기
[딥러닝 자연어처리] BERT 이해하기 Update동영상 보기
주제에 대한 새로운 정보 자연어 처리 프로젝트
BERT의 탄생 배경과 작동 원리를 예제와 함께 쉽고 명확하게 알려드립니다.
자연어 처리 프로젝트주제 안의 관련 사진
[딥러닝 자연어처리] BERT 이해하기 Update#자연어처리(NLP)-인공지능의 이해를 위한 지식 업데이트
20/12/2019 · NLP (자연어처리) 는 지난글 ( #2 인공지능과 법- (feat.자연어처리) )에서 개념을 간단하게 설명했지만, 쉽게말해서 기계가 사람의 언어에 대해 처리하는 계산적 기술 (Computational Technicques)의 집합 이라고 할 수 있다. 이런 NLP (자연어처리) 의 세부분야로는 감정분석 …
+ 여기서 자세히 보기
Latest Developments in Korean natural language AI Update
동영상 보기
주제에서 더 많은 유용한 정보 보기 자연어 처리 프로젝트
[Weekly Ainize]❤️Upload new open-source videos every week!
KoNLpy-gRPC is the open source that AI can analyze Korean language.
🚀Ainize is \”Open source as a Service” platform.
– Free deployment
– No worries about infrastructure
– One-click access from Github
✔️Sign up for Ainize Project! 👉http://bit.ly/2WcsRpL
▼▼ More infos and links are just a click away ▼▼
◆ QnA : https://link.ainize.ai/33aZWV0
◆ Medium : https://link.ainize.ai/3gXKBiX
◆ E-Mail : [email protected]
#Konlpy #ainize #opensource #developer
자연어 처리 프로젝트주제 안의 관련 사진
Latest Developments in Korean natural language AI New
NLU / NLP / NLG 에 대한 간단한 개념 – 프로젝트 전 사전 스터디3 Update
14/02/2020 · 자연어 처리 – 위키백과, 우리 모두의 백과사전. 위키백과, 우리 모두의 백과사전. 자연어 처리(自然語處理) 또는 자연 언어 처리(自然言語處理)는 인간의 언어 현상을 컴퓨터와 같은 기계를 이용해서 모사 할수 있도록 연구하고 이를 구현하는 인공지능의 주요 분야 중 하나다.
+ 여기서 자세히 보기
당신의 투자 인생을 영원히 바꿔줄 프로젝트, NeuroFusion에 참여하세요 [풀버전] New Update
아래 동영상 보기
주제에서 더 많은 유용한 정보 보기 자연어 처리 프로젝트
목차
00:00 인사말
01:16 Chapter 1: 제 4차 산업혁명
03:49 Chapter 2: 인지과학의 여명
08:17 뇌파기반 헤지펀드를 위한 필요 요소
10:34 Chapter 3: NeuroFusion
14:12 플랫폼 디자인 초안(2019년 버전), 그리고 법률검토
18:07 Chapter 4: Project Valley
18:21 Valley 참가혜택 1: 자산배분/가치투자/트레이더 훈련과정
20:06 Valley 참가혜택 2: 인공지능 차세대 투자 플랫폼
22:43 NeuroFusion 두번째 팀원: 카카오톡을 개발한 전설적 개발자
23:30 NeuroFusion 세번째 팀원: 9년간 한 해도 잃지 않은 MIT출신 퀀트 트레이더
24:37 NeuroFusion 네번째 팀원: 구글의 M\u0026A 30건 이상을 리드한 가치평가 스페셜리스트
25:52 NeuroFusion 외부 학술자문: 하버드 의대 뇌과학 전공 박사
26:01 NeuroFusion 외부 법률자문: 서울대 로스쿨 출신 핀테크 전문 변호사
26:26 Valley 참가혜택 3: 집단지성 투자실험 Project Cortex 참가 기회
28:19 Valley 참가혜택 4: 커뮤니티, 라이브 세션, Q\u0026A, 진로상담
28:58 Valley 참가혜택 5: 운동, 명상 등을 계량화한 자기관리 프로그램
30:29 Valley 참가혜택 6: 수료증 및 커리어 관리
30:57 Valley 참가혜택 7: 추후 Project 우선 참가 기회
31:07 Project Valley 참가혜택 요약
31:59 Chapter 5: Project Stella – 비영리 프로젝트
33:20 NeuroFusion 프로젝트 참가 방법
재테크를 넘어, 여러분의 삶 자체를 바꿔놓을 프로젝트가 시작됩니다.
www.neurofusion.ai
자연어 처리 프로젝트주제 안의 사진 몇 장
당신의 투자 인생을 영원히 바꿔줄 프로젝트, NeuroFusion에 참여하세요 [풀버전] New
주제와 관련된 검색 자연어 처리 프로젝트
adieu l’ami
l’ami du peuple
l’ami retrouvé
l’ami retrouvé résumé
자연어처리기술
자연어처리 알고리즘
자연어 처리 전망
한국어 자연어처리
이 스레드를 봐주셔서 감사합니다 자연어 처리 프로젝트
무이메이커스_딥러닝을 활용한 자연어 처리 프로젝트 (NLP Classification) (1/2)
프로젝트 진행 순서
1. NLP (Natural Language Processing) 개요 (Overview)
2. Text 데이터 전처리 (Preprocessing)
3. 데이터에 적합한 딥러닝 모델 생성 (Modeling)
4. 모델 평가 및 시각화 (Evaluation and Visualization)
5. 실생활 적용
안녕하세요 헬스케어 제품 개발회사 허니컴의 무이메이커스페이스 입니다.
저희는 딥러닝을 접목시킨 제품 개발을 위해 다양한 프로젝트를 수행하고,
이를 활용하여 인공지능을 지닌 다양한 헬스케어 제품을 생산하는데 그 목적이 있습니다.
이번 시간에는 딥러닝을 활용한 자연어 처리 및 분류 프로젝트를 소개하고자 합니다.
목표는 Kaggle 의 Quora Insincere Questions Classification 프로젝트에로
Quora 에서 게시된 글이 Insincere 한 Question 인지 아닌지를 분류하는 것입니다.
(해당 Kaggle 은 Insincere 를 Non-neutral, Sexual, Not reality 등으로 정의합니다.)
Dataset 구성은 1,306,122 개의 질문 번호와 질문 Text, Target 으로 구성된 Training Set,
375,806 개의 질문 번화아 질문 Text 로 구성된 Test Set,
4개 종류의 Pre-trained Word Embedding 으로 되어있습니다.
https://www.kaggle.com/c/quora-insincere-questions-classification/overview
Quora Insincere Questions Dataset 의 구성
1. NLP 개요 (Overview)
이번주 저희의 목표는 Text 속에서 의미있는 정보를 추출하고 분석하는 NLP 와 관련된 프로젝트를 수행합니다.
NLP 는 한국어로 자연어 처리를 의미하고, 해당 자연어는 일상 생활에서 사용되는 언어들을 의미합니다.
다양한 언어들이 존재하며 해당 언어들만의 특성이 모두 다르기에 NLP는 다소 어렵고 연구가 필요한 분야였으나,
딥러닝의 발달과 더불어 상당히 높은 수준의 성과를 이뤄내며 인공지능 분야의 핵심 요소로 자리잡았습니다.
NLP 는 언어를 데이터로 표현하기 위해 단어를 Vector 로 변환하고자 노력하였습니다.
초기에는 Sparse Representation 을 적용하였으나, 이는 밑의 수식과 같이 하나의 벡터에 하나의 단어를
표현하므로 차원이 매우 낭비되며 단어 간의 연관성을 표현하기가 불가능하다는 한계가 있습니다.
따라서 차원을 줄이고 의미를 추가시킨 Dense Representation 을 이용한 Word Embedding 을 사용합니다.
Word Embedding 에는 Word2Vec, FastText, Glove 등의 방법론이 있습니다.
Custom Dataset 을 사용해 해당 방법론을 적용한 Custom Word Embedding 을 만들 수 있지만,
위키 백과와 같은 대용량의 정보를 학습한 Word Embedding 들이 존재하므로 이를 활용하여 적용합니다.
2. 데이터 전처리 (PreProcessing)
데이터 전처리를 위해 NLTK 패키지와 Torchtext 를 다운받습니다.
NLTK 패키지는 파이썬에서 제공하는 자연어 처리용 패키지이며,
Torchtext 는 Pytorch 에서 제공하는 자연어를 딥러닝에 적용하기 쉽게 만든 DataLoader 입니다.
https://www.nltk.org/
https://torchtext.readthedocs.io/en/latest/
pip install nltk pip install torchtext nltk.download()
NLTK 패키지에 word_tokenize 를 통해 문자열을 Word 단위로 잘라주는 Tokenizing 을 사용하고
torchtext 의 Field 를 사용하여 각 Text 데이터를 Tensor 로 처리합니다.
매개 변수들을 해당 데이터에 맞게 사용하시면 됩니다.
from nltk import word_tokenize import torchtext text = torchtext.data.Field(sequential = True, # 순서 여부 use_vocab = True, # Vocab 사용 여부 tokenize = word_tokenize, # nltk 패키지 토큰화 lower = True, # 소문자로 전환)
해당 과정을 통해 전처리된 Text 를 하나 추출하여 데이터를 확인해보면,
다음과 같이 Word 단위로 처리된 것을 확인할 수 있습니다.
3. 데이터에 적합한 딥러닝 모델 (Modeling)
자연어 데이터는 단순히 주어진 정보 안에서 특징을 뽑고 해결하는 것이 아닌,
앞 뒤 단어들과의 어법, 연관성 등 연계된 정보 안에서 뽑을 수 있는 특징이 많으므로,
시계열 데이터에서 주로 사용하는 RNN (Recurrent Neural Network) 구조의 모델을 사용합니다.
cs231n 에 소개된 RNN 의 기본 구조
RNN 의 특징은 네모 박스 친 Hidden Layer 안에 Neuron 들입니다.
단순히 Input 값에만 영향을 받는것이 아닌 이전 상태의 Neuron 도 다음 상태에 영향을 준다는 부분입니다.
수식으로 살펴볼 때 이전 상태 (t-1) 의 Hidden Neuron 과 현재 상태 (t) 의 Input 이 모두 포함되며,
이를 비선형 함수를 통해 분류하는 기존 Neural Network 를 변형시킨 구조입니다.
그러나 RNN 은 Hidden Neuron 이 길어지면, 즉 학습할 과거의 정보가 길어질수록
학습 과정에서 지나치게 곱셈이 늘어나면서 Vanishing Gradient 현상이 나타납니다.
그리하여 이런 단점들을 없애기 위해 LSTM, GRU 모델들이 개발되어 사용되고 있고,
저희는 자연어 처리의 첫 번째 프로젝트로 기본 LSTM 모델을 사용하기로 하였습니다.
Bidirectional LSTM (좌) 및 Deep Bidirectional LSTM (우)
또한 단순히 이전 상태의 정보만 사용하는 것이 아닌, 이후 상태의 정보도 파악하기 위해
Bidirectional LSTM 을 사용하고 이를 층을 쌓아 Deep 하게 만들면 우측과 같은 형태로 구축됩니다.
Pytorch 에서 제공되는 Neural Network 모듈 안에 LSTM 을 통해 구현하였습니다.
다음주에는 실제 LSTM 모델 및 다양한 딥러닝 모델에 적용하여 성능 평가를 진행하겠습니다.
……..
시제품 제작 문의
NLP 비전공자가 챗봇 프로젝트를 구현하기까지
안녕하세요. Universtiy of California, San Diego에서 Political Science을 전공해 멀티캠퍼스와 과학기술정보통신부가 주관하는 인공지능 자연어 처리 교육과정을 통해 파이썬, 인공지능 자연어 처리, 챗봇 서비스 기획을 처음 접하게 된 이준형입니다. 교육과정을 마무리하면서 자연어 처리 프로젝트에 관해 글로 남기고 싶어 이 글을 쓰게 되었습니다. 우선, 멀티캠퍼스 교육과정을 통해 각각의 다른 전공과 배경을 가지고 있는 6명의 팀원이 만나 자연어 처리와 BERT를 활용한 챗봇 서비스를 구현이라는 공통된 관심사를 바탕으로 서울시 2030 청년정책 챗봇 서비스 프로젝트를 기획하게 되었습니다. 챗봇 서비스를 위해 다양한 알고리즘과 자연어 처리 기술 등을 비전공자로서 공부하면서 많은 어려움이 있었지만 다양한 컨퍼러스(ETRI, KorQuAD1.0 등)를 참가하면서 지식을 늘릴 수 있었습니다. 그리고 마지막 과정이 끝난 뒤, 두 가지 좋은 소식을 얻게 되었습니다.
첫 번째는 저희 팀에서 준비했었던 ETRI openAPI 공모전에서 장려상 수상하게 되었습니다. 12월 중에 있는 ETRI AI Tech Concert 나눔이라는 행사에서 프로젝트 발표 연락이 왔고, 팀원 모두가 열심히 한 프로젝트에 좋은 결과가 나와서 정말 기뻤습니다. 두 번째로는 멀티캠퍼스 최종 프로젝트 발표에서 저희 팀이 최우수상을 받게 되었습니다. 더 많은 노력을 쏟은 팀도 많이 있었는데 운 좋게 기대 이상의 평가를 받게 되었습니다. 이상 저의 대한 소개와 프로젝트의 취지를 마치고, 어떻게 서울시 2030 청년정책 봇을 구현했는지 소개해 드리겠습니다.
1. 프로젝트 개요
1.1 프로젝트 전체 개요
서울시 챗봇팀이 개발한 ‘청년정책 봇’은 시나리오 기반이 아닌 딥러닝 기반의 챗봇 서비스다. ETRI에서 개발한 KorBERT를 통해 언어 처리 모델을 대신하고, 형태소 분석 API를 통해 질문 문장에 대한 의도를 분석하였다. 카카오에서 배포한 khaii 형태소 분석기 적용을 통해 구문분석 정확도를 향상을 확인할 수 있었다. 또한, 위키 QA API를 통해 일반적인 질의응답을 위한 기능을 추가했다. 현재 상용화된 챗봇 서비스의 대부분은 미리 구성된 시나리오(Flowchart)를 따라가는 방식을 활용하며, 자연어 처리 기술은 신뢰도가 낮아 사용되지 않고 있다. 그에 반해, ‘청년정책 봇’은 cdQA 파이프라인을 접목해 유사도 높은 문서를 언어 처리 모델에 적용하는 방식으로 접근해 신뢰도를 높일 수 있었다. 기존 빌더를 통해, 상용화된 서비스 대비 두 가지 장점이 있다. 첫 번째 장점은 딥러닝 모델에 따른 발전 가능성으로써 ETRI KorBERT의 지속적인 개선에 따라 청년정책 봇의 기계 독해 성능도 같이 개선된다는 것이다. 두 번째 장점은 서비스 지속 가능성으로써 cdQA 파이프라인에 기반해 주기적인 웹 크롤링을 통해 데이터 추가가 가능하기 때문에 소프트웨어 유지 보수에 필요한 자원을 최소화할 수 있다는 것이다. 청년정책 챗봇을 통해 cdQA 파이프라인과 ETRI BERT 모델을 활용해 기존의 데이터 인풋 제한을 극복하고 기계 독해에 대한 설루션을 제시할 수 있었다.
1.2 프로젝트 기획 배경 및 목표
멀티캠퍼스 자연어 처리 교육과정을 통해 만나게 된 6명이 BERT 모델을 활용한 챗봇 구현이라는 공통된 관심사를 바탕으로 이번 프로젝트에 참여했다. 프로젝트 일정과 유사한 시기에 한국전자통신연구원(ETRI)에서 배포한 자연어 처리 API를 활용한 사례를 찾는 공모전이 있어 해당 프로젝트의 전반적인 구성은 공모전과 같은 방향으로 진행했다. 프로젝트 기획을 위한 사전 연구 단계에서 ETRI 공공 인공지능 포털을 접하게 되었고, 한국어 처리가 가능한 챗봇 구현에 있어서 Open API는 중요한 개발 가이드라인으로 활용할 수 있었다. 해당 플랫폼에서 제공되는 모델과 학습 데이터는 짧은 개발 기간에 적합한 프로젝트의 방향성을 설정하는데 중요한 기반이 되었고, 본 공모전을 통해 ‘서울시 챗봇팀’은 자체적으로 개선된 챗봇 프레임워크를 시민 생활과 밀접한 서울시 청년 정책 도메인에 적용 및 구현을 시도할 수 있었다. 많은 사용자를 대상으로 하는 챗봇 플랫폼 개발에 있어서 ETRI Open API가 제공하는 높은 정확도의 모델, 서버 신뢰도, 확장 가능성에 기반해 서비스를 기획부터 구현까지 목표를 달성할 수 있었다.
2. 프로젝트 현황
2.1 챗봇 시장분석
챗봇은 사용자가 질문하면 기계가 대답하는 질의응답으로 구성된 프로그램이다. 대화 주제에는 일반 주제(General)와 특정 주제(Domain)로 나누어질 수 있고, 응답 방식은 검색 모델(Retrieval-Based)과 생성 모델(Generative)로 접근할 수 있다. 모든 주제에 답변을 자동으로 생성해 대답을 하는 것은 이상적이지만 현실적으로 구현이 어렵다. 따라서 특정 주제에 대해 미리 구성된 시나리오 기반의 챗봇 빌더를 통해 상용화가 되고 있다. 이러한 문제를 해결하고자, 시나리오 기반이 아닌 문서탐색과 구문 분석을 통해 내용을 실시간으로 추출하는 방식으로 질의응답을 구현했다. 따라서 특정 주제에 대하여 문서 데이터를 정의했고, 이에 기반한 질의응답이 가능하도록 했다. 그 결과, cdQA 파이프라인을 통해 서울시 청년 정책에 관한 질의응답 시스템을 구축하게 되었다.
2.2 기존 챗봇 빌더와의 차별점
현재 상용화된 챗봇 서비스의 대부분(구글 다이얼로그 플로우, 카카오 i 오픈 빌더)은 미리 구성된 시나리오(Flowchart)만을 따라가는 한계점을 가지고 있다. 반면 청년정책 봇은 ETRI API를 기반으로 한 BERT 딥러닝 활용 모델을 적용했다. 복합 추론 기반의 자연어 처리 결과를 바탕으로 사용 문맥에 따라 달라지는 의미를 파악하고 탁월한 답변을 제공하는 유연한 대화 모델을 생성할 수 있었다.
청년정책 봇 구성에 포함된 cdQA 파이프라인에는 크게 두 가지 장점이 있다.
– 확장 및 지속 가능성: 기계 독해 기능 면에서, 언어 처리 모델에 대한 추가적인 학습이 필요하지 않아 자동화를 달성하기 쉽다. 청년정책의 경우 서울시 홈페이지에 대한 주기적인 웹 크롤링을 통해 수정된 부분만 데이터베이스에 추가하면 되기에 소프트웨어 유지 보수에 필요한 자원을 최소화할 수 있다.
– 딥러닝 모델에 따른 발전 가능성: 기계 독해 태스크를 위한 BERT 언어 처리 모델의 성능은 지속적으로 발전되고 있다. BERT의 경량화 모델로 대체할 경우 연산에 필요한 시간을 단축할 수 있을뿐더러 ETRI API를 통해 모델 사용을 대신하기 때문에 업데이트에 따라 연산 능력을 향상할 수 있다.
2.2 사용된 ETRI API 종류 및 활용방안
챗봇 아키텍처를 구성하는 요소에는 언어 처리 모델, 형태소 분석기와 같이 독립적인 주요 성분이 존재한다. 하지만 컴퓨팅 자원이 제한적이기 때문에 자체적인 언어 처리 모델 구축에 큰 어려움이 있었다. 그래서 한국어 자연어 처리 연구 분야를 이끄는 ETRI 엑소브레인 연구진에서 공개한 API를 통해 해당 요소들을 대체함으로 이를 해결할 수 있다고 판단했다. 2019년 10월 기준으로 한국어 자연어 처리 데이터 셋 (KorQuAD)을 활용한 모델 정확도 리더보드에서 ETRI ExoBrain팀의 KorBERT 모델이 (EM 87.76과 F1 95.02) 평가 기준으로 1위를 차지하였다. GPU와 같은 컴퓨팅 리소스가 제한되어 있기 때문에 한국어 처리에 독보적인 모델을 API를 통해 ‘서울시 챗봇팀’이 제작한 챗봇 아키텍처에 적용해볼 소중한 기회가 되었다. 또한 위키백과 QA API를 통해 챗봇의 본 주제에 벗어난 일반 대화에 대한 답변 처리를 하는 방향으로 활용하였다. ETRI API 활용을 통해 시간 소요를 대폭 감소할 수 있었고 프로젝트의 전반적인 구성과 완성도 부분에 초점을 맞출 수 있었다. ETRI에서 제공되는 모델은 향후 성능 개선과 프로젝트 태스크에 맞게 튜닝할 때 비교의 기준치로도 활용될 예정이다.
서울시 정책 질의응답 챗봇 아키텍처
2.3 질의응답 챗봇 아키텍처 및 동작 과정
기계 독해 태스크에 최적화된 ETRI BERT 언어 처리 모델을 기반으로 챗봇 서비스를 구현한다. 사용자가 입력한 문장에 대해 기계 독해 단계에서 진행되는 토큰 임베딩 (Token Embedding) 단계에는 한 번의 인풋에 512개 이상의 단어가 들어간 문단을 처리하지 못하는 제한이 있다. 이에 따라 RoBERTa (Doc to Sentences)와 같은 모델 등이 존재하지만, 사용자의 질문 시에 질문과 가장 유사도가 높은 문서와 문단을 호출하는 cdQA (Closed-Domain Question Answering) 도메인 특정 파이프라인을 접목함으로써 자료 입력 크기의 제한 문제를 해결했다.
서울시 청년 정책에 관련된 사용자의 질문이 들어오면, ETRI 형태소 분석 API를 활용하여 명사와 동사를 세부적으로 추출하게 되고, 구문 분석 결과를 바탕으로 구축되어 있는 문서 데이터로부터 핵심 단어를 찾는 TF/IDF 알고리즘을 활용해 유사도가 가장 높은 문서와 문단을 선택하게 된다. 마지막으로, 질문에 대한 답일 가능성이 가장 큰 문단을 메신저 채널을 통해 출력함으로써 챗봇이 동작하는 구조로 설계되었다.
도메인 특정 질의응답을 위한 파이프라인 구성
cdQA는 크게 문서 검색을 진행하는 Retriever와 기계 독해를 진행하는 Reader 두 가지 부분으로 나누어져 있다. 메신저 채널을 통해, 사용자로부터 질문이 들어왔을 때 질문을 ETRI 형태소 API를 활용해 명사와 동사를 추출했고 TF/IDF와 BM25 알고리즘 중 하나를 선택해서 해당 질문과 가장 유사도가 높은 문서를 선택하게 된다. 단어 빈도에 있어서 BM25 알고리즘은 TF/IDF 보다 특정 값으로 수렴하고, 불용어가 검색 점수에 영향을 덜 미친다는 장점이 있다. 특히, 문서의 평균 길이(AVGDL)를 계산에 사용함으로써 문서의 길이가 검색 점수에 영향을 덜 미치는 강점이 있어 BM25 알고리즘을 통해 문서 유사도 측정을 하였다.
챗봇에 활용된 메인 함수
cdQA 파이프라인 구성 단계는 아래와 같다.
코사인 유사도 계산을 통해, 주어진 질문과 가장 유사한 문서 및 문장을 선택한다.
Reader 부분에서 선택된 문서와 질문을 KorBERT API에 전송한다.
ETRI KorBERT API를 활용해 문서에 대한 질문을 추론하여 json 형식으로 반환한다.
위와 같은 과정을 통해 질문에 가장 적합한 답을 추론하게 된다. 결과적으로, 메신저 채널에서는 사용자의 질문에 가장 알맞은 답변을 출력하여 질의응답 태스크를 수행할 수 있으며, 시스템상에서는 답변이 추출된 문장에 대한 정보와 답변에 대한 정확도를 포함하고 있다.
챗봇에 활용된 메인 함수 동작원리 및 구조
사용자의 질문이 Content 변수로 함수에 입력
⤋
ETRI 형태소분석기로 구문 분석된 질문과 DB문서 중 유사도가 있는지, 함수에 처음 들어온 케이스인지 판단
⤋
best_idx_scores 값에 따라 9 미만의 값일 경우 해당 리스트(카테고리별 정책 목록)를 반환
⤋
best_idx_scores 값이 9 이상일 경우 유사도가 있는 문서를 선택하고 본 함수로 재입력
⤋
함수에 두 번째 들어온 경우 DB문서에 대한 유사도 계산 (0에서 최대 20)을 통해 가장 높은 스코어를 받은 문장이 질문과 함께 ETRI KorBERT 모델로 전달
⤋
유사도 값이 1 미만일 경우 ETRI WikiQA API를 통해 답변 반환
3. 프로젝트 개발 결과
3.1 결과물 데모 및 대화 흐름 예시
데모 버전 입력 예시문:
“청년 금융 정책 알려줘”
“면접을 위한 정장 무료로 대여하고 싶어”
“희망 두배 청년 통장 지원대상 알려줘”
4. 기대 효과
4.1 상용화 및 확장 가능성
롯데홈쇼핑 챗봇 서비스 프로젝트에 참여하신 분과의 대화를 통해 현재 상용화된 챗봇 서비스의 대부분은 이미 짜인 시나리오(Flowchart)를 따라가는 방식을 활용하며, 자연어 처리 기술은 신뢰도가 낮아 사용되지 않는다는 것을 알게 되었다. 예를 들어, 제품 카탈로그를 보여주거나 영업시간을 알려주는 챗봇은 간단한 버튼이나 빠른 답변 기능, 또는 좋은 선택지를 통해 만드는 것이 더욱 편리하다. 하지만 LG전자 챗봇 프로젝트 매니저는 지난 10월에 열린 KT 넥스알 빅데이터 콘퍼런스 발표를 통해 장기적으로는 ‘사람 같은’ 챗봇이 각광받을 전망이라고 밝혔다. 챗봇의 전반적인 개발 방향은 스크립트에 기반한 기술에서 (Scripted Chatbots), 의도 인식 (Intent Recognizers) 및 가상 도우미 (Virtual Agents)를 거쳐 자연스러운 대화가 가능한 방향(Human-like Advisor)으로 나아가고 있다. 챗봇이 고객 서비스 및 응대에 대한 역할을 하기 위해서는 실제 대화를 하는듯한 자연어 처리 기술이 필수이고 고도화된 챗봇 개발을 위해서는 풍부한 사용자 경험, 객체인식, 개인화 등의 기술이 추가적으로 필요하다. 사용자의 발화 의도에 기반해 특정 주제에 대해 답변의 줄 수 있는 Closed-Domain QA 챗봇 아키텍처는 자연스러운 대화를 위한 챗봇 설계에 밑바탕이 될 것이다. 본 ETRI 공모전을 위해, 개발한 청년정책 챗봇은 Closed-Domain QA 파이프라인과 ETRI BERT 언어처리 모델을 활용해 인풋의 길이 제한을 극복하고 기계 독해에 대한 설루션을 제시할 수 있었다.
챗봇 서비스 사용을 위해, 별도의 기기나 어플을 설치해야 하는 번거로움이 없이 카카오톡이나 텔레그램과 같은 사용자 친화적 메신저 플랫폼을 사용할 수 있도록 구성하였을 뿐만 아니라 클라이언트의 요청에 따라 공공정책에 대한 질의응답뿐만 아니라 민원처리에 관한 자료를 제공할 수 있다. 또한, 자주 묻는 질문을 챗봇을 통해 가장 적절한 질문에 대한 답을 출력해주는 방식으로 작동한다면 사람 대응이 필요한 고객상담 수요를 줄이는 효과가 나타날 것으로 예상한다. 기계 독해에 특화된 챗봇을 통해 사용자가 필요로 하는 알맞은 정책을 알려주고 정보를 얻을 수 있는 웹사이트 연계해 정책에 대한 시민의 관심에 부응할 수 있을 것이다.
4.1 추가 연구를 위한 참고 문헌 목록
이동헌, 박천음, 이창기, 박소윤, 임승영, 김명지, 이주열. (2019). BERT를 이용한 한국어 기계 독해. 한국정보과학회 학술발표논문집, 557-559.
임승영, 김명지, 이주열. (2018). KorQuAD: 기계독해를 위한 한국어 질의응답 데이터셋. 한국정보과학회 학술발표논문집, 539-541.
Alberti, Chris, Kenton Lee, and Michael Collins. “A bert baseline for the natural questions.” arXiv preprint arXiv:1901.08634 (2019).
Devlin, Jacob, et al. “Bert: Pre-training of deep bidirectional transformers for language understanding.” arXiv preprint arXiv:1810.04805 (2018).
Yang, Wei, et al. “End-to-end open-domain question answering with bertserini.” arXiv preprint arXiv:1902.01718 (2019).
Yang, Yi, Wen-tau Yih, and Christopher Meek. “Wikiqa: A challenge dataset for open-domain
question answering.” Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. 2015.
이 글을 마치며, 서울시정책봇 프로젝트에 궁금한 점은 [email protected] / 자세한 코드 내용은
https://github.com/chawonseok/jungchatbot을 참고 바랍니다.
자연어 처리(NLP) 프로젝트를 구성하고 관리하는 방법
ML 업계에서 일하면서 배운 것이 하나 있다면 다음과 같습니다. 기계 학습 프로젝트는 지저분합니다.
사람들이 물건을 정리하기를 원하지 않는 것이 아니라 프로젝트 과정에서 구조화하고 관리하기 어려운 것이 많다는 것입니다.
당신은 깨끗하게 시작할 수 있지만 일이 방해가됩니다.
몇 가지 일반적인 이유는 다음과 같습니다.
노트북에서 빠른 데이터 탐색,
github의 연구 리포지토리에서 가져온 모델 코드,
모든 것이 이미 설정되었을 때 추가된 새 데이터세트,
데이터 품질 문제가 발견되고 데이터의 레이블을 다시 지정해야 합니다.
팀의 누군가가 아무에게도 알리지 않고 빠르게 무언가를 시도하고 훈련 매개변수(argparse를 통해 전달됨)를 변경했습니다.
상단에서 나온 이번 한 번만 프로토타입을 프로덕션으로 전환하도록 푸시합니다.
머신 러닝 엔지니어로 일하면서 나는 많은 것을 배웠습니다. 최신 상태를 유지하고 NLP 프로젝트를 점검하는 데 도움이 되는 것들 (실제로 ML 프로젝트를 점검할 수 있는 한:)).
이 게시물에서는 다양한 데이터 과학 프로젝트를 진행하면서 배운 핵심 지침, 지침, 팁 및 요령을 공유할 것입니다. 많은 것들이 모든 ML 프로젝트에서 가치가 있을 수 있지만 일부는 NLP에만 해당됩니다.
요점:
좋은 프로젝트 디렉토리 구조 만들기
데이터 변경 처리: 데이터 버전 관리
ML 실험 추적
메트릭 및 KPI의 적절한 평가 및 관리
모델 배포: 올바르게 수행하는 방법
뛰어들자.
디렉토리 구조
데이터 과학 워크플로는 여러 요소로 구성됩니다.
데이터,
모델,
보고서,
교육 스크립트,
초매개변수,
등등.
팀 간에 일관된 공통 프레임워크를 갖는 것이 종종 유리합니다. 대부분의 경우 동일한 프로젝트에서 작업할 여러 팀 구성원이 있을 것입니다.
데이터 과학 프로젝트 구성을 시작하는 방법에는 여러 가지가 있습니다. 팀의 특정 요구 사항에 따라 사용자 지정 템플릿을 만들 수도 있습니다.
그러나 가장 쉽고 빠른 방법 중 하나는 쿠키 커터 주형. 자동으로 포괄적인 프로젝트 디렉토리를 생성합니다.
#머신러닝
해왕성.ai
자연어 처리(NLP) 프로젝트를 구성하고 관리하는 방법
이 게시물에서는 다양한 데이터 과학 프로젝트를 진행하면서 배운 핵심 지침, 지침, 팁 및 요령을 공유할 것입니다. 많은 것들이 ML 프로젝트에서 가치가 있을 수 있지만 일부는 NLP에만 해당됩니다.
NLP 첫걸음! 자연어 처리 입문 완벽 가이드
최근 자연어 처리(NLP) 관련 강의가 많이 등장하고 있지만, 그 예시나 연습은 주로 영어나 영어를 이용하게끔 되어 있는 라이브러리 등에 대한 사용이 주를 이루고 있습니다. 그러나 우리의 실제 서비스에서는 한글(보조적으로 영어)을 기반으로 한 언어 처리가 대부분입니다. 따라서 본 강의 또한 한국어를 위주로 여러 가지의 언어 처리 기법들을 학습할 수 있도록 도와드립니다. (* 일부 강의자료는 자연어처리 분야 특성상 영어가 다소 포함될 수 있습니다.)
키워드에 대한 정보 자연어 처리 프로젝트
다음은 Bing에서 자연어 처리 프로젝트 주제에 대한 검색 결과입니다. 필요한 경우 더 읽을 수 있습니다.
이 기사는 인터넷의 다양한 출처에서 편집되었습니다. 이 기사가 유용했기를 바랍니다. 이 기사가 유용하다고 생각되면 공유하십시오. 매우 감사합니다!
사람들이 주제에 대해 자주 검색하는 키워드 위키독스 1,000명 이상의 추천, Best 3위 『딥러닝을 이용한 자연어처리 입문』 저자의 이야기 | 러닝스푼즈
- 자연어처리
- 한국자연어처리
- 데이터사이언스
- 데이터사이언티스트
- 데이터분석가
- 위키독스
- 딥러닝을이용한자연어처리입문
- 자연어처리책
- 자연어처리강의
- 러닝스푼즈
위키독스 #1,000명 #이상의 #추천, #Best #3위 #『딥러닝을 #이용한 #자연어처리 #입문』 #저자의 #이야기 #| #러닝스푼즈
YouTube에서 자연어 처리 프로젝트 주제의 다른 동영상 보기
주제에 대한 기사를 시청해 주셔서 감사합니다 위키독스 1,000명 이상의 추천, Best 3위 『딥러닝을 이용한 자연어처리 입문』 저자의 이야기 | 러닝스푼즈 | 자연어 처리 프로젝트, 이 기사가 유용하다고 생각되면 공유하십시오, 매우 감사합니다.