ट्रेडिंग रणनीतियाँ ब्लॉग और समाचार भावना का फायदा उठाने के लिए







+

इसी प्रकाशन ट्रेडिंग रणनीतियाँ ब्लॉग और समाचार भावना फायदा उठाने के लिए Wenbin जांग और स्टीवन Skiena कम्प्यूटर साइंस विभाग, स्टोनी ब्रूक विश्वविद्यालय स्टोनी ब्रूक, न्यूयॉर्क 11794-4400 यूएसए हम (एक तुलना के रूप में ब्लॉग और समाचार) मात्रात्मक मीडिया का उपयोग एक बड़े पैमाने पर प्राकृतिक भाषा प्रसंस्करण द्वारा उत्पन्न डेटा (एनएलपी) पाठ विश्लेषण प्रणाली एक व्यापक प्रदर्शन करने के लिए और एक कंपनी की मीडिया रिपोर्ट पर कैसे तुलनात्मक अध्ययन fre - quency, भावना polarity और आत्मीयता की आशंका है या फिर इसके शेयर ट्रेडिंग वॉल्यूम और वित्तीय लाभ flects। हमारी विश्लेषण मीडिया डेटा अत्यधिक है कि ठोस सबूत उपलब्ध कराता है सूचनात्मक, पहले से साहित्य में सुझाव दिया है - लेकिन ब्लॉगों के कई बड़े संग्रह के हमारे पैमाने पर अध्ययन नहीं और पांच साल के लिए खबर है। हमारे निष्कर्ष पर बिल्डिंग, हम एक भावना के आधार पर बाजार के तटस्थ ट्रेडिंग रणनीति दे जो ओवर कम अस्थिरता के साथ लगातार अनुकूल रिटर्न देता है पांच वर्ष की अवधि (2005-2009)। हमारे परिणाम में महत्वपूर्ण हैं सामान्य ब्लॉग और समाचार के प्रदर्शन की पुष्टि सेन व्यापक डोमेन और स्रोतों से अधिक timent विश्लेषण के तरीकों। इसके अलावा, खबर के बीच कई उल्लेखनीय मतभेद और ब्लॉग्स भी इस पत्र में पहचाने जाते हैं। परिचय कुशल बाजार परिकल्पना वित्तीय बाजारों का दावा है कि Kets जो वर्तमान मतलब है, "informationally कुशल कर रहे हैं" शेयर कीमतें पहले से ही सभी ज्ञात जानकारी और सभी को प्रतिबिंबित तथ्यों हुई। इसके अलावा, वित्त बाजारों में कीमतों में संयुक्त राष्ट्र हैं पक्षपाती और से सभी ज्ञान या भविष्य का अनुमान लगाया शामिल निवेशकों। इसलिए, निवेशकों को अतिरिक्त prof - नहीं कर सकते उनके व्यापारिक रणनीतियों इसकी बाजार से के आधार पर कर रहे हैं ज्ञात जानकारी, बाजार की कीमतों को कुशलता से कर रहे हैं क्योंकि संग्रह और विभिन्न जानकारी कुल और रख देरी के बिना बदल रहा है। हालांकि, एक बड़ी और बढ़ती साहित्य दस्तावेजों कि वित्तीय संकेतकों के आंदोलनों हमेशा consis - नहीं हैं 'कंपनियों fundamen - की मात्रात्मक उपायों के साथ तम्बू tals (जैसे (कटलर, Poterba, और ग्रीष्मकाल 1989; रोल 1988; कॉपीराइट सी। 2010, कृत्रिम की प्रगति के लिए एसोसिएशन इंटेलिजेंस (AAAI)। सर्वाधिकार सुरक्षित। वित्तीय विश्लेषण करने के लिए एक व्यावहारिक और उपयोगी तरीका प्रदान कर सकता है हमारे प्राथमिक लक्ष्य के बीच संबंधों का अध्ययन करने के लिए है शेयर बाजार के आंकड़ों और भाषाई मीडिया डेटा, दोनों ब्लॉग्स और खबर है, andtoillustratetheextenttowhichtheycancontribute निवेश रणनीतियों के डिजाइन के लिए। हमारा मुख्य योगदान इस पत्र में माहौल इस प्रकार हैं: • ब्लॉग और समाचार का तुलनात्मक अध्ययन - हम आचरण एक चार अलग-अलग linguis - के विचारशील तुलनात्मक अध्ययन टिक स्रोतों, यानी ट्विटर, Spinn3r आरएसएस ब्लॉग्स, LiveJour - एक तुलना के रूप एनएएल ब्लॉग्स, और दैनिक समाचार पत्रों में खबर है। हम कॉम इसी शेयरों और eval - के साथ उनकी भावनाओं को तराशना चार का उपयोग कर के साथ इक्विटी ट्रेडिंग प्रदर्शन uate क्रमश: सूत्रों का कहना है। हमारे विश्लेषण भी कई पता चलता है ब्लॉग और समाचार के बीच अलग-अलग गुण। उदाहरण के लिए, समाचार सूचना स्टॉक की कीमतों में शामिल किया जा सकता है तुरन्त (लगभग 1 दिन के भीतर) रिहाई के बाद, जबकि ब्लॉग ट्विटर जैसी जानकारी शेयर बाजार द्वारा अवशोषित हो जाएगा एक लंबे समय अवधि (करीब 2 से 3 दिन) के साथ। • बड़े पैमाने पर विश्लेषण - हम के व्यापक परिणाम दे ब्लॉग के लिए मोटे तौर पर एक टेराबाइट का उपयोग करते हुए शेयर बाजार का विश्लेषण खबर के आंकड़ों और विभिन्न कंपनियों के हजारों और। इस विश्लेषण के पैमाने पहले में करने का प्रयास नहीं किया गया है theliterature, andenablesustoidentifyshort-termbutsta - tistically मीडिया मात्रा के बीच महत्वपूर्ण सहसंबंध / भावना और वित्तीय लाभ / ट्रेडिंग वॉल्यूम। • कोर्पस आकार मायने रखती है - पर पिछला काम भावना आधारित वित्तीय विश्लेषण (जैसे (Tetlock, सार-Tsechansky, और Macskassy 2007)) के राष्ट्रीय वित्तीय पर स्पष्ट रूप से ध्यान केंद्रित समाचार पत्र, अर्थात् डाओ जोन्स न्यूज सर्विस और वॉल स्ट्रीट जर्नल। हालांकि, wedemonstratethatamore महत्वपूर्ण, विश्वसनीय भावना संकेत analyz - से आता है • भावना विश्लेषण के तरीके के मान्यकरण - एक - शायद हमारे अखबार के अन्य महत्वपूर्ण योगदान सबसे मजबूत है हमारे मीडिया भावना की सटीकता की तिथि को सत्यापन लिडा के विश्लेषण पद्धति। उचित मान्यता IM-है किसी के अभाव में संभव सोने के मानक पर सहमति इकाई स्तर भावना विश्लेषण के लिए (वेदना और ली 2008)। लेकिन एक पर्याप्त विश्वसनीय भावना को निकालने के लिए हमारी क्षमता सफलतापूर्वक की परवाह किए बिना समय के (पर व्यापार के लिए संकेत संकल्प) हमारी भावना है कि कठोर सबूत उपलब्ध कराता है तरीकों सही रूप lin - के जवाब में वास्तविक परिवर्तन को प्रतिबिंबित guistic जानकारी। यह पेपर निम्नानुसार व्यवस्थित है। पहले हम फिर से समीक्षा lated काम करते हैं। हम तो मूल और विशेषताओं का वर्णन मीडिया और वित्तीय डेटा के हम साथ काम करते हैं। इसके बाद हम प्रमुख के बीच संबंध का एक पूरा विश्लेषण दे है, जो शेयर बाजार चर और प्रमुख मीडिया चर, इस पत्र का सबसे महत्वपूर्ण हिस्सा है। अंत में, हम प्रस्ताव और मुझ पर आधारित एक बाजार तटस्थ ट्रेडिंग रणनीति का मूल्यांकन दीया डेटा। हम वित्तीय कीमतें काफी हैं कि निष्कर्ष निकालना मात्रात्मक मीडिया डेटा के साथ सहसंबद्ध और करने के लिए इस्तेमाल किया जा सकता दिलचस्प व्यापार रणनीति तैयार। संबंधित कार्य पिछला काम वित्त और कंप्यूटर के बीच बांटा गया है विज्ञान शैक्षणिक समुदायों। हम पहले सर्वेक्षण अनुसंधान वित्तीय दायरे से। Tetlock (Tetlock, सार-Tsechansky, और 2007 Macskassy) नकारात्मक शब्दों की घटना में है कि क्या जांच फर्म विशिष्ट समाचार लेख हमें फर्मों 'नकदी की भविष्यवाणी करने में मदद कर सकते हैं 'कंपनियों के शेयर बाजार में कीमतों को शामिल करने और है कि क्या बहती कुशलतापूर्वक भाषाई जानकारी। वे 'कंपनियों का दावा है कि शेयर कीमतों में निहित नकारात्मक सूचना के तहत प्रतिक्रिया समाचार लेख के tion। अधिक विशेष रूप से, नकारात्मक सूचना समाचार लेख में tion के साथ शेयर बाजार में कीमतों में परिलक्षित होते हैं मोटे तौर पर एक दिन की देरी। चान (2003 चैन) एक सबसेट के लिए मासिक रिटर्न की परख होती है शेयरों की उनके बारे में सार्वजनिक खबर जारी की है और पाता है के बाद निवेशकों है कि विशेष रूप से करने के बाद, जानकारी के लिए धीरे-धीरे प्रतिक्रिया बुरी खबर। एक अन्य महत्वपूर्ण खोज शेयरों जाते हैं चरम कीमत के बाद अगले महीने में रिवर्स आंदोलन सार्वजनिक खबर द्वारा बिना साथी बयान। इसके अलावा, इन पैटर्न सांख्यिकीय रूप से महत्वपूर्ण हैं। इस की एक सीमा अध्ययन मोटे, मासिक granularity का उपयोग करता है। हमारे पत्र में, हम दैनिक समाचार और कीमत आंदोलनों का विश्लेषण प्रदान करते हैं। Antweiler और फ्रैंक (Antweiler और 2004 फ्रेंक) के एक अध्ययन याहू वित्त से 15 लाख से अधिक संदेश और दो सबसे लोकप्रिय इंटरनेट शेयर हैं जो उग्र बुल, संदेश बोर्ड। वे भोले Bayes और समर्थन कार्यरत वेक्टर मशीन classifiers के "तेजी" सामग्री का आकलन करने के लिए इन स्टॉक संदेश। वे ये संदेश बोर्डों हैं दिखाने काफी जानकारीपूर्ण है, और आगे तेजी सकारात्मक है कि और काफी रिटर्न के साथ जुड़े। व्यापार के संदर्भ में मात्रा, कागज विवादास्पद राय एसोसिएशन रहे हैं पता चलता है अधिक ट्रेडों के साथ पैदा। कंप्यूटर विज्ञान की ओर से, तीव्र शोध कर रहे हैं पाठ खनन या मशीन सीखने समुदायों ने दिया है। उनका मूल विचार के साथ भाषाई जानकारी यों की है पाठ खनन तकनीक, की सुविधाओं का पूर्वनिर्धारित सेट प्राप्त प्रशिक्षण डेटा, और फिर classi - के साथ विभिन्न मॉडलों का निर्माण काल सांख्यिकीय दृष्टिकोण या सांख्यिकीय सीखने एल्गोरिदम। बाजार की प्रतिक्रिया के लिए पाठ खनन की एक विस्तृत सर्वेक्षण खबर के लिए (Mittermayer और Knolmayer में पाया जा सकता है 2006a)। विशेष रूप से, 3-श्रेणी मॉडल व्यापक रूप से इस्तेमाल किया जाता है दस्तावेज या शब्द लेबल करने के लिए। सकारात्मक पहली श्रेणी ( भावना) को करना है कि समाचार लेख या शब्दों के होते हैं जुड़े वित्तीय चर एक निश्चित डिग्री में वृद्धि एक निश्चित समय अवधि में, उदाहरण के लिए, एक समाचार घटना बनाता है एकल शेयर की कीमत "आईबीएम" fol - में 0.5% वृद्धि lowing दिन। इसी तरह, दूसरी श्रेणी (नकारात्मक सेन timent) तदनुसार परिभाषित किया गया है। तीसरी श्रेणी में होते हैं तटस्थ समाचार लेख या शब्दों की। इस मॉडल के तहत विशेषता (फंग, यू, और लाम शामिल 2002; Mittermayer और Knolmayer 2006b; थॉमस 2003; वुदरिच, चो, और आदि 1998)। यह भी राय में पर्याप्त रुचि नहीं किया गया है वित्तीय पाठ धाराओं के प्रयोग पर खनन और एनएलपी समुदाय यहाँ हम है जो स्टॉक और मीडिया डेटा स्रोतों का वर्णन इस पत्र में हमारे विश्लेषण के आधार के। शेयर डेटा हमारे शेयर की कीमत और मात्रा डेटा Thom - से प्राप्त होता है मीडिया डाटा कंपनी से संबंधित ब्लॉग और समाचार डेटा यूएस उत्पन्न किया गया लिडा 2005 ((लॉयड, Kechagias, और Skiena) आईएनजी, textmap), एक उच्च गति पाठ प्रसंस्करण व्यवस्था