I need some <code>NLTK</code> data packages in my code. I tried installing it from below command, but It installs all the packages that I do not need <pre class="prettyprint"><code>conda install -c conda-forge nltk_data </code></pre> How can I install specific NLTK data packages like stopwords, punkt, etc.

After installing nltk using pip,run the following code in ipython <pre class="prettyprint"><code>import nltk nltk.download() </code></pre> After this you will get a GUI where you can download all the data If you want specific download, you can do that too. GUI looks as shown below<img src="https://i.stack.imgur.com/fzAj6.png" alt="enter image description here">

From the NLTK documentation: <blockquote> Run the Python interpreter and type the commands: <pre class="prettyprint"><code>import nltk nltk.download() </code></pre> </blockquote> A new window will pop up where you can select the packages that you wish to install. Alternatively, you can use <pre class="prettyprint"><code>python -m nltk.downloader <collection|package|all> </code></pre> to install the package or collection you want, or use <code>all</code> to install all of them. Here is a list of the packages and collections that you can use in this command, extracted from nltk_data gh-pages. <h3>Packages</h3> <ul> <li>maxent_ne_chunker</li> <li>abc</li> <li>alpino</li> <li>biocreative_ppi</li> <li>brown</li> <li>brown_tei</li> <li>cess_cat</li> <li>cess_esp</li> <li>chat80</li> <li>city_database</li> <li>cmudict</li> <li>comparative_sentences</li> <li>comtrans</li> <li>conll2000</li> <li>conll2002</li> <li>conll2007</li> <li>crubadan</li> <li>dependency_treebank</li> <li>dolch</li> <li>europarl_raw</li> <li>floresta</li> <li>framenet_v15</li> <li>framenet_v17</li> <li>gazetteers</li> <li>genesis</li> <li>gutenberg</li> <li>ieer</li> <li>inaugural</li> <li>indian</li> <li>jeita</li> <li>kimmo</li> <li>knbc</li> <li>lin_thesaurus</li> <li>mac_morpho</li> <li>machado</li> <li>masc_tagged</li> <li>movie_reviews</li> <li>mte_teip5</li> <li>names</li> <li>nombank.1.0</li> <li>nonbreaking_prefixes</li> <li>nps_chat</li> <li>omw</li> <li>opinion_lexicon</li> <li>panlex_swadesh</li> <li>paradigms</li> <li>pe08</li> <li>pil</li> <li>pl196x</li> <li>ppattach</li> <li>problem_reports</li> <li>product_reviews_1</li> <li>product_reviews_2</li> <li>propbank</li> <li>pros_cons</li> <li>ptb</li> <li>qc</li> <li>reuters</li> <li>rte</li> <li>semcor</li> <li>senseval</li> <li>sentence_polarity</li> <li>sentiwordnet</li> <li>shakespeare</li> <li>sinica_treebank</li> <li>smultron</li> <li>state_union</li> <li>stopwords</li> <li>subjectivity</li> <li>swadesh</li> <li>switchboard</li> <li>timit</li> <li>toolbox</li> <li>treebank</li> <li>twitter_samples</li> <li>udhr</li> <li>udhr2</li> <li>unicode_samples</li> <li>universal_treebanks_v20</li> <li>verbnet</li> <li>webtext</li> <li>wordnet</li> <li>wordnet_ic</li> <li>words</li> <li>ycoe</li> <li>basque_grammars</li> <li>book_grammars</li> <li>large_grammars</li> <li>sample_grammars</li> <li>spanish_grammars</li> <li>tagsets</li> <li>mwa_ppdb</li> <li>perluniprops</li> <li>bllip_wsj_no_aux</li> <li>moses_sample</li> <li>wmt15_eval</li> <li>word2vec_sample</li> <li>vader_lexicon</li> <li>porter_test</li> <li>rslp</li> <li>snowball_data</li> <li>averaged_perceptron_tagger</li> <li>averaged_perceptron_tagger_ru</li> <li>maxent_treebank_pos_tagger</li> <li>universal_tagset</li> <li>punkt</li> </ul> <h3>Collections and the packages contained within them</h3> <ul> <li>all-corpora <ul> <li>abc</li> <li>alpino</li> <li>biocreative_ppi</li> <li>brown</li> <li>brown_tei</li> <li>cess_cat</li> <li>cess_esp</li> <li>chat80</li> <li>city_database</li> <li>cmudict</li> <li>comtrans</li> <li>conll2000</li> <li>conll2002</li> <li>conll2007</li> <li>crubadan</li> <li>dependency_treebank</li> <li>dolch</li> <li>floresta</li> <li>framenet_v15</li> <li>framenet_v17</li> <li>gazetteers</li> <li>genesis</li> <li>gutenberg</li> <li>ieer</li> <li>inaugural</li> <li>indian</li> <li>jeita</li> <li>kimmo</li> <li>knbc</li> <li>lin_thesaurus</li> <li>mac_morpho</li> <li>machado</li> <li>masc_tagged</li> <li>movie_reviews</li> <li>names</li> <li>nombank.1.0</li> <li>nps_chat</li> <li>omw</li> <li>paradigms</li> <li>pil</li> <li>pl196x</li> <li>ppattach</li> <li>problem_reports</li> <li>propbank</li> <li>ptb</li> <li>qc</li> <li>reuters</li> <li>rte</li> <li>semcor</li> <li>senseval</li> <li>sentiwordnet</li> <li>shakespeare</li> <li>sinica_treebank</li> <li>state_union</li> <li>stopwords</li> <li>swadesh</li> <li>switchboard</li> <li>timit</li> <li>toolbox</li> <li>treebank</li> <li>udhr</li> <li>udhr2</li> <li>unicode_samples</li> <li>universal_treebanks_v20</li> <li>verbnet</li> <li>webtext</li> <li>wordnet</li> <li>wordnet_ic</li> <li>words</li> <li>ycoe</li> <li>panlex_swadesh</li> <li>mte_teip5</li> <li>nonbreaking_prefixes</li> </ul> </li> <li>all-nltk <ul> <li>abc</li> <li>alpino</li> <li>biocreative_ppi</li> <li>brown</li> <li>brown_tei</li> <li>cess_cat</li> <li>cess_esp</li> <li>chat80</li> <li>city_database</li> <li>cmudict</li> <li>comparative_sentences</li> <li>comtrans</li> <li>conll2000</li> <li>conll2002</li> <li>conll2007</li> <li>crubadan</li> <li>dependency_treebank</li> <li>europarl_raw</li> <li>floresta</li> <li>framenet_v15</li> <li>framenet_v17</li> <li>gazetteers</li> <li>genesis</li> <li>gutenberg</li> <li>ieer</li> <li>inaugural</li> <li>indian</li> <li>jeita</li> <li>kimmo</li> <li>knbc</li> <li>lin_thesaurus</li> <li>mac_morpho</li> <li>machado</li> <li>masc_tagged</li> <li>moses_sample</li> <li>movie_reviews</li> <li>names</li> <li>nombank.1.0</li> <li>nps_chat</li> <li>omw</li> <li>opinion_lexicon</li> <li>paradigms</li> <li>pil</li> <li>pl196x</li> <li>ppattach</li> <li>problem_reports</li> <li>propbank</li> <li>ptb</li> <li>product_reviews_1</li> <li>product_reviews_2</li> <li>pros_cons</li> <li>qc</li> <li>reuters</li> <li>rte</li> <li>semcor</li> <li>senseval</li> <li>sentiwordnet</li> <li>sentence_polarity</li> <li>shakespeare</li> <li>sinica_treebank</li> <li>smultron</li> <li>state_union</li> <li>stopwords</li> <li>subjectivity</li> <li>swadesh</li> <li>switchboard</li> <li>timit</li> <li>toolbox</li> <li>treebank</li> <li>twitter_samples</li> <li>udhr</li> <li>udhr2</li> <li>unicode_samples</li> <li>universal_treebanks_v20</li> <li>verbnet</li> <li>webtext</li> <li>wordnet</li> <li>wordnet_ic</li> <li>words</li> <li>ycoe</li> <li>rslp</li> <li>maxent_treebank_pos_tagger</li> <li>universal_tagset</li> <li>maxent_ne_chunker</li> <li>punkt</li> <li>book_grammars</li> <li>sample_grammars</li> <li>spanish_grammars</li> <li>basque_grammars</li> <li>large_grammars</li> <li>tagsets</li> <li>snowball_data</li> <li>bllip_wsj_no_aux</li> <li>word2vec_sample</li> <li>panlex_swadesh</li> <li>mte_teip5</li> <li>averaged_perceptron_tagger</li> <li>perluniprops</li> <li>nonbreaking_prefixes</li> <li>vader_lexicon</li> <li>porter_test</li> <li>wmt15_eval</li> <li>mwa_ppdb</li> </ul> </li> <li>all <ul> <li>abc</li> <li>alpino</li> <li>biocreative_ppi</li> <li>brown</li> <li>brown_tei</li> <li>cess_cat</li> <li>cess_esp</li> <li>chat80</li> <li>city_database</li> <li>cmudict</li> <li>comparative_sentences</li> <li>comtrans</li> <li>conll2000</li> <li>conll2002</li> <li>conll2007</li> <li>crubadan</li> <li>dependency_treebank</li> <li>dolch</li> <li>europarl_raw</li> <li>floresta</li> <li>framenet_v15</li> <li>framenet_v17</li> <li>gazetteers</li> <li>genesis</li> <li>gutenberg</li> <li>ieer</li> <li>inaugural</li> <li>indian</li> <li>jeita</li> <li>kimmo</li> <li>knbc</li> <li>lin_thesaurus</li> <li>mac_morpho</li> <li>machado</li> <li>masc_tagged</li> <li>moses_sample</li> <li>movie_reviews</li> <li>names</li> <li>nombank.1.0</li> <li>nps_chat</li> <li>omw</li> <li>opinion_lexicon</li> <li>paradigms</li> <li>pil</li> <li>pl196x</li> <li>ppattach</li> <li>problem_reports</li> <li>propbank</li> <li>ptb</li> <li>product_reviews_1</li> <li>product_reviews_2</li> <li>pros_cons</li> <li>qc</li> <li>reuters</li> <li>rte</li> <li>semcor</li> <li>senseval</li> <li>sentiwordnet</li> <li>sentence_polarity</li> <li>shakespeare</li> <li>sinica_treebank</li> <li>smultron</li> <li>state_union</li> <li>stopwords</li> <li>subjectivity</li> <li>swadesh</li> <li>switchboard</li> <li>timit</li> <li>toolbox</li> <li>treebank</li> <li>twitter_samples</li> <li>udhr</li> <li>udhr2</li> <li>unicode_samples</li> <li>universal_treebanks_v20</li> <li>verbnet</li> <li>webtext</li> <li>wordnet</li> <li>wordnet_ic</li> <li>words</li> <li>ycoe</li> <li>rslp</li> <li>maxent_treebank_pos_tagger</li> <li>universal_tagset</li> <li>maxent_ne_chunker</li> <li>punkt</li> <li>book_grammars</li> <li>sample_grammars</li> <li>spanish_grammars</li> <li>basque_grammars</li> <li>large_grammars</li> <li>tagsets</li> <li>snowball_data</li> <li>bllip_wsj_no_aux</li> <li>word2vec_sample</li> <li>panlex_swadesh</li> <li>mte_teip5</li> <li>averaged_perceptron_tagger</li> <li>perluniprops</li> <li>nonbreaking_prefixes</li> <li>vader_lexicon</li> <li>porter_test</li> <li>wmt15_eval</li> <li>mwa_ppdb</li> </ul> </li> <li>book <ul> <li>abc</li> <li>brown</li> <li>chat80</li> <li>cmudict</li> <li>conll2000</li> <li>conll2002</li> <li>dependency_treebank</li> <li>genesis</li> <li>gutenberg</li> <li>ieer</li> <li>inaugural</li> <li>movie_reviews</li> <li>nps_chat</li> <li>names</li> <li>ppattach</li> <li>reuters</li> <li>senseval</li> <li>state_union</li> <li>stopwords</li> <li>swadesh</li> <li>timit</li> <li>treebank</li> <li>toolbox</li> <li>udhr</li> <li>udhr2</li> <li>unicode_samples</li> <li>webtext</li> <li>wordnet</li> <li>wordnet_ic</li> <li>words</li> <li>maxent_treebank_pos_tagger</li> <li>maxent_ne_chunker</li> <li>universal_tagset</li> <li>punkt</li> <li>book_grammars</li> <li>city_database</li> <li>tagsets</li> <li>panlex_swadesh</li> <li>averaged_perceptron_tagger</li> </ul> </li> <li>popular <ul> <li>cmudict</li> <li>gazetteers</li> <li>genesis</li> <li>gutenberg</li> <li>inaugural</li> <li>movie_reviews</li> <li>names</li> <li>shakespeare</li> <li>stopwords</li> <li>treebank</li> <li>twitter_samples</li> <li>omw</li> <li>wordnet</li> <li>wordnet_ic</li> <li>words</li> <li>maxent_ne_chunker</li> <li>punkt</li> <li>snowball_data</li> <li>averaged_perceptron_tagger</li> </ul> </li> <li>tests <ul> <li>averaged_perceptron_tagger</li> <li>porter_test</li> <li>twitter_samples</li> <li>wmt15_eval</li> <li>subjectivity</li> <li>framenet_v17</li> <li>product_reviews_1</li> <li>product_reviews_2</li> <li>vader_lexicon</li> <li>crubadan</li> <li>mte_teip5</li> <li>sentence_polarity</li> <li>universal_treebanks_v20</li> <li>panlex_swadesh</li> <li>nonbreaking_prefixes</li> <li>perluniprops</li> <li>pros_cons</li> <li>opinion_lexicon</li> <li>comparative_sentences</li> </ul> </li> <li>third-party <ul> <li>dolch</li> </ul> </li> </ul>

How to install NLTK data in windows (Anaconda)

Tags:

python

anaconda

nltk

I need some NLTK data packages in my code. I tried installing it from below command, but It installs all the packages that I do not need

conda install -c conda-forge nltk_data

How can I install specific NLTK data packages like stopwords, punkt, etc.

650

asked Jul 20 '18 09:07

arush1836

2 Answers

After installing nltk using pip,run the following code in ipython

import nltk
nltk.download()

After this you will get a GUI where you can download all the data

If you want specific download, you can do that too. GUI looks as shown below enter image description here

126

answered Nov 11 '22 22:11

InAFlash

From the NLTK documentation:

Run the Python interpreter and type the commands:
import nltk
nltk.download()

A new window will pop up where you can select the packages that you wish to install.

Alternatively, you can use

python -m nltk.downloader <collection|package|all>

to install the package or collection you want, or use all to install all of them.

Here is a list of the packages and collections that you can use in this command, extracted from nltk_data gh-pages.

Packages

maxent_ne_chunker
abc
alpino
biocreative_ppi
brown
brown_tei
cess_cat
cess_esp
chat80
city_database
cmudict
comparative_sentences
comtrans
conll2000
conll2002
conll2007
crubadan
dependency_treebank
dolch
europarl_raw
floresta
framenet_v15
framenet_v17
gazetteers
genesis
gutenberg
ieer
inaugural
indian
jeita
kimmo
knbc
lin_thesaurus
mac_morpho
machado
masc_tagged
movie_reviews
mte_teip5
names
nombank.1.0
nonbreaking_prefixes
nps_chat
omw
opinion_lexicon
panlex_swadesh
paradigms
pe08
pil
pl196x
ppattach
problem_reports
product_reviews_1
product_reviews_2
propbank
pros_cons
ptb
qc
reuters
rte
semcor
senseval
sentence_polarity
sentiwordnet
shakespeare
sinica_treebank
smultron
state_union
stopwords
subjectivity
swadesh
switchboard
timit
toolbox
treebank
twitter_samples
udhr
udhr2
unicode_samples
universal_treebanks_v20
verbnet
webtext
wordnet
wordnet_ic
words
ycoe
basque_grammars
book_grammars
large_grammars
sample_grammars
spanish_grammars
tagsets
mwa_ppdb
perluniprops
bllip_wsj_no_aux
moses_sample
wmt15_eval
word2vec_sample
vader_lexicon
porter_test
rslp
snowball_data
averaged_perceptron_tagger
averaged_perceptron_tagger_ru
maxent_treebank_pos_tagger
universal_tagset
punkt

Collections and the packages contained within them

all-corpora
- abc
- alpino
- biocreative_ppi
- brown
- brown_tei
- cess_cat
- cess_esp
- chat80
- city_database
- cmudict
- comtrans
- conll2000
- conll2002
- conll2007
- crubadan
- dependency_treebank
- dolch
- floresta
- framenet_v15
- framenet_v17
- gazetteers
- genesis
- gutenberg
- ieer
- inaugural
- indian
- jeita
- kimmo
- knbc
- lin_thesaurus
- mac_morpho
- machado
- masc_tagged
- movie_reviews
- names
- nombank.1.0
- nps_chat
- omw
- paradigms
- pil
- pl196x
- ppattach
- problem_reports
- propbank
- ptb
- qc
- reuters
- rte
- semcor
- senseval
- sentiwordnet
- shakespeare
- sinica_treebank
- state_union
- stopwords
- swadesh
- switchboard
- timit
- toolbox
- treebank
- udhr
- udhr2
- unicode_samples
- universal_treebanks_v20
- verbnet
- webtext
- wordnet
- wordnet_ic
- words
- ycoe
- panlex_swadesh
- mte_teip5
- nonbreaking_prefixes
all-nltk
- abc
- alpino
- biocreative_ppi
- brown
- brown_tei
- cess_cat
- cess_esp
- chat80
- city_database
- cmudict
- comparative_sentences
- comtrans
- conll2000
- conll2002
- conll2007
- crubadan
- dependency_treebank
- europarl_raw
- floresta
- framenet_v15
- framenet_v17
- gazetteers
- genesis
- gutenberg
- ieer
- inaugural
- indian
- jeita
- kimmo
- knbc
- lin_thesaurus
- mac_morpho
- machado
- masc_tagged
- moses_sample
- movie_reviews
- names
- nombank.1.0
- nps_chat
- omw
- opinion_lexicon
- paradigms
- pil
- pl196x
- ppattach
- problem_reports
- propbank
- ptb
- product_reviews_1
- product_reviews_2
- pros_cons
- qc
- reuters
- rte
- semcor
- senseval
- sentiwordnet
- sentence_polarity
- shakespeare
- sinica_treebank
- smultron
- state_union
- stopwords
- subjectivity
- swadesh
- switchboard
- timit
- toolbox
- treebank
- twitter_samples
- udhr
- udhr2
- unicode_samples
- universal_treebanks_v20
- verbnet
- webtext
- wordnet
- wordnet_ic
- words
- ycoe
- rslp
- maxent_treebank_pos_tagger
- universal_tagset
- maxent_ne_chunker
- punkt
- book_grammars
- sample_grammars
- spanish_grammars
- basque_grammars
- large_grammars
- tagsets
- snowball_data
- bllip_wsj_no_aux
- word2vec_sample
- panlex_swadesh
- mte_teip5
- averaged_perceptron_tagger
- perluniprops
- nonbreaking_prefixes
- vader_lexicon
- porter_test
- wmt15_eval
- mwa_ppdb
all
- abc
- alpino
- biocreative_ppi
- brown
- brown_tei
- cess_cat
- cess_esp
- chat80
- city_database
- cmudict
- comparative_sentences
- comtrans
- conll2000
- conll2002
- conll2007
- crubadan
- dependency_treebank
- dolch
- europarl_raw
- floresta
- framenet_v15
- framenet_v17
- gazetteers
- genesis
- gutenberg
- ieer
- inaugural
- indian
- jeita
- kimmo
- knbc
- lin_thesaurus
- mac_morpho
- machado
- masc_tagged
- moses_sample
- movie_reviews
- names
- nombank.1.0
- nps_chat
- omw
- opinion_lexicon
- paradigms
- pil
- pl196x
- ppattach
- problem_reports
- propbank
- ptb
- product_reviews_1
- product_reviews_2
- pros_cons
- qc
- reuters
- rte
- semcor
- senseval
- sentiwordnet
- sentence_polarity
- shakespeare
- sinica_treebank
- smultron
- state_union
- stopwords
- subjectivity
- swadesh
- switchboard
- timit
- toolbox
- treebank
- twitter_samples
- udhr
- udhr2
- unicode_samples
- universal_treebanks_v20
- verbnet
- webtext
- wordnet
- wordnet_ic
- words
- ycoe
- rslp
- maxent_treebank_pos_tagger
- universal_tagset
- maxent_ne_chunker
- punkt
- book_grammars
- sample_grammars
- spanish_grammars
- basque_grammars
- large_grammars
- tagsets
- snowball_data
- bllip_wsj_no_aux
- word2vec_sample
- panlex_swadesh
- mte_teip5
- averaged_perceptron_tagger
- perluniprops
- nonbreaking_prefixes
- vader_lexicon
- porter_test
- wmt15_eval
- mwa_ppdb
book
- abc
- brown
- chat80
- cmudict
- conll2000
- conll2002
- dependency_treebank
- genesis
- gutenberg
- ieer
- inaugural
- movie_reviews
- nps_chat
- names
- ppattach
- reuters
- senseval
- state_union
- stopwords
- swadesh
- timit
- treebank
- toolbox
- udhr
- udhr2
- unicode_samples
- webtext
- wordnet
- wordnet_ic
- words
- maxent_treebank_pos_tagger
- maxent_ne_chunker
- universal_tagset
- punkt
- book_grammars
- city_database
- tagsets
- panlex_swadesh
- averaged_perceptron_tagger
popular
- cmudict
- gazetteers
- genesis
- gutenberg
- inaugural
- movie_reviews
- names
- shakespeare
- stopwords
- treebank
- twitter_samples
- omw
- wordnet
- wordnet_ic
- words
- maxent_ne_chunker
- punkt
- snowball_data
- averaged_perceptron_tagger
tests
- averaged_perceptron_tagger
- porter_test
- twitter_samples
- wmt15_eval
- subjectivity
- framenet_v17
- product_reviews_1
- product_reviews_2
- vader_lexicon
- crubadan
- mte_teip5
- sentence_polarity
- universal_treebanks_v20
- panlex_swadesh
- nonbreaking_prefixes
- perluniprops
- pros_cons
- opinion_lexicon
- comparative_sentences
third-party
- dolch

answered Nov 12 '22 00:11

Bram Vanroy

Related questions
                            
                                Keras LSTM Multiple Input Multiple Output
                            
                                How to use AsciiDoc with Python?
                            
                                train_test_split with multiple features
                            
                                Fill forms using selenium or requests
                            
                                Is there documentation for file object?
                            
                                How can I determine if the numbers in a list initially increase (or stay the same) and then decrease (or stay the same) with Python?
                            
                                Matplotlib scale axis lengths to be equal
                            
                                Buffer function for python 3+
                            
                                getting percentage and count Python
                            
                                Update a bokeh plot using ajax
                            
                                mypy trouble with inheritance of objects in lists
                            
                                Get Row Position instead of Row Index from iterrows() in Pandas
                            
                                Cython + OpenCV and NumPy
                            
                                Determine the rate limit for requests
                            
                                Error: from tensorflow.examples.tutorials.mnist import input_data
                            
                                How do tell setuptools to get my package from src/mypackage
                            
                                Can't generate autodoc using Sphinx in my Django project
                            
                                Python: How to create multi line cells in excel when exporting a pandas dataframe
                            
                                How do I build multiple wheel files from a single setup.py?
                            
                                Eliminate nesting by creating new objects from json

Donate For Us

If you love us? You can donate to us via Paypal or buy me a coffee so we can maintain and grow! Thank you!

Donate Us With